nedelja, 29. januar 2012

Book – vendar ni knjiga!


© Wikipedia
Z razvojem sodobne tehnologije se vsakodnevno rojevajo nova poimenovanja, pretežno nastajajo v angleškem jeziku in si potem utirajo pot še drugam, kjer doživijo eno od štirih usod: dobesedni prevod (ti. kalkiranje, npr. online – linijski, printer - tiskalnik), oblikovanje ustreznice oz. uporaba že obstoječega prevoda (npr. mouse – miška, hash - lojtra), inovativno oblikovanje novega izraza (npr. compact disc - zgoščenka) ali prevzem tujke, ki lahko postane izposojenka in se nato sčasoma celo povsem udomači (npr. radar, čip). Niso pa vsi izrazi novost, pogosto se zgodi, da jezik že uveljavljen, star izraz, "opremi" z dodatnim, novim pomenom. Ta prenos poimenovanja temelji navadno na podobnosti glede izgleda, materiala, funkcije. Tako so danes tudi grafitna pisala še vedno svinčnik (ki je bil poimenovan po paličici iz svinca), zobne zalivke po domače imenujemo plomba (tudi po svincu), vrsto črk imenujemo font (dobesedno: iz svinca ulita tiskarska črka), na zaslonu sta namizje in koš za smeti, stilizirana sličica je postala ikona in napravica na mizi miška, pa čeprav danes najpogosteje že brez repka. Za CC v elektronski pošti vemo, da pomeni pošiljanje sporočila v vednost še komu, prihaja pa iz besed "carbon copy" ali po slovensko kopija z indigo papirjem, ker smo včasih le tako lahko na pisalnem stroju izdelali verno kopijo dopisa.

Od preprostih predmetov, s katerimi živimo, je imela knjiga izjemno veliko in pomembno vlogo pri poimenovanju sodobnih elektronskih naprav. Kdo ve, zakaj. Do neke mere nedvomno zaradi svoje značilne oblike ter enostavne in lahke prenosljivosti (predmeta in vsebine, to je podatkov), zagotovo pa tudi kot aluzija na znanje, izobraženost, kulturo, nepogrešljivost . . . V nadaljevanju navajam nekaj primerov v angleškem jeziku, ki pa v slovenščini niso našli analogije.

  • notebook - tudi laptop, je najstarejši in tudi edini, ki je dobil slovenski ustreznik notesnik (in sopomenko prenosnik, ker je bil prvi te vrste, sedaj pa so prenosni seveda tudi vsi njegovi nasledniki, zato glej primerjavo med notebookom in laptopom v zaključku!)
  • smartbook je prenosna naprava, ki združuje lastnosti pametnega telefona in mrežnika (ali spletnega računalnika, mini prenosnika), na tržišče je prišel leta 2009
  • subnotebook (tudi ultraportable, mini notebook) je vrsta prenosnih računalnikov, ki so manjši in lažji od navadnega notesnika
  • mini notebook tudi subnotebook, ultraportable
  • netbook ali mrežnik, spletni računalnik, mini prenosnik je majhen, lahek in energetsko varčen prenosnik, posebno primeren za komuniciranje in internetni dostop
  • ultrabook je dodelana in izboljšana različica subnotebooka in se je pojavil kot blagovna znamka Intela.
Ob teh generičnih poimenovanjih podzvrsti prenosnih računalnikov obstajajo še številna imena izdelkov različnih proizvajalcev, ki koketirajo z besedo book, npr. Flybook, Toughbook, Macbook, iBook, PowerBook, EliteBook, Chromebook, Dynabook, Lifebook, Smartbook, OmniBook, TouchBook in še kaj. Pogosto skuša ime na šaljiv način ponazarjati katero od značilnosti (npr. Flybook - majhen kot muha, Toughbook – robusten, odporen, vzdržljiv ipd.). Glede na razširjenost in donosnost posla ni nenavadno, da potekajo celo zaradi imen izdelkov tudi težke (ob)tožbe.

Kako je z razmerjem med terminoma laptop in notebook?
Večinoma uporabljamo oba izraza brez razlikovanja kot sopomenki, to priznavata tudi Wikipedia in Islovar. Tudi proizvajalci in prodajalci se ne strinjajo glede tega, ali med njima obstajajo razlika ali ne, tako je mogoče celo v oglasih za isti izdelek zaslediti enkrat eno in drugič drugo poimenovanje. To potrdi tudi iskanje z Googlom, ker najdemo pri iskanju z enim ali drugim poimenovanjem pogosto isti izdelek. Nekateri strokovnjaki skušajo narediti nekaj reda z razlikovanjem takole (vir: Wiki Uncle):

  • Laptop je prenosni računalnik, namenjen resnemu delu, z močno konfiguracijo in velikimi pomnilniškimi kapacitetami. Notebook je namenjen enostavnejšemu delu in temu primerno je konfiguracija šibkejša.
  • Notebook je praviloma manjši in precej lažji od navadnega laptopa, ustrezno manjši je tudi zaslon.
  • Notebook nima vgrajene laserske enote (CD, DVD).
  • Laptop ima kvalitetnejše avdiokomponente, isto velja za grafiko.
  • Laptopova tipkovnica je večja in zato je tipkanje lažje in natančnejše.
  • Avtonomija baterije je pri notebooku dvakra večja ali še boljša.
  • Nadgradnja strojne opreme laptopa je lažja in enostavnejša kot pri notebooku.

ultrabook cartoon
© geek&poke

nedelja, 22. januar 2012

Najbolj uporabljane, vendar nič ne povedo!

Za zabavo pa še 100 najpogostejših besed v angleškem jeziku. Vsi jih poznamo, vsi jih uporabljamo, v vsakem stavku mrgolijo, pa vendar . . . samo s temi besedami ne bi preživeli dneva! Začetek seznama najpogostejših besed v vseh jezikih zapolnjujejo funkcijske besede, to so besede, ki navadno nimajo posebnega leksikalnega pomena in služijo za izražanje slovničnih odnosov z drugimi besedami znotraj stavka (za razliko od leksikalnih besed, med katere spadajo samostalniki, glagoli, pridevniki in večina prislovov, ki so v jeziku praviloma nosilci sporočila). Med funkcijske besede štejemo predvsem veznike, predloge, zaimke, pomožne glagole, člene in členke. Oglejte si zanimiv, na koncu pa že malce dolgočasen posnetek o stotniji najpogostejših, ki jih ponavljamo iz stavka v stavek, iz misli v misel . . . včasih tudi kot mašilo, ko nam zmanjka pravih besed.

torek, 17. januar 2012

Top 200

Zadnja objava Najpogostejše besede in besedne zveze v bibliotekarski literaturi je vzbudila radovednost, katere so še druge pogoste besede in kako so glede pogostosti razporejene. Kot že rečeno, so med prvimi dvajsetimi najpogostejšimi predvsem funkcijske besede in le tri leksikalne besede. Ker zajema Korpus bibliotekarstva iz strokovnih in znanstvenih besedil, je število leksikalnih besed, kamor sodijo tudi strokovni termini, med pogostejšimi besedami večje, kot bi bilo v splošnem (nestrokovnem) jeziku. Sledi preglednica najpogostejših 200 besed, očitno je zelo strmo upadanje pogostosti, bibliotekar je šele na 217. mestu in je še zadnja beseda s pogostostjo nad tisoč.

Zap.št.FrekvencaBeseda
161859in
252542v
329354za
422229ki
521541knjižnica
614632tudi
714288z
813374pa
913325s
1012169ta
1110805kot
1210682pri
139973o
149151ali
158044po
167727ne
177353biti
186312gradivo
196176informacijski
206158od
215893iz
225743do
235709ter
245687med
255530podatek
265445uporabnik
275257sistem
285152imeti
295103knjižničen
304968področje
314831informacija
324743še
334512knjiga
344452svoj
354311kateri
363788različen
373718ves
383659le
393629število
403606kar
413573vir
423485uporaba
433480njihov
443269visokošolski
453257leto
463220že
473171zbirka
482983potreba
492967nov
502868glede
512834skupina
522816znanstven
532809avtor
542787strokoven
552754storitev
562736znanje
572734rezultat
582727program
592686oblika
602677slovenski
612645če
622632analiza
632629revija
642592ona
652575velik
662568raziskovalen
672544razvoj
682542zato
692522študent
702515ko
Zap.št.FrekvencaBeseda
712496način
722473uporabljati
732455oziroma
742413vprašanje
752366primer
762365vsebina
772356dejavnost
782342univerza
792338bolj
802335naj
812332članek
822327prvi
832326splošen
842309iskanje
852292k
862292knjižničar
872283stran
882261posamezen
892260organizacija
902246pomemben
912204čas
922202dokument
932195študij
942166izobraževanje
952162zapis
962150en
972106zelo
982087digitalen
992062raziskava
1002018elektronski
1012018predvsem
1022006ob
1031998proces
1041964standard
1051914morati
1061908zaradi
1071882nekateri
1081838določen
1091834vendar
1101833znanost
1111828katalog
1121824publikacija
1131814okolje
1141809njegov
1151803kakovost
1161765bibliografski
1171762dostop
1181757delovanje
1191740možnost
1201736tisti
1211733vsak
1221701omogočati
1231679mesto
1241674vrsta
1251653naloga
1261631jaz
1271631zaposlen
1281627ker
1291615cilj
1301607naslov
1311599metoda
1321598sicer
1331585kjer
1341575pomoč
1351550projekt
1361548objava
1371539enota
1381539nekaj
1391515poseben
1401485baza
Zap.št.FrekvencaBeseda
1411485tehnologija
1421457njen
1431439šolski
1441434predstavljati
1451429prostor
1461405deloven
1471393nacionalen
1481387sam
1491378visok
1501359država
1511345prav
1521338model
1531338ocena
1541318študijski
1551311pogosto
1561310iti
1571303kazati
1581299problem
1591295stopnja
1601292javen
1611283univerziteten
1621271literatura
1631271osnova
1641262osnoven
1651261ustrezen
1661241obdobje
1671193torej
1681189sredstvo
1691189ugotoviti
1701188pismenost
1711184svet
1721180bibliografija
1731179pomen
1741178mednaroden
1751178podatkoven
1761175poleg
1771175šola
1781173namen
1791171delavec
1801171povezan
1811162vmesnik
1821160raziskovalec
1831154oddelek
1841143razlika
1851142naslednji
1861131fakulteta
1871130povezava
1881127element
1891127učenje
1901120sprememba
1911117kaj
1921112odgovor
1931109okvir
1941109pogoj
1951105manj
1961102večina
1971100vedno
1981093sodelovanje
1991089jezik
2001086vrednost
2011072značilnost
2021055bibliotekarstvo
2031053založba
2041051uporabniški
2051046vloga
2061043oprema
2071040uspešnost
2081039posameznik
2091036pred
2101022družba

nedelja, 15. januar 2012

Najpogostejše besede in besedne zveze v bibliotekarski literaturi


Pogostost
V sestavku Najpogostejše besede je bilo govora o pogostosti besed v splošnem jeziku, predvsem v slovenščini in v angleščini, nekaj primerov pa je bilo tudi iz nemščine, francoščine in srbščine/hrvaščine. Poglejmo tokrat specialni strokovni jezik in pogostost pojavljanja besed v slovenskih bibliotekarskih besedilih. Za analizo bodo služili podatki slovenskega Korpusa bibliotekarstva, ki obsega okrog 1,8 milijona besed iz 234 slovenskih bibliotekarskih strokovnih in znanstvenih besedil. Z avtomatsko lematizacijo (lematizacija je proces pripisovanja osnovne oblike besednim oblikam v besedilu, npr. vse glagolske oblike spremenimo v nedoločnik, vse samostalniške oblike v imenovalnik ednine ipd.), za katero obstaja tudi v slovenskem jeziku že nekaj prav uporabnih spletnih programov, se je zmanjšalo število različnih besed na samo nekaj več kot 20.300. Njihova pogostost je zelo različna, od 61.859 (veznik in) do ena, teh je največ (okrog 7.300 besed, ki jim pravimo enkratnice). Glede na to, da gre za strokovna in znansvena besedila, je razporeditev pogostosti drugačna, kot je to v splošnem jeziku. Beseda knjižnica je po pogostosti že na petem mestu (21.541), gradivo na osemnajstem (6.312) in takoj za njim pridevnik informacijski, kmalu sledijo še podatek, uporabnik, sistem, knjižničen, informacija, triintrideseta najpogostejša beseda je knjiga (4.512).

Orodje za gradnjo in uporabo korpusa omogoča tudi iskanje, prikaz in analizo n-gramov (n-gram je zaporedje določenega števila (n) besed, npr. besedni dvojček, trojček, četverček ipd.). V nadaljevanju so naštete nekatere najpogostejše besedne zveze glede na pojavljanje v besedilih, ki jih analizira Korpus bibliotekarstva. Upoštevane so tiste besedne zveze, ki jih lahko štejemo za stalne besedne zveze ali za strokovne termine (ne pa npr. samostalnik s predlogom ali veznikom, osebek z glagolom ipd.), naštevanje začne z najpogostejšimi in sega v vsaki skupini po rangu do stotega mesta.

Besedni pari
   knjižnično gradivo
   visokošolske knjižnice
   informacijska pismenost
   informacijski viri
   splošne knjižnice
Besedni trojčki
   Univerza v Ljubljani
   v elektronski obliki
   sistemi za poizvedovanje
   enota knjižničnega gradiva
   v digitalni obliki
Besedni četverčki
   uporabniki s posebnimi potrebami
   Narodna in univerzitetna knjižnica
   dejavnost kot javna služba
   trajno ohranjanje digitalnih virov
   Center za razvoj knjižnic
   predmet informatika v športu
   informacijska in komunikacijska tehnologija
   standardi za splošne knjižnice
   nacionalni program za kulturo
    za otroke in mladino
   strokovni kriteriji in merila
   merila za visokošolske knjižnice

Besedni peterčki
   bibliotekarstvo, informacijska znanost in
       knjigarstvo
   knjižnična dejavnost kot javna služba
   pogoji za izvajanje knjižnične dejavnosti
   delo v sistemu vzajemne katalogizacije
   knjižnično gradivo na 1000 prebivalcev
   programska oprema za avtomatizacijo knjižnic
   zagotavljanje dostopa do informacijskih virov
   dostop do elektronskih informacijskih virov
   gradivo in drugi informacijski viri

 

Podatke o pogostosti posameznih besed in besednih zvez je treba razumeti v kontekstu besedil, ki jih Korpus bibliotekarstva zajel in analiziral (glej Korpus bibliotekarstva je dosegel popolno funkcionalnost). Od tega, katera besedila (in katerih avtorjev oz. s katerih strokovnih področij) so upoštevana, so odvisni besedni zaklad, pogostost posameznih besed in besednih zvez.

Zanimiva je infografika s prikazom 86.600 najpogostejših besed angleškega jezika, zajetih v British National Corpus, ki jo predstavlja WordCount.
Nekaj zanimivosti s tega seznama – dvajset izbranih besed z oznako ranga na lestvici pogostosti:

rangbesedarangbeseda
219 information1577 TV
357 book3700 catalogue
406 read3780 journal
555 paper3928 PC
559 type4505 mouse
705 computer4875 mobile
843 technology8143 ink
930 write8222 librarian
1271 phone9397 tag
1552 library11013 wireless


WordCount - Primer prikaza ranga za besedo database, ki je
v rangiranem seznamu na 2876. mestu tik pred besedo socialist

nedelja, 8. januar 2012

O številkah in času

Živimo v času številk, vse označujemo in prikazujemo s številkami, odstotki, razmerji. Celo slike, besedila in zvok pretvarjamo v številke in jih nato pretvarjamo nazaj v slike, besedilo, zvok . . . Količine so postale tako velike, da navadne številke in števila ne zadoščajo več, zato segamo po novih in novih številskih predponah za označevanje zelo velikih števil (na kratko o tem v Merske enote za bibliotekarje), izmišljamo si nove številske sisteme, zato imamo poleg uveljavljenega desetiškega z desetimi števkami še take z manj (npr. dvojiški) in več števkami (npr. šestnajstiški). Dvanajstiškega se najbrž spominjajo predvsem še stare mame, ki so kupovale jajca in nogavice na ducate. V različnih okoljih kljub mednarodni standardizaciji še vedno uporabljamo različne merske enote in načine zapisovanja količin. Prav okrog Novega leta je inšpektor po televiziji grozil s kaznimi . . . če pozabimo na že opuščene računalniške diskete, katerih dimenzije smo praviloma vsi, tudi laiki, opisovali v inčih ali palcih, colah, je še danes povsem enako z zasloni televizorjev (tu smo se malce že navadili tudi na centimetre), računalnikov, mobijev in bralnikov elektronskih knjig, sendviče ocenjujemo v kalorijah, krvni pritisk (tlak!) kar tako samo v številkah brez merske enote (ki pa pomenijo mm živosrebrnega stolpca), pritisk avtomobilskih zračnic v atmosferah ali barih, moč in živahnost avtomovilov v konjskih močeh . . . Vse to je glede na mednarodne standarde narobe! Verjetno so prav zato vremenarji na televiziji nehali poročati o zračnem tlaku, ker milibarov ne smejo uporabljati, hektopaskali pa so "normalnemu" Slovencu povsem nerazumljivi. Težave in nerazumevanje sejejo v novicah tudi novinarji, ki pogosto nestrokovno in površno prenašajo bilijon v slovenščino in ne povedo, od kod so ga prinesli – iz britanske in/ali ameriške ali mednarodne angleščine! Razlika je ogromna! (glej Wikipedia). Tudi s koledarjem ni prav enostavno, isti vir jih našteva kakih petdeset. Pri nas poznamo poleg julijanskega in gregorijanskega vsaj še islamskega, ki se za laika razlikujejo vsaj po dolžini leta in od tod zamiku datumov oz. praznikov, in začetku štetja.

Zapis datuma in časa določa mednarodni standard ISO 8601, veljavna različica je tretja izdaja, to je ISO 8601:2004, ki je izšla leta 2004. Po istem članku v Wikipediji povzemam nekatere primere.

Mednarodni standard za zapis datuma je:
            YYYY-MM-DD
kjer je YYYY leto po standardnem gregorijanskem koledarju, MM je mesec v letu (01 - januar, 12 - december) in DD dan v mesecu od 01 do 31.
Dan današnje objave na blogu se bi tako zapisal: 2012-01-08
Drugi običajni zapisi, ki se delno še uporabljajo, so lahko tudi v obliki: 1/8/2012, 8/1/2012, 12/2/4, 8.01.2006., 08-JAN-2012, 8-januar-2012 in še nekateri. Predvsem prvi dve obliki sta bili nevarni za zamenjavo, ker sta se uporabljali istočasno v ZDA in Veliki Britaniji, in ni jasno, kaj je dan in kaj mesec.

Standarden zapis dnevnega časa je:
           hh:mm:ss
kjer je:

  • hh - število polnih ur, ki so minile od polnoči (od 00 do 24);
  • mm - število polnih minut (od 00 do 59), ki so minile od začetka ure;
  • ss - število polnih sekund (od 00 do 59 in v izjemnih primerih dodane prestopne sekunde tudi 60), ki so minile od začetka minute;
  • če je ura 24, morajo biti minute in sekunde 00.
Za polnoč je možen zapis 00:00:00 ali 24:00:00. Tako se lahko ločuje obe polnoči, ki sta vezani na isti dan. Spodnja zapisa definirata točno isti čas:
           2011-12-31 24:00:00
           2012-01-01 00:00:00
Če je potrebno, se lahko določi tudi zaporedna številka dneva ali tedna v letu, tudi o tem govori navedeni standard.

Angleški "poljudni" zapis časa je praviloma z dvanajsturnim ciklusom in oznakama a.m. (lat. ante meridiem – pred poldnevom) in p.m. (lat. post meridiem – po poldnevu), ki jih uporabljajo tudi Španci in Grki. Opolne in opolnoči imajo seveda težave (takrat 12 ni niti a.m. niti p.m.!) in zato uporabijo domači izraz "noon" oz. "midnight".

Nekatere posebnosti odražajo jeziki že pri tvorjenju števil, pogosto tiči razlog v preteklem dvanajstiškem sistemu in latinskih števnikih. Taka števila se je treba v tujih jezikih pač naučiti kot besedo in pri hitrem reagiranju v govoru ali prevajanju pogosto povzročajo težave, npr. francoski quatre-vingt-quinze bi se dobesedno prevedlo v štiri-dvajsetice in petnajst, kar je seveda petindevetdeset! Tudi v nekaterih frazah je opaziti nenavadne razlike, ko v podobnem pomenu uporablja različno število. Pri nas je nekdo povedal vse z eno besedo, podobno v angleščini in v francoščini (in a word, en un mot), Italijani pa so gostobesednejši in raje in due parole. Podobno je s sopomenko za dva tedna. Pri nas je to štirinajst dni, enako pri Nemcih in Angležih (fourteen days ali fortnight), v italijanščini in francoščini pa petnajst (quindici giorni, quinze jours, une quinzaine de jours).

Pa vendar tudi Slovenci nismo imuni pred težavami v sporazumevanju o času. Če se bosta študenta Štajerka in Primorec (ali Gorenjec) dogovorila za zmenek ob "tri četrt na šest", se zagotovo ne bosta srečala!

torek, 3. januar 2012

Najpogostejše besede

Jezik je živa tvorba, ki nenehno raste in se razvija ter tako prilagaja sodobnemu načinu življenja, kulturi in tehnologiji. Število besed se vztrajno povečuje, najpogosteje uporabljane besede pa ostajajo kljub temu v glavnem iste. Katere besede pa najpogosteje uporabljamo? To je zelo odvisno od tega, kateri segment jezika opazujemo, v vsakodnevnem pogovornem jeziku so na prvem mestu seveda druge besede kot v literarnih ali strokovnih besedilih, v jeziku tviterašev zopet druge. Velike so tudi razlike med posameznimi jeziki glede na značilnosti slovnice in sintakse. Poglejmo v nadaljevanju nekaj primerov za različne jezike v splošni rabi, prihodnjič pa še slovenska bibliotekarska besedila kot določeni stroki posvečen segment jezika.

Začetek seznama najpogostejših besed v vseh jezikih zapolnjujejo funkcijske besede. To so besede, ki navadno nimajo posebnega leksikalnega pomena in služijo za izražanje slovničnih odnosov z drugimi besedami znotraj stavka (za razliko od leksikalnih besed, med katere spadajo samostalniki, glagoli, pridevniki in večina prislovov). Med funkcijske besede štejemo predvsem veznike, predloge, zaimke, pomožne glagole, člene in členke.

Analizo pogostosti pojavljanja besed v sodobnem angleškem jeziku so naredili pri Oxford English Dictionary, temelji pa na referenčnem besedilnem korpusu angleškega jezika, ki vsebuje več kot dve milijardi besed iz vseh vrst besedil od leposlovja do dnevnega časopisja, strokovnih besedil in tudi spletnih virov kot so klepetalnice, blogi in podobno, ter velja za največji tovrstni korpus.
V skladu z nekaterimi znanimi zakoni o pogostosti in distribuciji (npr. Zipfov zakon, o katerem je bilo na tem blogu govora že v objavi Sto najpogostejših) predstavlja prvih 25 najpogostejših besed okrog ene tretjine vsebine tiskanih besedil v angleškem jeziku. Najpogostejših 100 besed predstavlja kar polovico pisanih besedil in prvih 300 najpogostejših besed več kot 65% vseh pisanih besedil v angleščini.
Med vsemi besedami je najpogostejši določni člen (the), ki mu takoj sledi pomožni glagol (biti). Pri samostalnikih je na prvem mestu beseda čas, sledijo oseba, leto, pot, dan, že na dvajsetem mestu je vlada (kdo bi si mislil?!), na srečo so pred njo še ženska, moški (oz. človek) in otrok. Med glagoli so na prvih treh mestih pomožni glagoli (be, have, do – kjer have seveda nastopa v dveh vlogah), sledijo reči, dobiti, narediti, iti, vedeti itd. Nekatere druge analize angleških besedil se pri rangiranju nekoliko razlikujejo, vzrok pa je zajemanje drugačne vrste besedil. Pričakovati je, da je seznam najpogostejših besed ameriške angleščine precej, vendar ne povsem, podoben. Korpusa ameriške angleščine sta po obsegu dosti manjša, pogostnostnega seznama pa žal nisem mogel primerjati (ker je plačljiv).
Zanimiva je virtualizacija WordCount z iskalnikom po 86.600 najpogostejših besedah angleškega jezika, zajetih v British National Corpus, navajam primer za besedo book, ki je v rangiranem seznamu že na 357. mestu:

Podatke za druge jezike povzemam po dveh virih, to so seznami Univerze v Leipzigu in Wiktionary. V nemškem jeziku zasedajo funkcijske besede celo prvih 62 mest, prva leksikaln abeseda je moči, potem pa šele na 79. mestu znati, vedeti, prvi samostalnik je šele na 103. mestu moški, človek; med prvimi dvestotimi so samostalniki zelo redki.

Podatki za francoski jezik so nastali z analizo belgijskih gradiv, kar seveda ne predstavlja najbolj reprezentativnega vzorca za francoščino. Podobno kot pri nemščini sodi prvih 61 najpogostejših med funkcijske besede, šele nato nastopa prva leksikalna beseda, ki se pojavlja kot homonim (marché), to je kot samostalnik trg, tržišče ali glagol hoditi v preteklem času, kmalu zatem pa sledijo še dežela, milijon, leto, čas, skupina, družba itd. Seznam najpogostejših besed v besedilih, namenjenih šolskemu branju, je seveda nekoliko drugačen.

Seznam pogostih besed v srbohrvaščini (tako poimenujejo ta jezik v viru) je nastal iz podatkovne zbirke besedil podnapisov v filmih. Prvih 27 sodi med funkcijske besede, šele potem pride prva leksikalna beseda dobro, nekoliko kasneje še vedeti, tukaj, moči, misliti, reči itd.

Tudi seznam slovenskih besed izvira iz podatkovne zbirke besedil podnapisov v filmih; podatkovna zbirka je dokaj obsežna, saj je pogostost samo pomožnega glagola v edninskih oblikah več kot štiri milijone. Za funkcijskimi besedami je na 18. mestu lahko, daleč za njim dobro, potem pa vedeti, tukaj, hvala, imeti itd.
Po naboru več kot 110 slovenskih leposlovnih besedil, analiziranih v disertaciji Entropija v slovenskih leposlovnih besedilih (Primož Jakopin, 2002), so med prvimi petdesetimi samo funkcijske besede z izjemo šestintridesete (vse). Med samostalniki so najpogostejši beseda, človek, dan, glava, leto, ljudje, oče, oči, roka in življenje. Precej podobno sliko kaže slovenski besedilni korpus Nova beseda, ki obsega nad 318 milionov besed. Med najpogostejšimi 100 besedami sta samo samostalnika leto in predsednik (kako prikladno za ta novoletno-povolilni čas v Sloveniji!).

Za kakšnih 40 jezikov ponuja na vpogled sezname najpogostejših besed spletišče Frequency Word Lists.
O pogostosti besed in besednih zvez v slovenskih bibliotekarskih besedilih pa več v prihodnji objavi.