torek, 03. januar 2012

Najpogostejše besede

Jezik je živa tvorba, ki nenehno raste in se razvija ter tako prilagaja sodobnemu načinu življenja, kulturi in tehnologiji. Število besed se vztrajno povečuje, najpogosteje uporabljane besede pa ostajajo kljub temu v glavnem iste. Katere besede pa najpogosteje uporabljamo? To je zelo odvisno od tega, kateri segment jezika opazujemo, v vsakodnevnem pogovornem jeziku so na prvem mestu seveda druge besede kot v literarnih ali strokovnih besedilih, v jeziku tviterašev zopet druge. Velike so tudi razlike med posameznimi jeziki glede na značilnosti slovnice in sintakse. Poglejmo v nadaljevanju nekaj primerov za različne jezike v splošni rabi, prihodnjič pa še slovenska bibliotekarska besedila kot določeni stroki posvečen segment jezika.

Začetek seznama najpogostejših besed v vseh jezikih zapolnjujejo funkcijske besede. To so besede, ki navadno nimajo posebnega leksikalnega pomena in služijo za izražanje slovničnih odnosov z drugimi besedami znotraj stavka (za razliko od leksikalnih besed, med katere spadajo samostalniki, glagoli, pridevniki in večina prislovov). Med funkcijske besede štejemo predvsem veznike, predloge, zaimke, pomožne glagole, člene in členke.

Analizo pogostosti pojavljanja besed v sodobnem angleškem jeziku so naredili pri Oxford English Dictionary, temelji pa na referenčnem besedilnem korpusu angleškega jezika, ki vsebuje več kot dve milijardi besed iz vseh vrst besedil od leposlovja do dnevnega časopisja, strokovnih besedil in tudi spletnih virov kot so klepetalnice, blogi in podobno, ter velja za največji tovrstni korpus.
V skladu z nekaterimi znanimi zakoni o pogostosti in distribuciji (npr. Zipfov zakon, o katerem je bilo na tem blogu govora že v objavi Sto najpogostejših) predstavlja prvih 25 najpogostejših besed okrog ene tretjine vsebine tiskanih besedil v angleškem jeziku. Najpogostejših 100 besed predstavlja kar polovico pisanih besedil in prvih 300 najpogostejših besed več kot 65% vseh pisanih besedil v angleščini.
Med vsemi besedami je najpogostejši določni člen (the), ki mu takoj sledi pomožni glagol (biti). Pri samostalnikih je na prvem mestu beseda čas, sledijo oseba, leto, pot, dan, že na dvajsetem mestu je vlada (kdo bi si mislil?!), na srečo so pred njo še ženska, moški (oz. človek) in otrok. Med glagoli so na prvih treh mestih pomožni glagoli (be, have, do – kjer have seveda nastopa v dveh vlogah), sledijo reči, dobiti, narediti, iti, vedeti itd. Nekatere druge analize angleških besedil se pri rangiranju nekoliko razlikujejo, vzrok pa je zajemanje drugačne vrste besedil. Pričakovati je, da je seznam najpogostejših besed ameriške angleščine precej, vendar ne povsem, podoben. Korpusa ameriške angleščine sta po obsegu dosti manjša, pogostnostnega seznama pa žal nisem mogel primerjati (ker je plačljiv).
Zanimiva je virtualizacija WordCount z iskalnikom po 86.600 najpogostejših besedah angleškega jezika, zajetih v British National Corpus, navajam primer za besedo book, ki je v rangiranem seznamu že na 357. mestu:

Podatke za druge jezike povzemam po dveh virih, to so seznami Univerze v Leipzigu in Wiktionary. V nemškem jeziku zasedajo funkcijske besede celo prvih 62 mest, prva leksikaln abeseda je moči, potem pa šele na 79. mestu znati, vedeti, prvi samostalnik je šele na 103. mestu moški, človek; med prvimi dvestotimi so samostalniki zelo redki.

Podatki za francoski jezik so nastali z analizo belgijskih gradiv, kar seveda ne predstavlja najbolj reprezentativnega vzorca za francoščino. Podobno kot pri nemščini sodi prvih 61 najpogostejših med funkcijske besede, šele nato nastopa prva leksikalna beseda, ki se pojavlja kot homonim (marché), to je kot samostalnik trg, tržišče ali glagol hoditi v preteklem času, kmalu zatem pa sledijo še dežela, milijon, leto, čas, skupina, družba itd. Seznam najpogostejših besed v besedilih, namenjenih šolskemu branju, je seveda nekoliko drugačen.

Seznam pogostih besed v srbohrvaščini (tako poimenujejo ta jezik v viru) je nastal iz podatkovne zbirke besedil podnapisov v filmih. Prvih 27 sodi med funkcijske besede, šele potem pride prva leksikalna beseda dobro, nekoliko kasneje še vedeti, tukaj, moči, misliti, reči itd.

Tudi seznam slovenskih besed izvira iz podatkovne zbirke besedil podnapisov v filmih; podatkovna zbirka je dokaj obsežna, saj je pogostost samo pomožnega glagola v edninskih oblikah več kot štiri milijone. Za funkcijskimi besedami je na 18. mestu lahko, daleč za njim dobro, potem pa vedeti, tukaj, hvala, imeti itd.
Po naboru več kot 110 slovenskih leposlovnih besedil, analiziranih v disertaciji Entropija v slovenskih leposlovnih besedilih (Primož Jakopin, 2002), so med prvimi petdesetimi samo funkcijske besede z izjemo šestintridesete (vse). Med samostalniki so najpogostejši beseda, človek, dan, glava, leto, ljudje, oče, oči, roka in življenje. Precej podobno sliko kaže slovenski besedilni korpus Nova beseda, ki obsega nad 318 milionov besed. Med najpogostejšimi 100 besedami sta samo samostalnika leto in predsednik (kako prikladno za ta novoletno-povolilni čas v Sloveniji!).

Za kakšnih 40 jezikov ponuja na vpogled sezname najpogostejših besed spletišče Frequency Word Lists.
O pogostosti besed in besednih zvez v slovenskih bibliotekarskih besedilih pa več v prihodnji objavi.

Ni komentarjev:

Objavite komentar