petek, 11. marec 2011

Sto najpogostejših

Ko vzamem v roke slovar, se mi samo po sebi utrne vprašanje, koliko bogastva je v njem, koliko besed, koliko od tega je še neznanih. Profesionalna deformacija. Ta teden sem vsak večer preživel s slovarjem v roki, tistim klasičnim tiskanim slovarjem, že malo posivelim tam sredi obreze, kjer palec išče med listi . . . so že vedeli Angleži, zakaj so rodili izraz "to thumb" za naše opisno "obrabiti knjigo z listanjem"! Zakaj nisem segel po čem sodobnejšem? Ker pač tak, kot sem ga potreboval, v elektronski obliki še ne obstaja, ker je tiskani bogat in podroben, poln fines in mu elektronski bratec ne sega niti do kolen. Pa saj bo zrasel. Takrat bom segel po elektronskem. Ko torej vzamem slovar v roke, mi že občutek debeline, teže, bežen prelet prstov in oči med stranmi ustvari zadovoljiv vtis o tem, kaj lahko v njem pričakujem. Ko vstopim v neznan elektronski slovar, tega vtisa navadno ni, cederomi so vsi enako debeli in istega premera, pri spletnih je z izjemo redkih zaslonska slika precej podobna zaslonski sliki . . . nad tem sem se že pritoževal.

Ko pa vzamem v roke Bibliotekarski terminološki slovar, je seveda drugače, saj sva skupaj rasla. Ko smo kakšno geslo v delovni skupini zadovoljivo obdelali, sem bil jaz tista "tipkarica", vsak znak v njem je posledica pritiska mojega prsta na tipko, najprej Spectrumovo, pa Atarijevo in pecejevo, začelo se je z 286, če komu od mlajših bralcev ta zgodovinska številka še kaj pove, potem pa na novejših vse do prenosnega hapeja, s katerim je šlo potem v tisk in tudi na splet. Z malo sreče naj bi spletna verzija do poletja prešla v drugo okolje, ampak ministrstvo spet zamuja z rezultati razpisa . . .

Tokrat bom nanizal nekaj statističnih zanimivosti o obsegu, sestavi in strukturi Bibliotekarskega terminološkega slovarja. Če zanemarimo 40 grafičnih znakov (npr. #, [, ©, * ipd.), je obsegala podatkovna zbirka v času izida tiskane izdaje slovarja 6520 zapisov, torej prav toliko gesel oz. terminov in terminoloških zvez, dokaj razčlenjena podatkovna struktura zbirke pa je odraz različnih potreb, ki jih mora slovar izpolniti.

Pregled terminološke slovarske zbirke ponuja nekaj zanimivih osnovnih ugotovitev o zastopanosti besednih vrst:

  • 5.767 gesel (86%) ima označevalnik za spol, so torej samostalniki ali samostalniške zveze, od tega 2.486 moškega spola, 2.483 ženskega spola in 798 srednjega spola
  • glagolov je le 71, pri teh je označen tudi glagolski vid (24 dovršnih, 16 nedovršnih ter 31 dovršno in nedovršno)
  • 184 je kratic in 164 okrajšav
  • besednovrstno oznako ima 71 gesel, praviloma so to pridevniki - 68, po eden pa je predlog, prislov in veznik.
Teh 6520 gesel je sestavljenih iz 12.729 besed, z avtomatsko lematizacijo (lematizacija je proces pripisovanja osnovne oblike besednim oblikam v besedilu, npr. vse glagolske oblike spremenimo v nedoločnik, vse samostalniške oblike v imenovalnik ednine ipd.), za katero obstaja tudi v slovenskem jeziku že nekaj prav uporabnih spletnih programov, se je zmanjšalo število različnih besed na samo 3.016. Njihova pogostost je zelo različna, od 233 do ena, teh je največ. Zmagovalca sta nedvomno znana in povsem pričakovana, to sta knjižnica z 233 pojavljanji in knjižnični 186 pojavljanj, potem pa pogostost strmo pada. Dvanajsta najpogostejša beseda se pojavlja stokrat, petdeseta že pade pod pogostost 30, enaindevetdeseta je pod pogostostjo 20, na 210. mestu pa pogostost pade že pod 10. Od 1287. besede in naprej so besede, ki se pojavljajo samo še po enkrat, takih je 1721 (57%).


Skokovito upadanje pogostosti besed

Pri tovrstnih jezikovnih podatkih marsikdo pomisli na predpostavko Zipfovega zakona in se vpraša, ali velja tudi za ugotovitve v Bibliotekarskem terminološkem slovarju.

Primerjava teoretične Zipfove krivulje in dejanskih pogostosti
besed v slovarskih geslih
Zipfov zakon temelji na trditvi, da je majhno število besed uporabljeno zelo pogosto, mnogo drugih ali skoraj vse ostale pa zelo poredko. V svoji prvotni obliki označuje empirično ugotovitev harvardskega jezikoslovca Georga Kingsleya Zipfa, da je v vsakem naravnem jeziku pogostost n-te najpogosteje uporabljane besede približno recipročno odvisna od n. Klasičen zgled Zipfove funkcije je funkcija 1/f. Če množico po Zipfovem zakonu porazdeljenih pogostosti uredimo od najpogostejše do najmanj pogoste, bo pogostost druge najpogostejše ravno ena polovica pogostosti prve, pogostost tretje najpogostejše pa 1/3 pogostosti prve itn., tako da je pogostost n-te najpogostejše 1/n pogostosti prve (Wikipedia, Zipfov zakon)

Zipfov zakon velja predvsem za živi jezik, slovarsko gradivo pa seveda od tega odstopa, še toliko bolj, ker gre za terminološki slovar, kjer nekateri poudarki strokovne terminologije pa tudi razmišljanja uredniške skupine obidejo značilnosti in zakonitosti živega jezika za vsakodnevno komuniciranje. To ponazarja odstopanje teoretične in empirične krivulje na zgornjem grafu, vendar je očitno, da se trenda krivulj ujemata.

In kakšna je lestvica stotih najpogostejših besed, med katerimi je 72 samostalnikov in 28 pridevnikov? Vodi seveda knjižnica, pomenljivo pa je informacijski že na devetem mestu z več kot sto pojavljanji, takoj za petami pa sta mu podatek in informacija. Zelo visoko sta uvrščena tudi računalniški in elektronski.

Sto najpogostejših besed v geslih Bibliotekarskega terminološkega slovarja v razpredelnici in vizualiziranih v oblaku.

Ni komentarjev:

Objavite komentar