Medpraznični dnevi ob zaključku leta so bili vremensko dovolj nestimulativni za večje podvige in temperaturno tako ekstremni in za december netipični, da se ni bilo treba preveč posvečati lončeni peči in avgusta nacepljenim drvom, zato je Korpus bibliotekarstva s svojimi 3,6 milijona besedami kar vabil k analizi in nadaljevanju razpredanja o vprašanju Koliko je besed?, ki sem ga tu na blogu začel lani spomladi. Raziskave kažejo, da uporabljajo slovenski srednješolci v povprečju okrog deset tisoč besed, za branje slovenskih časopisov zadostuje že znanje pet tisoč besed, tujec pa naj bi se za silo znašel že z znanjem dva tisoč slovenskih besed. Po besedah dr. Primoža Jakopina, vodje Laboratorija za korpus slovenskega jezika pri ZRC SAZU, obsega besedni zaklad slovenskega jezika okrog pol milijona besed (Slovenskih 500 tisoč, Finance, 31.12.2008). Gre za besede splošne slovenščine, ki jih najdemo v Slovarju slovenskega knjižnega jezika (93.500 gesel), v Besedišču slovenskega jezika (178 tisoč gesel, ki jih niso uvrstili v slovar), ter druge besede, ki so se v minulih dveh desetletjih po nastanku slovarja pojavile v periodičnem tisku in knjigah, na televiziji, v diplomskih in magistrskih nalogah ter doktorskih disertacijah, pa še v drugih publikacijah, na primer letakih in reklamah, ter na internetu. V praksi pa je tako, da najpogostejših 1000 besed predstavlja več kot 50 % v slovenščini uporabljenih besed. Velika večina besed se pojavlja precej redko, večkrat tudi v omejeni skupini ljudi, taka so na primer strokovna besedišča.
Prav proučevanju besednega zaklada in terminologije bibliotekarske stroke je namenjen Korpus bibliotekarstva, ki je zajel in evidentiral besedje iz 625 objavljenih strokovnih in znanstvenih besedil. Kakšen jezik uporabljamo v bibliotekarstvu, kolikšen besedni zaklad uporabljamo in katere so najpogostejše besede?
V navedenih 625 besedilih s področja bibliotekarstva je bilo evidentiranih 3.660.900 besed, kar je treba "vzeti z rezervo" in število pravilno interpretirati:
- V tem kontekstu je beseda vsak niz znakov v besedilu, ki je na obeh straneh razmejen s presledkom. Sem torej sodijo vse številke, oznake poglavij ipd., zato ostane po ustreznem "čiščenju" samo še okrog 3.573.457 pravih besed (od "A" do "žvižgajoč").
- Mnoge med njimi se seveda ponavljajo, zato je po združevanju enakih ostalo še nekaj manj kot 150.000 različnih oblik besed.
- Svoje k raznolikosti seveda prispeva tudi značilnost slovenščine, da je pregibni jezik. Bogastvo in kompleksnost jezika glede na pregibnost se izraža v tem, da je število izpeljank, ki jih imajo leme v povprečju, relativno veliko. Lema je kanonična, to je osnovna oblika besede (npr. prva oseba ednine pri samostalniku, nedoločnik pri glagolu itd. - lema za besede "knjižničnega, knjižničnemu, knjižničnim . . . " je "knjižničen", za "grem, greva, pojdiva, šli, šla, šle . . . " pa "iti" itd.) iz katere z uporabo končnic nastanejo izpeljanke. Glede na bogastvo sklonov, števil in spolov ima npr. velika večina samostalnikov mnogo izpeljank. Šele z lematizacijo, to je računalniškim postopkom spreminjanja vseh besed v lemo, to je osnovno obliko besede, je nastal pravi nabor vseh različnih besed, ki so bile uporabljene v obravnavanih besedilih – takih besed je 28.808.
- Pri tem je treba upoštevati, da je ostalo kljub "ročnemu čiščenju" še nekaj tujih besed (povzetki v angleščini so bili iz analize sicer izločeni, ostali pa so citati in večji del opomb) in imen.
Med najpogostejših 50 se je vrinilo tudi 13 za bibliotekarstvo pomembnih terminov
Več o zastopanosti besednih vrst in njihovih najpogostejših predstavnikih pa v nadaljevanju prihodnjič.
Ni komentarjev:
Objavite komentar
Opomba: Komentarje lahko objavljajo le člani tega spletnega dnevnika.