nedelja, 15. januar 2012

Najpogostejše besede in besedne zveze v bibliotekarski literaturi


Pogostost
V sestavku Najpogostejše besede je bilo govora o pogostosti besed v splošnem jeziku, predvsem v slovenščini in v angleščini, nekaj primerov pa je bilo tudi iz nemščine, francoščine in srbščine/hrvaščine. Poglejmo tokrat specialni strokovni jezik in pogostost pojavljanja besed v slovenskih bibliotekarskih besedilih. Za analizo bodo služili podatki slovenskega Korpusa bibliotekarstva, ki obsega okrog 1,8 milijona besed iz 234 slovenskih bibliotekarskih strokovnih in znanstvenih besedil. Z avtomatsko lematizacijo (lematizacija je proces pripisovanja osnovne oblike besednim oblikam v besedilu, npr. vse glagolske oblike spremenimo v nedoločnik, vse samostalniške oblike v imenovalnik ednine ipd.), za katero obstaja tudi v slovenskem jeziku že nekaj prav uporabnih spletnih programov, se je zmanjšalo število različnih besed na samo nekaj več kot 20.300. Njihova pogostost je zelo različna, od 61.859 (veznik in) do ena, teh je največ (okrog 7.300 besed, ki jim pravimo enkratnice). Glede na to, da gre za strokovna in znansvena besedila, je razporeditev pogostosti drugačna, kot je to v splošnem jeziku. Beseda knjižnica je po pogostosti že na petem mestu (21.541), gradivo na osemnajstem (6.312) in takoj za njim pridevnik informacijski, kmalu sledijo še podatek, uporabnik, sistem, knjižničen, informacija, triintrideseta najpogostejša beseda je knjiga (4.512).

Orodje za gradnjo in uporabo korpusa omogoča tudi iskanje, prikaz in analizo n-gramov (n-gram je zaporedje določenega števila (n) besed, npr. besedni dvojček, trojček, četverček ipd.). V nadaljevanju so naštete nekatere najpogostejše besedne zveze glede na pojavljanje v besedilih, ki jih analizira Korpus bibliotekarstva. Upoštevane so tiste besedne zveze, ki jih lahko štejemo za stalne besedne zveze ali za strokovne termine (ne pa npr. samostalnik s predlogom ali veznikom, osebek z glagolom ipd.), naštevanje začne z najpogostejšimi in sega v vsaki skupini po rangu do stotega mesta.

Besedni pari
   knjižnično gradivo
   visokošolske knjižnice
   informacijska pismenost
   informacijski viri
   splošne knjižnice
Besedni trojčki
   Univerza v Ljubljani
   v elektronski obliki
   sistemi za poizvedovanje
   enota knjižničnega gradiva
   v digitalni obliki
Besedni četverčki
   uporabniki s posebnimi potrebami
   Narodna in univerzitetna knjižnica
   dejavnost kot javna služba
   trajno ohranjanje digitalnih virov
   Center za razvoj knjižnic
   predmet informatika v športu
   informacijska in komunikacijska tehnologija
   standardi za splošne knjižnice
   nacionalni program za kulturo
    za otroke in mladino
   strokovni kriteriji in merila
   merila za visokošolske knjižnice

Besedni peterčki
   bibliotekarstvo, informacijska znanost in
       knjigarstvo
   knjižnična dejavnost kot javna služba
   pogoji za izvajanje knjižnične dejavnosti
   delo v sistemu vzajemne katalogizacije
   knjižnično gradivo na 1000 prebivalcev
   programska oprema za avtomatizacijo knjižnic
   zagotavljanje dostopa do informacijskih virov
   dostop do elektronskih informacijskih virov
   gradivo in drugi informacijski viri

 

Podatke o pogostosti posameznih besed in besednih zvez je treba razumeti v kontekstu besedil, ki jih Korpus bibliotekarstva zajel in analiziral (glej Korpus bibliotekarstva je dosegel popolno funkcionalnost). Od tega, katera besedila (in katerih avtorjev oz. s katerih strokovnih področij) so upoštevana, so odvisni besedni zaklad, pogostost posameznih besed in besednih zvez.

Zanimiva je infografika s prikazom 86.600 najpogostejših besed angleškega jezika, zajetih v British National Corpus, ki jo predstavlja WordCount.
Nekaj zanimivosti s tega seznama – dvajset izbranih besed z oznako ranga na lestvici pogostosti:

rangbesedarangbeseda
219 information1577 TV
357 book3700 catalogue
406 read3780 journal
555 paper3928 PC
559 type4505 mouse
705 computer4875 mobile
843 technology8143 ink
930 write8222 librarian
1271 phone9397 tag
1552 library11013 wireless


WordCount - Primer prikaza ranga za besedo database, ki je
v rangiranem seznamu na 2876. mestu tik pred besedo socialist

7 komentarjev:

  1. Zanima me, ali se pojavi termin bibliopedagogika.
    Če se, kolikokrat, morda v besedni zvezi ...
    Hvala.

    OdgovoriIzbriši
  2. Termin "bibliopedagogika" v doslej analiziranih bibliotekarskih besedilih še ni bil evidentiran, se pa 13-krat pojavlja pridevnik bibliopedagoški. Bibliopedagogike tudi Nova beseda ni evidentirala, ima pa po enkrat biblipedagoga in bibliopedagoginjo.

    Poudariti je treba, da je nabor besed seveda neposredno odvisen od besedil, ki so v korpusu že zajeta in zato (še) ne pokrivajo besedišča vseh avtorjev in vseh strokovnih področij; nabor besedil glede na tipologijo je razviden iz naslovne strani korpusa, sami naslovi besedil in avtorji pa so navedeni v seznamu besedil . Z dodajanjem novih besedil bo mogoče prišla na površje tudi beseda "bibliopedagigika". Verjamem, da bi bibliopedagogiko zagotovo našel v člankih revije Šolska knjižnica, vendar ta izhaja žal samo v tiskani obliki, Korpus bibliotekarstva pa se je omejil na elektronsko objavljena besedila in ne kaže, da bi se tu kaj spremenilo.

    OdgovoriIzbriši
  3. @Janez: Ker ste že v zapisu o Korpusu b. omenili, komu vse je lahko koristen me zanima a) kje si je mogoče pridobiti osnovno znanje za sestavljanje Korpusa za neko področje in b) kako se nato sploh lotiti takega dela. In potem, kakšen je kriterij za izbiro besedil iz katerih nastaja korpus (ekspertiza avtorja, obveza lektoriranja ipd.) in ali je mogoče vključevati tudi strokovne revije ali celo specializirane blogovske zapise?

    OdgovoriIzbriši
    Odgovori
    1. O znanju:
      Korpusno jezikoslovje je postalo sestavni del formalnega izobraževanja jezikoslovcev, domnevam, da poleg teoretičnih izhodišč v nekaterih okoljih spregovorijo precej tudi o praktičnih vidikih zasnove in izgradnje korpusov. Tudi vsak resen učbenik in/ali priročnik s področja jezikoslovja se danes o tem bolj ali manj obširno razpiše (npr. Bo Svensen: A Handbook of lexicography, 2009, knjiga je dosegljiva tudi v elektronski obliki na spletu, ali pa v slovensščini Špela Vintar: Terminologija : Terminološka veda in računalniško podprta terminografija, 2008). Kaj malega človek izve tudi na spletnih straneh posameznih korpusov, to so predvsem dobra izhodišča za razmišljanje (o morebitnem lastnem korpusu). Na LinkedIn obstaja skupina Terminology (včlanijo vsakega resnega kandidata), kjer je včasih kakšna razprava tudi o korpusih, pa tudi vprašati se da kaj. Tudi v slovenščini je že precej člankov o korpusih, predvsem predstavitve slovenskih dosežkov.

      Glede praktične izvedbe (vzpostavitve, dopolnjevanja, obdelav ipd.) je nekoliko težje, odvisno od izbire programske podpore in njene specifike (vmesnik, jezik, dokumentacija, avtor . . .). Obstajajo brezplačna orodja (npr. SketchEngine), tudi Termania naj bi omogočala brezplačno uporabo orodja za korpus, vendar je v obeh primerih za začetnika malo navodil in/ali mentorstva. Jaz sem se odločil na orodja, ki jih uporablja Nova beseda, iz več razlogov – osnovne module poznam in že dolgo uporabljam (Eva za PC in Neva na spletnem strežniku), paket je odprt in omogoča lastne prilagoditve in visoko stopnjo "inventivnosti" (npr. kazala, analize kot je tabela v zadnji objavi Top200), avtor je pripravljen svetovati in priskočiti na pomoč, sploh pa me s prijateljem Primožem Jakopinom veže že celo stoletje ustvarjalnega sodelovanja (drznem si trditi, da sva naredila in objavila prvi slovenski računalniški slovarček, takrat še na avdiokaseti in za Spectruma).

      Izbriši
    2. O kriterijih:
      Kriteriji izbora besedil so zelo individualni in vezani na namen in cilje, ki jih želi uporabnik kasneje s korpusom doseči. Referenčni korpusi se pogosto ne omejujejo na določeno vrsto gradiv in "posrkajo" tako rekoč vsa dosegljiva besedila. Britanski referenčni besedilni korpus angleškega jezika vsebuje več kot dve milijardi besed iz vseh vrst besedil od leposlovja do dnevnega časopisja, strokovnih besedil in tudi spletnih virov kot so klepetalnice, blogi in podobno, ter velja za največji tovrstni korpus. Namen takega korpusa je zajeti "VSE" besede, ki se pojavljajo v angleškem jeziku – presoja in vrednotenje glede na nivo in rabo jezika (ter izrazov) ostaneta za kasneje strokovnjakom. Od tod tudi trditev, da je imel angleški jezik lani junija že en milijon besed! Specializirani korpusi imajo pogosteje (lahko tudi zelo striktno) izdelane kriterije za izbor, ker želijo zajeti določen, dokaj natančno razmejen, del jezika in njegove rabe. Pri Korpusu bibliotekarstva so bili kriterijo približno taki:
      - Objavljena besedila
      - Elektronska verzija (ničesar ne digitaliziramo, čeprav s tem izgubimo nekatere pomembne dokumente)
      - Praviloma novejši dokumenti (vendar so tudi izjeme in jih bo vedno več)
      - Znanstvena in strokovna dela (doktorati, magistrska in diplomska dela)
      - Znanstveni in strokovni članki (v naprej pripravljen nabor naslovov znanstvenih in strokovnih časopisov)
      - Prispevki v zbornikih
      - Strokovno-informativni članki samo izjemoma (presoja redaktorja)
      - Praviloma izvirna slovenska besedila, izjemoma tudi prevodi
      - Specializiranih blogovskih zapisov doslej nismo zajemali, čeprav bo tudi to prej ko slej prišlo na vrsto; strokovni blogi so ob določeni kulturi piscev gotovo najboljši vir sodobne rabe strokovnega jezika in prav tam se pojavljajo najnovejši izrazi (včasih se tam zares rojevajo, če le imajo pisci posluh za to).
      Formalnih kriterijev kakovosti sami nismo postavljali (zaupali smo presoji vira, npr. uredništvu časopisa, zbornika), niti ekspertize oz. strokovne avtoritete avtorja (to možnost presoje in vrednotenja ima še vedno lahko redaktor ob uporabi gradiva oz. posameznega termina, ker je za vsak izraz znan vir oz. tudi avtor). Na recenzentski postopek in lektoriranje se nismo ozirali, zopet s ciljem zajeti "živ" strokovni jezik in seveda ob tveganju zajeti tudi jezikovne spodrsljaje.

      Izbriši
  4. In ko smo že pri besedah: skočil sem na spletni seznam slovenskih dostopnih slovarjev in našel veliko pojmov, ki naj bi označevali približno to, kar tudi zajema beseda "slovar": Besednjak, Enciklopedija, Enciklopedični opis pojmov, eSlovar, Geslovnik, Glosar, Glosarček, Imenik, Iskalnik, iSlovar, ... izrazi, Izrazje, Klasifikacija, Korpus, Leksikon, Nomenklatura, Pojmi v ..., Pojmovnik, Prevajalnik, Seznam, Slogovni priročnik, Slovar, Slovarček, Slovnik, Terminologija, Terminološki slovar, Terminološka zbirka, Tezaver.

    In najbrž je tega še več... Sem bil kar malo zbegan, zlasti ker vse uporabljeno niso sopomenke in najbrž naslovi tudi niso vedno ustrezno uporabljeni za opis dejanske vsebine dela. Zato bi bil hvaležen našim leksikografom, ko bi k temu rekli kakšno besedo (morda pa so že?).

    OdgovoriIzbriši
    Odgovori
    1. Sestavek o slovarju, besednjaku, glosarju . . . že pripravljam, vendar je precej nejasnosti in nedorečenosti. Potrebno bo še nekaj litrov kave, pa bo . . .

      Izbriši

Opomba: Komentarje lahko objavljajo le člani tega spletnega dnevnika.