četrtek, 21. julij 2011

Sedaj med slovenskimi besedilnimi korpusi tudi bibliotekarstvo

V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, navadno grajena, hranjena in obdelana računalniško. Korpuse se uporablja za statistične analize pisanega in/ali govorjenega jezika, za preverjanje pojavitev besed in besednih zvez ali pa za potrditev lingvističnih pravil v določenem jeziku. So tudi nepogrešljivo in nadvse koristno orodje ob pripravi splošnih in tudi terminoloških slovarjev. Korpusi so seveda začeli nastajati tam čez veliko lužo in predvsem v "velikih" jezikih, vendar imamo že nekaj časa tudi za slovenski jezik več po nastanku in namenu različnih korpusov.

Referenčni korpusi so temeljna vrsta korpusov, ki naj bi predstavili celovito podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi najnatančneje izdelana metodologija gradnje, predstavljajo pa izhodišče za temeljne jezikoslovne raziskave predvsem s področja slovnice in slovarjev. Pri nas sodita v to kategorijo dva besedilna korpusa: Nova beseda, ki vsebuje okrog 240 milijonov besed iz 5.700 leposlovnih, strokovnih in uradnih besedil do leta 2004, in referenčni korpus slovenskega jezika FidaPLUS, ki vsebuje okrog 621 milijonov besed iz slovenskih besedil najrazličnejših zvrsti, objavljenih v letih od 1979 do 2006.

Specializirani korpusi predstavljajo jezik v natančno določeni rabi, med njimi so najpomembnejši korpusi strokovnih jezikov, predvsem v okviru terminoloških raziskav in gradnje terminoloških slovarjev. Taki so pri nas na primer Korpus DSI (Korpus zbornikov posvetovanja Dnevi slovenske informatike od 2003 do 2010 in revije Uporabna informatika), ki vsebuje 2 milijona besed, in na istem naslovu korpus iFpX, ki zajema okrog 14 milijonov izbranih izrazov iz korpusov FidaPLUS in DSI. Zanimiva sta tudi jezikoslovno označeni korpus Jos in Evrokorpus, ki je zbirka vzporednih dvojezičnih korpusov prevodov in obsega besedila v 22 jezikih držav, ki so bile leta 2007 članice EU, vsebuje pa 98 milijonov besed oz. 600 tisoč prevodnih enot. Nekaj prav posebnega pa je Vayna s četrt milijona besed iz 360 časopisnih člankov, ki so v času od aprila do avgusta 1998 obravnavali ti. "verbalne napade na JLA" (malo manj mladi se še spominjamo procesa JBTZ).

Predhodnik besedilnega korpusa bibliotekarstva

Strokovno delo pri pripravi Bibliotekarskega terminološkega slovarja , ki je potem izšel leta 2009, se je ravnalo po sodobnih načelih leksikografije, zato je temeljilo na ugotavljanju rabe izrazja v strokovnem jeziku in evidentiranju terminov s tradicionalnim "ročnim" izpisovanjem bibliotekarskih izrazov iz obsežnega seznama tiskanih slovenskih strokovnih besedil. Izpisovanje izbrane slovenske bibliotekarske strokovne literature v letih 1988 do 1999 je zajelo 291 sistematično in v celoti izpisanih besedil na skupno 6575 straneh, ob tem pa še naključne izpiske iz večjega števila ob delu uporabljenih besedil. Upoštevana so bila dela okrog 140 slovenskih avtorjev in tudi nekaj prevodov, npr. standardi ISBD. Na tej osnovi je bil nato izdelan alfabetarij, ki je predstavljal osnovni nabor izrazov za pripravo slovarja. Izpiski so bili že tedaj računalniško obdelani, najprej s "tablico" ZX Spectrum, nato z Atarijem in končno z osebnimi računalniki na različnih operacijskih sistemih. Računalniška besedilna zbirka je vsebovala 10.300 ekscerptov iz teh slovenskih bibliotekarskih besedil, ki so bila objavljena v letih med 1940 in 1999. Besedilnega korpusa in njegovih funkcij s takratno računalniško opremo, sredstvi in znanjem še ni bilo mogoče vzpostaviti. Danes je to že mogoče in po enoletnih pripravah je "shodila" te dni julija 2011 testna zasnova slovenskega Korpusa bibliotekarstva.

O slovenskem besedilnem korpusu bibliotekarstva

Ob zagonu je zajel korpus 25 slovenskih strokovnih bibliotekarskih besedil z okrog 380 tisoč besedami. Med njimi sta po dve doktorski disertaciji in dve magistrski deli, eno diplomsko delo, 13 člankov iz revije Knjižnica, 3 monografske publikacije, 3 prispevki iz zbornikov in en članek iz elektronske izdaje Organizacije znanja. Selektivni seznam besedil, ki bi sodila v korpusno obdelavo, obsega še okrog 600 enot, pri tem so upoštevana samo objavljena besedila, dosegljiva v elektronski obliki. Dinamika dopolnjevanja bo odvisna od prostovoljnega dela sodelavcev in razpoložljivosti besedil.

Pri pripravljanju besedil in za postavitev ter javno spletno uporabo korpusa je bila uporabljena domača programska oprema - urejevalnik besedil Eva in njegova internetna različica NEVA s specifičnimi funkcijami, ki že nekaj let omogočajo delovanje splošnega referenčnega korpusa slovenskega jezika Nova beseda , spletne različice Slovarja slovenskega knjižnega jezika in nekaterih drugih slovarskih in jezikoslovnih orodij.

Testno verzijo korpusa bibliotekarstva že uporabljamo in bo kmalu javno dostopna, takrat bomo o korpusu, njegovi vsebini, nastajanju in uporabi napisali še kaj več.

2 komentarja:

  1. Čestitke avtorjem za kapitalno delo!!!

    OdgovoriIzbriši
  2. Hvala za čestitke, delo na korpusu gre pridno naprej, s 65 besedili je že presegel tri četrt milijona besed in v nekaj dneh bo javno dostopen. Upam, da bo deležen tudi kaj uporabe.

    OdgovoriIzbriši