petek, 29. julij 2011

Nekaj najpogostejših besed v Korpusu bibliotekarstva

Besedilni korpusi se v terminologiji uporabljajo za inventarizacijo in preverjanje pojavitev besed in besednih zvez v strokovnih besedilih, torej za ugotavljanje, kateri izrazi in na kakšen način se pojavljajo v jeziku neke stroke. Zato so nepogrešljivo in nadvse koristno orodje ob pripravi sodobnih terminoloških slovarjev. V ta namen smo si že dalj časa prizadevali vzpostaviti tak korpus tudi na področju bibliotekarstva. Poskusna verzija slovenskega korpusa bibliotekarstva bo v nekaj dneh tudi javno dostopna, v kratkem času je dosegla že tri četrt milijona besed, ki jih črpa iz 71 strokovnih besedil (tekoče ažuriran Seznam besedil), glede na vrsto objave pa je struktura doslej analiziranih besedil taka:

Vrsta objaveŠtevilo besedilŠtevilo besed
    Doktorske disertacije2103.802    
    Magistrska dela350.492    
    Diplomska dela8203.805    
    Monografske publikacije8174.242    
Članki:
    Revija Knjižnica23107.530    
    Organizacija znanja26.182    
    Knjižničarske novice49.016    
    Prispevki v zbornikih1888.762    
    Drugi članki in sestavki38.148    
Celotni korpus71751.879    

Brez številk (predvsem obilice letnic) je prišlo doslej v konkordančna kazala 750.715 besed, od tega je 56.067 različnih oblik. Po pogostosti so na prvih mestih seveda funkcijske in terminološko nerelevantne besede kot so npr. vezniki, predlogi, pomožni glagoli ipd. (v podatkovnih zbirkah pogosto sodijo v kategorijo blokiranih besed), najpogostejši je veznik "in" s 26.421 pojavljanji, najpogostejši bibliotekarski termin je šele na 14. mestu, to je seveda knjižnica. Ker nastopa v različnih sklonskih oblikah, smo izvedli iskanje z desnim odrezom končnic:


Prikaz konkordančnega izpisa: termin knjižnica s sobesedilom in navedbo vira

Kot rezultat poizvedbe se izpiše konkordančni seznam iskanega zaporedja znakov v ožjem sobesedilu tako, da je pred iskano besedo še 45 znakov in enako število znakov za njo. Tradicionalno se takšno kazalo imenuje tudi KWIC indeks ali ključne besede v besedilu. Na desni strani vsakega zadetka se izpiše tudi kodirana oznaka dokumenta, ki s klikom pokaže širše sobesedilo iskane besede - izpišejo se do tri povedi, tekoča poved z iskano besedo, poved pred njo in poved za njo. Nad tako prikazanim besedilom je kratek bibliografski opis dokumenta s hipertekstno povezavo do celotnega izvirnega besedila na strežniku, kjer je objavljeno.

Knjižnici sledijo še uporabnik, gradivo, podatki, sistem, vir, avtor in informacija, med desetimi najpogostejšimi pa sta tudi pridevnika knjžnični in informacijski.

Korpus bibliotekarstva - Deset najpogostejših enobesednih bibliotekarskih terminov


Korpus bibliotekarstva - Vizualizacija stotih najpogostejših oblik enobesednih bibliotekarskih terminov

V korpusu izpričan besedni zaklad in njegova pestrost ter pogostost pojavljanja besed so odraz nabora analiziranih besedil, zato dosti pričakujemo od nadaljnje rasti korpusa, ki ga bomo po najboljših močeh dopolnjevali. Največje bogastvo in pestrost izrazja pričakujemo v številnih člankih, objavljenih v reviji Knjižnica v zadnjem desetletju, ter magistrskih delih. Žal diplomska dela s področja bibliotekarstva praviloma niso dostopna v elektronski obliki. Kovačeva kobila?

četrtek, 21. julij 2011

Sedaj med slovenskimi besedilnimi korpusi tudi bibliotekarstvo

V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, navadno grajena, hranjena in obdelana računalniško. Korpuse se uporablja za statistične analize pisanega in/ali govorjenega jezika, za preverjanje pojavitev besed in besednih zvez ali pa za potrditev lingvističnih pravil v določenem jeziku. So tudi nepogrešljivo in nadvse koristno orodje ob pripravi splošnih in tudi terminoloških slovarjev. Korpusi so seveda začeli nastajati tam čez veliko lužo in predvsem v "velikih" jezikih, vendar imamo že nekaj časa tudi za slovenski jezik več po nastanku in namenu različnih korpusov.

Referenčni korpusi so temeljna vrsta korpusov, ki naj bi predstavili celovito podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi najnatančneje izdelana metodologija gradnje, predstavljajo pa izhodišče za temeljne jezikoslovne raziskave predvsem s področja slovnice in slovarjev. Pri nas sodita v to kategorijo dva besedilna korpusa: Nova beseda, ki vsebuje okrog 240 milijonov besed iz 5.700 leposlovnih, strokovnih in uradnih besedil do leta 2004, in referenčni korpus slovenskega jezika FidaPLUS, ki vsebuje okrog 621 milijonov besed iz slovenskih besedil najrazličnejših zvrsti, objavljenih v letih od 1979 do 2006.

Specializirani korpusi predstavljajo jezik v natančno določeni rabi, med njimi so najpomembnejši korpusi strokovnih jezikov, predvsem v okviru terminoloških raziskav in gradnje terminoloških slovarjev. Taki so pri nas na primer Korpus DSI (Korpus zbornikov posvetovanja Dnevi slovenske informatike od 2003 do 2010 in revije Uporabna informatika), ki vsebuje 2 milijona besed, in na istem naslovu korpus iFpX, ki zajema okrog 14 milijonov izbranih izrazov iz korpusov FidaPLUS in DSI. Zanimiva sta tudi jezikoslovno označeni korpus Jos in Evrokorpus, ki je zbirka vzporednih dvojezičnih korpusov prevodov in obsega besedila v 22 jezikih držav, ki so bile leta 2007 članice EU, vsebuje pa 98 milijonov besed oz. 600 tisoč prevodnih enot. Nekaj prav posebnega pa je Vayna s četrt milijona besed iz 360 časopisnih člankov, ki so v času od aprila do avgusta 1998 obravnavali ti. "verbalne napade na JLA" (malo manj mladi se še spominjamo procesa JBTZ).

Predhodnik besedilnega korpusa bibliotekarstva

Strokovno delo pri pripravi Bibliotekarskega terminološkega slovarja , ki je potem izšel leta 2009, se je ravnalo po sodobnih načelih leksikografije, zato je temeljilo na ugotavljanju rabe izrazja v strokovnem jeziku in evidentiranju terminov s tradicionalnim "ročnim" izpisovanjem bibliotekarskih izrazov iz obsežnega seznama tiskanih slovenskih strokovnih besedil. Izpisovanje izbrane slovenske bibliotekarske strokovne literature v letih 1988 do 1999 je zajelo 291 sistematično in v celoti izpisanih besedil na skupno 6575 straneh, ob tem pa še naključne izpiske iz večjega števila ob delu uporabljenih besedil. Upoštevana so bila dela okrog 140 slovenskih avtorjev in tudi nekaj prevodov, npr. standardi ISBD. Na tej osnovi je bil nato izdelan alfabetarij, ki je predstavljal osnovni nabor izrazov za pripravo slovarja. Izpiski so bili že tedaj računalniško obdelani, najprej s "tablico" ZX Spectrum, nato z Atarijem in končno z osebnimi računalniki na različnih operacijskih sistemih. Računalniška besedilna zbirka je vsebovala 10.300 ekscerptov iz teh slovenskih bibliotekarskih besedil, ki so bila objavljena v letih med 1940 in 1999. Besedilnega korpusa in njegovih funkcij s takratno računalniško opremo, sredstvi in znanjem še ni bilo mogoče vzpostaviti. Danes je to že mogoče in po enoletnih pripravah je "shodila" te dni julija 2011 testna zasnova slovenskega Korpusa bibliotekarstva.

O slovenskem besedilnem korpusu bibliotekarstva

Ob zagonu je zajel korpus 25 slovenskih strokovnih bibliotekarskih besedil z okrog 380 tisoč besedami. Med njimi sta po dve doktorski disertaciji in dve magistrski deli, eno diplomsko delo, 13 člankov iz revije Knjižnica, 3 monografske publikacije, 3 prispevki iz zbornikov in en članek iz elektronske izdaje Organizacije znanja. Selektivni seznam besedil, ki bi sodila v korpusno obdelavo, obsega še okrog 600 enot, pri tem so upoštevana samo objavljena besedila, dosegljiva v elektronski obliki. Dinamika dopolnjevanja bo odvisna od prostovoljnega dela sodelavcev in razpoložljivosti besedil.

Pri pripravljanju besedil in za postavitev ter javno spletno uporabo korpusa je bila uporabljena domača programska oprema - urejevalnik besedil Eva in njegova internetna različica NEVA s specifičnimi funkcijami, ki že nekaj let omogočajo delovanje splošnega referenčnega korpusa slovenskega jezika Nova beseda , spletne različice Slovarja slovenskega knjižnega jezika in nekaterih drugih slovarskih in jezikoslovnih orodij.

Testno verzijo korpusa bibliotekarstva že uporabljamo in bo kmalu javno dostopna, takrat bomo o korpusu, njegovi vsebini, nastajanju in uporabi napisali še kaj več.