Prikaz objav z oznako korpus bibliotekarstva. Pokaži vse objave
Prikaz objav z oznako korpus bibliotekarstva. Pokaži vse objave

ponedeljek, 29. julij 2013

Mednarodna znanstvena konferenca CORPORA2013


© International scientific conference  
"Corpus linguistics"
Korpusno jezikoslovje je sodobna veja jezikoslovja, ki raziskuje značilnosti in zakonitosti naravnega jezika na podlagi obsežnega empiričnega vzorca besedil iz vsakdanje javne jezikovne rabe. V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, navadno grajena, hranjena in obdelana računalniško. Korpuse se uporablja za statistične analize pisanega in/ali govorjenega jezika, za preverjanje pojavitev besed in besednih zvez ali pa za potrditev lingvističnih pravil v določenem jeziku. So tudi nepogrešljivo in nadvse koristno orodje ob pripravi splošnih in tudi terminoloških slovarjev. Korpuse so že v predračunalniškem času izdelovali tudi ročno, taki so bili seveda prava redkost in skoraj čudež, danes pa so to praviloma računalniške zbirke podatkov shranjene na digitalnih medijih in nekatere tudi javno dostopne na spletu. Prvi digitalizirani besedilni korpus (Brown Corpus) vsebuje besedila v ameriški angleščini in je nastal že v šestdesetih letih preteklega stoletja. Korpusi druge generacije so povezani z razvojem tehnologije, ki omogoča njihovo delovanje in uporabo, in so nastali v sodelovanju raziskovalnih, univerzitetnih in pogosto tudi založniških okolij. Prosto dostopna reprezentativna referenčna jezikovna korpusa za slovenski jezik sta Nova beseda in Gigafida, nekaj pa je tudi za posebna strokovna področja specializiranih korpusov, vendar vsi niso javni ali pa za njih pogosto ne vemo (npr. dvojezični Evrokorpus - vzporedni korpus prevodov ali pa Vayna s četrt milijona besed iz 360 časopisnih člankov, ki so v času od aprila do avgusta 1998 obravnavali ti. "verbalne napade na JLA" (malo manj mladi se še spominjamo procesa JBTZ). O vseh naštetih sem na tem mestu pred časom že nekajkrat pisal. Dokaj bogat specializiran besedilni korpus imamo Slovenci tudi za področje bibliotekarstva, to je Korpus bibliotekarstva, ki je prosto dostopen na straneh tega bloga in o katerem je bilo tudi že dovolj napisanega. Pred kratkim smo ga uspešno predstavili tudi širši mednarodni strokovni javnosti jezikoslovcev na znanstveni konferenci v St. Petersburgu.

Katedra za matematično lingvistiko na Državni univerzi v St. Petersburgu je letos konec junija v sodelovanju z Inštitutom za jezikoslovne študije Ruske akademije znanosti in Oddelkom za aplikativno jezikoslovje Ruske državne pedagoške univerze A. I. Hercena že petič organiziral bienalno mednarodno znanstveno konferenco o korpusni lingvistiki Corpora 2013. Uredniški odbor je z veseljem sprejel našo prijavo in nas po predstavitvi s korpusom povezanih aktivnosti in analiz še posebej povabil k sodelovanju v skupino specializiranih korpusov. Konference se je udeležilo 67 strokovnjakov iz 14 držav (Rusije, ZDA, Nemčije, Velike Britanije, Slovaške, Češke, Belorusije, Poljske, Italije, Finske, Francije, Koreje, Belorusije In Slovenije). 54 predstavitev (Program) je obravnavalo različne praktične in teoretične vidike izgradnje in uporabe korpusov v različnih jezikih in na različnih nivojih (pisana in govorjena besedila, knjižni jezik in narečja, splošni in strokovni jezik, starejša besedila ipd.) ter rezultate analiz na področju morfologije, sintakse, semantike in jezikovnih primerjav. Zajeten konferenčni zbornik je zašel tudi v NUK-ov fond (Trudy meždunarodnoj konferencii "Korpusnaja lingvistika - 2013", 25-27 ijunja 2013 g., Sankt-Peterburg / [otvetstvennye redaktory V. P. Zaharov, O. A. Mitrofanova, M. B. Hohlova]. - Sankt-Peterburg : Izdatelʹstvo SPBGU, 2013. - 480 str.), na srečo pa so vsi članki, večina predstavitev in tudi videoposnetkov nastopov dostopni na spletu. Slovenski prispevek Slovene Specialized Text Corpus of Library and Information Science – an Advanced Lexicographic Tool for Library Terminology Research (članek, predstavitev, videoposnetek - žal zelo slaba kvaliteta zvoka) je naletel na dokajšnje zanimanje, kar kažejo tudi nekateri pokonferenčni odmevi.

"Poslušanje v cirilici."

Pri nas na severu je bilo 34,
v Ljubljani pa 19°C.
V muzeju Univerze.

Ne, ni pokopališče. Na kamnih so ploščice z
napisi univerz, s katerimi sodeluje Državna univerza v
St. Petersburgu
Med znanimi alumni Univerze sta tudi predsednika.

Ruska nacionalna knjižnica je vsak zadnji
torek v mesecu zaprta.
Carskoe selo – krajevna knjižnica nedaleč od
svetovno znanih carskih palač.

nedelja, 6. januar 2013

Še o samostalnikih, pridevnikih, glagolih v bibliotekarskem besednem zakladu

Tokrat nadaljujem vpogled v besedni zaklad bibliotekarske stroke in rabe besed, kot se kaže v 625 strokovnih in znanstvenih besedilih okrog 353 avtorjev, slovenskih praktikov in teoretikov bibliotekarstva, objavljenih pretežno v zadnjih dveh desetletjih. O tem, kako je nastal iz Korpusa bibliotekarstva seznam uporabljenih besed, sem pisal že zadnjič (Kako bogat je bibliotekarski besedni zaklad?), tokrat nekaj več o njihovi pogostosti in besednih vrstah. Kakšen jezik uporabljamo v bibliotekarstvu, kolikšen besedni zaklad uporabljamo in katere so najpogostejše besede?

V navedenih 625 besedilih s področja bibliotekarstva je bilo uporabljeno skupaj okrog 3.660.900 besed, ker pa se mnoge ponavljajo in pojavljajo v različnih oblikah (različni skloni, spol, število ipd.), je šele z lematizacijo, to je računalniškim postopkom spreminjanja vseh besed v lemo, to je osnovno obliko besede (prvi sklon ednine, nedoločnik ipd.), nastal pravi nabor vseh različnih besed, ki so jih avtorji uporabili v obravnavanih besedilih – takih besed je 28.808. Njihova pogostost pojavljanja v besedilih je seveda zelo različna, v skladu z vsemi pričakovanji (npr. raziskava in doktorska disertacija dr. Primoža Jakopina) vodi pomožni glagol biti s 172.031 pojavitvami, v vodilni skupini pa mu potem sledijo predvsem funkcijske besede, to je tiste, ki bi v sistemih za poizvedovanje sodile med blokirane besede in za osnovno sporočilnost, predvsem pa za stroko niso pomembne.


Krivulja pogostosti pojavljanja besed v bibliotekarskih
besedilih se povsem sklada s predpostavkami
Zipfovega zakona - 50 najpogostejših besed
Pogostost pojavljanja posameznih besed se od najpogostejše (172.031) zelo strmo zmanjšuje in pri 35. besedi že pade pod deset tisoč, pogostost besed nad 500. mestom pa že pod tisoč; 21.215 besed se pojavlja več kot enkrat, kar 7.590 besed pa samo enkrat, rekli bi jim enkratnice. Takšna razporeditev frekvenc se povsem ujema s predpostavkami Zipfovega zakona, ki sem ga pri analizi Bibliotekarskega terminološkega slovarja že uporabljal. Temelj Zipfovega zakona je trditev, da je majhno število besed uporabljeno zelo pogosto, mnogo drugih ali skoraj vse ostale pa zelo poredko.

Med prvo petdeseterico najpogostejših besed se je pririnilo tudi 13 bibliotekarskih terminov, nobeno presenečenje ni, da so to najprej knjižnica (6. najpogostejša beseda z 48.214 pojavitvami), gradivo (24. mesto s 14.348 pojavitvami), knjiga (28. mesto z 11.876 pojavitvami) in podatek (34. najpogostejša beseda z 10.046 pojavitvami).

Spletne aplikacije omogočajo poleg že omenjene lematizacije tudi oblikoslovno označevanje z določanjem besednih vrst (npr. Določevanje osnovnih besednih oblik (lem) in besednih vrst ali oblikoslovnih oznak Inštituta za slovenski jezik Frana Ramovša ZRC SAZU ali Amebisov Označevalnik), zato je bilo mogoče pridobiti nekaj podatkov o tem tudi za naše besede. Med 28.808 obravnavanimi besedami je

      13.128samostalnikov
        6.653pridevnikov
        6.460glagolov
        3.877prislovov

predlogov, števnikov, veznikov, zaimkov in členkov pa seveda mnogo manj (sto ali manj). Poudariti moram, da so to zgolj natančnejše ocene in ne povsem točne vrednosti, saj besednovrstni označevalnik v nekaterih primerih dandanes (še) ne more razločevati med nekaterimi enako pisanimi besedami, ki lahko glede na pomen pripadajo različnim besednim vrstam (npr. dela: glagol delati, samostalnika delo ali del; uporabnikov je lahko samostalnik ali pridevnik ipd.). Med 147.761 besedami, ki so šle v postopek lematizacije in besednovrstnega označevanja, je 13.074 takih, ki jim je označevalnik pridal oznako za dve ali celo več besednih vrst, ali pa v njih prepoznal možnost dveh besed z enako obliko (npr.: zbrana dela Ivana Cankarja / ne najdem drugega dela enciklopedije). Take besede sem v spodnjih grafikonih označil z zvezdico (npr. najpogostejši pridevnik lahek je tja zašel najverjetneje po zaslugi prislova lahko!).

V treh grafičnih prikazih sem ponazoril razmerje med najpogostejšimi samostalniki, pridevniki in glagoli. Glagola biti in dati po svoji pogostosti tako močno odstopata celo od svojih najbližjih "zasledovalcev", da povsem pokvarita vtis krivulje in razmerij, zato sem ju samo označil, vrednost pa omejil na širino grafikona.


Najpogostejših 30 samostalnikov

Najpogostejših 30 glagolov

Najpogostejših 30 pridevnikov

torek, 1. januar 2013

Kako bogat je bibliotekarski besedni zaklad?

Medpraznični dnevi ob zaključku leta so bili vremensko dovolj nestimulativni za večje podvige in temperaturno tako ekstremni in za december netipični, da se ni bilo treba preveč posvečati lončeni peči in avgusta nacepljenim drvom, zato je Korpus bibliotekarstva s svojimi 3,6 milijona besedami kar vabil k analizi in nadaljevanju razpredanja o vprašanju Koliko je besed?, ki sem ga tu na blogu začel lani spomladi. Raziskave kažejo, da uporabljajo slovenski srednješolci v povprečju okrog deset tisoč besed, za branje slovenskih časopisov zadostuje že znanje pet tisoč besed, tujec pa naj bi se za silo znašel že z znanjem dva tisoč slovenskih besed. Po besedah dr. Primoža Jakopina, vodje Laboratorija za korpus slovenskega jezika pri ZRC SAZU, obsega besedni zaklad slovenskega jezika okrog pol milijona besed (Slovenskih 500 tisoč, Finance, 31.12.2008). Gre za besede splošne slovenščine, ki jih najdemo v Slovarju slovenskega knjižnega jezika (93.500 gesel), v Besedišču slovenskega jezika (178 tisoč gesel, ki jih niso uvrstili v slovar), ter druge besede, ki so se v minulih dveh desetletjih po nastanku slovarja pojavile v periodičnem tisku in knjigah, na televiziji, v diplomskih in magistrskih nalogah ter doktorskih disertacijah, pa še v drugih publikacijah, na primer letakih in reklamah, ter na internetu. V praksi pa je tako, da najpogostejših 1000 besed predstavlja več kot 50 % v slovenščini uporabljenih besed. Velika večina besed se pojavlja precej redko, večkrat tudi v omejeni skupini ljudi, taka so na primer strokovna besedišča.

Prav proučevanju besednega zaklada in terminologije bibliotekarske stroke je namenjen Korpus bibliotekarstva, ki je zajel in evidentiral besedje iz 625 objavljenih strokovnih in znanstvenih besedil. Kakšen jezik uporabljamo v bibliotekarstvu, kolikšen besedni zaklad uporabljamo in katere so najpogostejše besede?

V navedenih 625 besedilih s področja bibliotekarstva je bilo evidentiranih 3.660.900 besed, kar je treba "vzeti z rezervo" in število pravilno interpretirati:

  • V tem kontekstu je beseda vsak niz znakov v besedilu, ki je na obeh straneh razmejen s presledkom. Sem torej sodijo vse številke, oznake poglavij ipd., zato ostane po ustreznem "čiščenju" samo še okrog 3.573.457 pravih besed (od "A" do "žvižgajoč").
  • Mnoge med njimi se seveda ponavljajo, zato je po združevanju enakih ostalo še nekaj manj kot 150.000 različnih oblik besed.
  • Svoje k raznolikosti seveda prispeva tudi značilnost slovenščine, da je pregibni jezik. Bogastvo in kompleksnost jezika glede na pregibnost se izraža v tem, da je število izpeljank, ki jih imajo leme v povprečju, relativno veliko. Lema je kanonična, to je osnovna oblika besede (npr. prva oseba ednine pri samostalniku, nedoločnik pri glagolu itd. - lema za besede "knjižničnega, knjižničnemu, knjižničnim . . . " je "knjižničen", za "grem, greva, pojdiva, šli, šla, šle . . . " pa "iti" itd.) iz katere z uporabo končnic nastanejo izpeljanke. Glede na bogastvo sklonov, števil in spolov ima npr. velika večina samostalnikov mnogo izpeljank. Šele z lematizacijo, to je računalniškim postopkom spreminjanja vseh besed v lemo, to je osnovno obliko besede, je nastal pravi nabor vseh različnih besed, ki so bile uporabljene v obravnavanih besedilih – takih besed je 28.808.
  • Pri tem je treba upoštevati, da je ostalo kljub "ročnemu čiščenju" še nekaj tujih besed (povzetki v angleščini so bili iz analize sicer izločeni, ostali pa so citati in večji del opomb) in imen.
Njihova pogostost uporabe v besedilih je seveda zelo različna, v skladu z vsemi pričakovanji vodi pomožni glagol biti s 172.031 pojavitvami, v vodilni skupini mu sledijo predvsem funkcijske besede, ki bi v sistemih za poizvedovanje sodile med blokirane besede in za stroko niso pomembne. Med našimi pravimi termini vodijo knjižnica (6. najpogostejša beseda z 48.214 pojavitvami), gradivo (24. mesto s 14.348 pojavitvami), knjiga (28. mesto z 11.876 pojavitvami) in podatek (34. najpogostejša beseda z 10.046 pojavitvami). Med petdesetimi najpogostejšimi besedami je tako le 13 terminov, ostalo so funkcijske besede.


Med najpogostejših 50 se je vrinilo tudi 13 za bibliotekarstvo pomembnih terminov

Več o zastopanosti besednih vrst in njihovih najpogostejših predstavnikih pa v nadaljevanju prihodnjič.

ponedeljek, 8. oktober 2012

Korpus bibliotekarstva se je čez počitnice "zredil"

Ideja o besedilnem korpusu bibliotekarstva je zorela in se medila dalj časa, potem pa je korpus sredi leta 2011 vendarle zaživel in takoj postal na spletu tudi javno dostopen, najprej samostojno, kamlu pa tudi na blogu Bibliotekarska terminologija kot posebna stran. V kratkem času je zajel okrog 1,8 milijona besed iz več kot dvestotih slovenskih strokovnih in znanstvenih besedil s področja bibliotekarstva in se izkazal kot zelo koristno in praktično orodje pri slovarskem in terminološkem delu. Zanimanja je bil deležen tudi izven bibliotekarskih krogov.

Velik uspeh pa beležimo pri razvoju korpusa tudi letos! Bibliotekarska terminološka komisija je januarja v sodelovanju z Zvezo bibliotekarskih društev Slovenije prijavila projekt njegove nadgradnje na javni razpis s področja predstavljanja, uveljavljanja in razvoja slovenskega jezika (takrat še) Ministrstva za kulturo. Na projektni razpis JPR-UPRS-2012 je prispelo 84 vlog, strokovna komisija Ministrstva za kulturo za slovenski jezik je za sofinanciranje podprla 11 najviše ovrednotenih projektov in med njimi je bil tudi Korpus bibliotekarstva kot "vsebinsko ustrezen in prepričljivo predstavljen projekt z dobrim strokovnim zaledjem in perspektivnim razvojem."

Dopolnjevanje korpusa s skoraj 400 dodatnimi besedili, predvsem članki iz strokovne revije Knjižnica, je tako leta 2012 finančno podprlo Ministrstvo za izobraževanje, znanost, kulturo in šport v okviru Javnega razpisa za sofinanciranje projektov, namenjenih predstavljanju, uveljavljanju in razvoju slovenskega jezika v letu 2012 - JPR-UPRS-2012. To nam je omogočilo vključitev skoraj vseh danes v elektronski obliki dostopnih člankov iz te strokovne oz. znanstvene revije in popolno pokrivanje letnikov od 1997 do 2011, kot zanimivost pa še 22 člankov iz prvega letnika, ki je izšel 1957. Z dodanimi več kot 1,8 milijona besedami se je obseg korpusa podvojil in danes presega 3,6 milijona besed iz 626 strokovnih in znanstvenih besedil, grobo porazdelitev pa prikazuje spodnja razpredelnica.

BesedilBesed
     Celotni korpus 626     3.660.900     
     Doktorske disertacije 4     215.000     
     Magistrska dela 21     596.000     
     Diplomska dela 17     319.000     
     Revija Knjižnica 454     1.956.000     
     Organizacija znanja 31     102.000     
     Knjižničarske novice 21     40.000     
     Prispevki v zbornikih 59     212.000     
     Drugi članki in sestavki 9     13.900     
     Monografske publikacije 10     207.000     

Selektivni seznam za korpus potencialno zanimivih besedil obsega še okrog 150 doslej objavljenih enot. Korpus bo vključeval samo objavljena besedila, ki so že javno dosegljiva v elektronski obliki. Poudarek bo na analizi besedil, objavljenih v zadnjem desetletju, glede na možnosti pa kdaj tudi starejših. Vsekakor bo velika skrb veljala tudi vključevanju najnovejših spletno dostopnih besedil, žal pri tem pogrešamo predvsem zaključna dela študija bibliotekarstva. Dinamika dopolnjevanja bo odvisna od prostovoljnega dela sodelavcev in razpoložljivosti besedil v elektronski obliki.

petek, 30. september 2011

Enkratnice


© izklop.com
Namen tokratnega prispevka je praktičen in ilustrativen prikaz uporabe ene od možnosti, ki jih daje besedilni korpus v slovaropisju, v našem primeru za urejanje in dopolnjevanje Bibliotekarskega terminološkega slovarja.

Enkratnica ali hapax legomenon (gr. (kar je bilo) rečeno samo enkrat; mn. hapax legomena) je beseda, ki se v določenem besedilu ali pri določenem avtorju pojavi samo enkrat. (Wikipedia). Termin je, kot mnoge druge, (menda) uvedel dr. J. Toporišič (čeprav navaja njegova Enciklopedija slovenskega jezika, 1992, še termin "enkratna beseda"), ali pa morebiti dr. Peter Weiss ob eni od disertacij o analizi slovenskih besedil. Pomen enkratnic je različen glede na okolje, v katerem se pojavljajo. Pri prevajanju, predvsem starejših besedil, lahko povzročajo glavobol, ker jih je težko ali skoraj nemogoče prevesti, saj njihovega pomena ni mogoče ugotavljati s primerjavo besedil, ki bi to besedo prav tako vsebovala (prav primerjava vzporednih besedil v treh jezikih na kamnu iz Rosette je omogočila dešifriranje hieroglifov!). Nekateri literarni zgodovinarji se opirajo na enkratnice pri ugotavljanju avtentičnosti starejših besedil in potrjevanju ali zavračanju avtorstva (znan primer so besedila W. Shakespearja). Pri podatkovnih zbirkah so enkratnice največkrat balast in nezaželene, zato jih nekateri sistemi pri indeksiranju izločijo, ker praviloma nimajo teže pri opisovanju vsebine niti velike vrednosti za poizvedovanje (malo verjetno je, da se bo kdo spomnil prav te besede za poizvedovanje), po drugi strani pa obremenjujejo indekse in s tem povečujejo odzivne čase. V besedilnih korpusih pa so pogosto predmet raziskovanja.

V prispevku Blokirane besede je bilo govora o najpogostejših besedah, ki jih je evidentiral Korpus bibliotekarstva, tokrat pa namenjam objavo tistim na drugem koncu porazdelitvene krivulje, to je enkratnicam, besedam s pogostostjo ena. Korpus bibliotekarstva, ki vsebuje sedaj okrog 1,8 milijona besed iz 234 slovenskih bibliotekarskih strokovnih besedil, je namenjen predvsem proučevanju bibliotekarske terminologije, kot se uporablja v teoriji in v praksi, s tem pa tudi evidentiranju izrazja, ki sodi v terminološki slovar in tam še ni zajeto. Za tako proučevanje so zanimive tudi enkratnice, ki jih je potrebno prej temeljito presejati in izbrati le tiste zanimive in pomembne, ki pa se merijo prej v promilih kot v odstotkih izplena. Te izbranke lahko prihajajo z ožjega strokovnega področja, kjer je malo strokovnjakov in/ali literature, pogosto so to manj uporabljane sopomenke ali pa novosti, ki se v literaturi še niso uveljavile. So pa lahko tudi dober vir za iskanje zatipkanih besed, seveda samo tistih, ki so res zatipkane, ne pa posledica disleksije ali neznanja (te se praviloma ponavljajo).

V besednih indeksih Korpusa bibliotekarstva je evidentiranih kot enkratnica 38.413 "besed" v najširšem pomenu (torej delov besedila, ki so na obeh koncih zamejeni s presledkom, zato sodijo sem tudi števila, z OCR slabo prepoznane"packe", deli slabo deljenih besed ipd.). Kazala sem se lotil s slovaropisno ambicijo najti nekaj manj znanih ali novih besed, ki jih še ni v slovarju. Za pokušino sem uporabil kar krna najpogostejših ali najpomembnejših (?) terminov: knjižni* (-ca, -čni, -čar, -čarski, -čarstvo ipd.) in biblio* (-tekar, -tekarstvo, -tekarski, -grafija, -grafski, -metrija ipd.). Rezultati so bili presenetljivo zanimivi in predvsem tudi koristni, to je uporabni za dopolnjevanje slovarja. Namenoma navajam cel iskalni izraz, če bi koga od bralcev zamikalo ponoviti kaj podobnega za druge besede.

Ker gre za uporabo frekvenčnega kazala, je treba v iskalnem vmesniku označiti okence Besedno iskanje.

fr=1 in be:knjižni* - 121 zadetkov
fr=1 in be:biblio* - 110 zadetkov
Prikaz rezultatov ; v treh korakih si je potem mogoče ogledati ožje sobesedilo izbrane besede (po 45 znakov pred besedo in prav toliko za njo), širše sobesedilo (tri povedi) ali celoten dokument na strežniku, kjer je objavljen.
(fr = frekvenca; be = beseda; in = Boolov operator (konjunkcija); = relacijski operator enakosti; : relacijski operator "vsebuje")

Kot je bilo že omenjeno, so enkratnice predvsem "nepotrebne" ali celo nezaželene besede, med njimi je mnogo takih, ki so nastale kot napaka pri indeksiranju (nenavadno deljene besede, oznake za opombe, ki so stične z besedo ipd.), pri branju besedila (pdf datoteke različnih verzij in kodiranj), zaradi težav pri prepoznavanju skeniranih besedil (OCR), zatipkane besede pa tudi imena in blagovne znamke. Tu žal računalnik več ne pomaga in čez seznam je treba "ročno". In splačalo se je! Iz prve pozvedbe sem kot zanimivost označil in izbral dve besedi:
       geoknjižnica
       kiberknjižničar
Iz drugega seznama pa dvanajst:
       biblioandragoški
       biblioblogosfera
       bibliodementia (gr.)
       bibliokomunikacija
       bibliološki
       bibliopola (gr.)
       Bibliotekarček
       bibliotekarskobibliografski
       bibliourica
       nebibliotekar
       podbibliotekar
       sobibliometričen

Ta nabor bo lahko osnova za razpravo redaktorjev slovarja, ki bodo presodili slovarsko vrednost in pomembnost posameznih terminov, poiskali morebitne sopomenke ali člane istega frazeološkega gnezda in termine uvrstili med slovarska gesla, ali pa jih kot nepotrebne zavrgli.

nedelja, 18. september 2011

Korpus bibliotekarstva je dosegel popolno funkcionalnost

© Altorientalistik
Natančno dva meseca je trajalo, da se je Korpus bibliotekarstva iz svojih zametkov razvil v povsem delujoč sistem z vsemi funkcijami, kot je bil načrtovan. Namenjen je analizi slovenskih bibliotekarskih strokovnih in znanstvenih besedil in v njih uporabljnih terminov, predvsem pa kot učinkovito orodje za dopolnjevanje Bibliotekarskega terminološkega slovarja. Korpus omogoča različne oblike iskanja in prikaza besed in besednih zvez v ožjem ali širšem sobesedilu ter izdelavo seznamov in kazal po meri za analize in primerjave.

Že v tej začetni fazi vzpostavitve je dosegel korpus občudovanja vreden obseg, predvsem pa zadovoljivo delujejo tudi že vse predvidene funkcije. Vsebuje več kot 1,8 milijona besed, črpanih iz 234 krajših ali daljših besedil. To so 4 doktorske disertacije, 19 magistrskih del, 8 diplomskih del, 79 člankov iz novejših letnikov strokovne revije Knjižnica, 31 člankov iz revije Organizacija znanja, 21 izbranih člankov Knjižničarskih novice, 59 prispevkov iz zbornikov, 3 starejši strokovnoinformativni članki in 10 monografskih publikacij. Vsa navedena dela so bila objavljena v elektronski obliki, večina izvorno digitalnih oz. vzporednih tiskani izdaji, nekaj pa tudi digitaliziranih. Poudarek je na zajemu besedil, objavljenih v zadnjem desetletju, glede na možnosti pa kdaj tudi starejša. Selektivni seznam potencialno zanimivih besedil obsega še okrog 400 enot, s katerimi bomo v prihodnje dopolnjevali korpus glede na časovne možnosti.

Upoštevanje avtorskih pravic: Zajeta besedila niso v korpusu dostopna niti v izvirni obliki niti v celoti, za uporabnike so izdelane le hipertekstne povezave na izvirno objavo (npr. dLib.si, arhiv revije Knjižnica ipd.). Besedila so uporabljena samo za izdelavo kumulativnih statističnih kazalcev jezika, npr. za sezname besed ali besednih zvez s pogostnostjo, in v konkordančnih seznamih, vendar tudi tam le v obliki ožjega citata ne več kot treh povedi - tekoče povedi, povedi pred njo in povedi za njo. Korpus torej ne posega v avtorske pravice piscev besedil ali založnikov. Kjer prispevki niso prosto dostopni, je zato povezava narejena samo na naslovno stran časopisa (npr. Knjižničarske novice), kadar je zbornik objavljen v eni sami datoteki, je za vsakega od prispevkov povezava na celoten zbornik.

Korpus je javno dostopen, zato upamo, da bo koristil tudi strokovnim kolegom bibliotekarjem pa tudi študentom bibliotekarstva in morebiti kakšnemu jezikoslovcu, terminologu ali slovaropiscu iz drugih logov.

Funkcije in kako se uporabljajo

Uporabniške nastavitve

črk na levi strani in črk na desni strani
Nastavitev dolžine prikazanega ožjega sobesedila pred iskano besedo in za njo.

Izpiši enot na stran, prvi zadetek št.
Nastavitev dolžine strani izpisa zadetkov in zaporedne številke zadetka, kjer naj izpis začne.

* A/a
Omogoča omejevanje iskanja konkordanc glede na veliko/malo začetnico. Iskanje sicer ne razlikuje med velikimi in malimi črkami, kljukica v okencu pa pomeni poizvedbo z iskalnim nizom, pisanim samo z malo začetnico (npr. knjižnica, Knjižnica); primer iskanja s kljukico in brez kljukice.

Besedno iskanje po celih besedah   
Standardno iskanje (kljukica) poteka samo natančno po vpisanem nizu znakov kot zaključeni celoti – besedi (knjiga). Brez kljukice poteka iskanje po tem nizu, ki je lahko tudi del besede (knjiga). Nastavitev velja za besedno iskanje, iskanje po parih, trojčkih, četverčkih in peterčkih.

Iskalni razpon

Standardno poteka iskanje po vseh besedilih (označena je izbira "celotni korpus"). Z izbiro v okencih je mogoče izbrati (omejiti) iskanje po besedilih samo enega tipa ali več tipov dokumentov hkrati. V tem primeru je treba izključiti izbiro Celotni korpus.

Postopek

  • Konkordance - iskanje in prikaz besed v sobesedilu z navedbo vira.
    • Iskalni izraz
      • Standardno poteka iskanje po vpisanem nizu znakov vključno s presledki in upoštevaje vrstni red besed, ki jih je lahko več.
      • Maskiranje posameznih znakov ni mogoče.
      • Dovoljeno je desno krajšanje vsake od besed z znakom *.
    • Primeri
      knjižničarskega- vse pojavitve besede knjižničarskega
      visokošolskim knjižnicam- vse pojavitve besedne zveze visokošolskim knjižnicam
      knjižnic*- beseda knjižnica v vseh sklonih in številih
      bibliotekar*- besede, ki se začnejo na bibliotekar-
      spletn* katalog*- besedne zveze z obema besedama v vseh sklonih in številih
    • Prikaz zadetkov
      • Standardno se izpiše do 100 zadetkov na stran, nastavitev je mogoče spremeniti. Puščice za listanje po straneh so na dnu izpisa.
      • Konkordančni seznam izpiše 45 znakov pred iskano besedo in 45 znakov za njo; nastavitev je mogoče spremeniti.
      • Na desni strani vsakega zadetka se izpiše kodirana oznaka dokumenta, ki s klikom pokaže sobesedilo iskane besede.
      • Izpišejo se do tri povedi, tekoča poved z iskano besedo, poved pred njo in poved za njo. Nad besedilom je skrajšan bibliografski opis dokumenta s hipertekstno povezavo do celotnega izvirnega besedila na strežniku, kjer je objavljeno.

  • Besedno iskanje
    • Iskanje ene same besede, dovoljen je levi in/ali desni odrez z znakom *.
    • V rezultatih se izpiše abecedni seznam zadetkov z navedbo pogostosti pojavljanja.
    • V naslednjem koraku je mogoče prikazati vsakega od zadetkov v sobesedilu.
    • Primeri
      *graf*- besede, ki vsebujejo niz graf
      fr>500- besede s pogostostjo nad 500
      fr>100 in be:podat- besede s pogostostjo več kot 100, ki vsebujejo niz podat
      *log- besede, ki se končujejo na log
      do=20- 20 črk dolge besede

  • Iskanje po pogostih besednih parih
    • Iskanje ene ali obeh besed v besednem paru besede, dovoljen je levi in/ali desni odrez z znakom *.
    • Znak * lahko nadomešča tudi celo besedo.
    • V rezultatih se izpiše seznam besednih parov, v katerih se iskana beseda pojavlja.
    • Seznam je urejen padajoče po pogostosti pojavljanja.
    • Primeri
      vmes*- ena od besed se začne z vmes
      * bralnik- druga beseda je bralnik
      *i katalog- katalog, ki ima spredaj besedo na -i

  • Iskanje po pogostih besednih trojčkih . . . četverčkih . . . peterčkih
    • Iskanje ene ali več besed v besednem trojčku (četverčku, peterčku), dovoljen je levi in/ali desni odrez z znakom *.
    • Znak * lahko nadomešča tudi celo besedo.
    • V rezultatih se izpiše seznam besednih trojčkov (četverčkov, peterčkov), v katerih se iskana beseda pojavlja .
    • Seznam je urejen padajoče po pogostosti pojavljanja.
    • Primeri
      javni * katalog- trojčki, ki vsebujejo javni katalog, vmes je še ena beseda
      uporabniki * * *- četverčki, ki se začnejo z besedo uporabniki
      * OA * * *- peterčki, v katerih je beseda OA in ena beseda spredaj, zadaj pa tri
    POZOR: Iskanje po trojčkih, četverčkih in peterčkih (posebno z uporabo zvezdic) je lahko dolgotrajno!


sreda, 14. september 2011

Blokirane besede

 

© 123rf
Z blokiranimi besedami in seznami blokiranih besed se srečujemo predvsem pri indeksiranju besedilnih podatkovnih zbirk in poizvedovanju po njih. Slovenska izraza sta bila dolgo v senci angleških terminov stopword in stopword list ali kar stoplist, v zadnjem času pa se slovenski termini uporabljajo pogosto in brez občutka sramu . . . Oba sta že zajeta v Bibliotekarskem terminološkem slovarju:
blokírana beséda -e -e ž beseda, ki je zaradi pogostosti ali nepomembnosti izločena
    iz postopkov poizvedovanja, avtomatskega indeksiranja, npr. veznik
seznám blokíranih beséd -a -- -- m popis besed, ki so zaradi pogostosti ali
    nepomembnosti izločene iz postopkov poizvedovanja, avtomatskega indeksiranja
Z blokiranjem besed se filtrira obdelavo besedilnik podatkov, navadno celotnih besedil dokumentov v podatkovnih zbirkah, zato da pri avtomatskem indeksiranju v kazala ne pridejo najpogostejše in za vsebino nepomembne besede. Tak seznam besed, ki so izključene iz iskalnih indeksov, ni rezultat računalniških obdelav, pač pa intelektualnega človeškega dela, saj se seznami od zbirke do zbirke lahko razlikujejo glede na njen namen in vsebino, razumljivo pa seveda tudi glede na jezik dokumentov. Primer seznama blokiranih besed, ki ga uporablja Google za angleški in nekatere druge jezike - krajši seznam vsebuje 174 besed, popolnejši pa že več kot 670. Število besed v takem seznamu je odvisno tudi od jezika, njegove strukture in posebnosti, znano je, da so seznami blokiranih besed angleškega jezika navadno mnogo krajši od slovenskih. V slovenski bibliotekarski literature je moč najti podatek (Dimec, J.: Avtomatsko indeksiranje 1), da sta slovenska strokovnjaka za potrebe svojih raziskav pripravila sezname blokiranih besed s 1593 (Popovič) in 1205 (Dimec) besedami. Urednik zbirke lahko uvrsti med blokirane besede katero koli besedo, primarno pa so to predvsem funkcijske besede. To so besede, ki pogosto nimajo posebnega leksikalnega pomena in služijo za izražanje slovničnih odnosov z drugimi besedami znotraj stavka (za razliko od leksikalnih besed, med katere spadajo samostalniki, glagoli, pridevniki in večina prislovov, ki lahko v podatkovni zbirki postanejo indeksirni izrazi oz. ključne besede). Med funkcijske besede štejemo predvsem veznike, predloge, zaimke, pomožne glagole, člene in členke. (Wikipedija)

Analiza Korpusa bibliotekarstva z nekaj več kot 200 slovenskimi strokovnimi bibliotekarskimi besedili oz. 1,6 milijona besedami (v času priprave podatkov za ta prispevek) je povsem potrdila osnovne teoretične predpostavke o besedilnih korpusih. V korpusu zajete besede se lahko razdeli v tri skupine:

  • zelo pogoste besede, ki pa ne predstavljajo vsebine dokumentov, mednje sodijo tudi funkcijske besede; v tej skupini je razmeroma malo različnih besed, vendar izrazito izstopajo s svojo veliko pogostostjo (absolutni prvak je pomožni glagol biti s 93.896 pojavljanji, sledi mu veznik in (61.115), predlog v (46.315) itd.; opaziti je strm padec pogostosti, zato je petnajsta najpogostejša beseda še zadnja s frkvenco nad deset tisoč),
  • zelo redke besede, ki prav tako ne predstavljajo vsebine dokumentov (med njimi so tudi imena)
  • relativno ozek pas besed v sredini, ki so najpomembnejše nosilke vsebine in v našem primeru morebitni kandidati za vključitev v slovar.
Med tistimi najpogostejšimi so praviloma besede, ki bi jih pri indeksiranju podatkovne zbirke lahko uvrstili med blokirane besede. Korpus te kategorije ne pozna, ker so lahko za analize besedil, primerjavo avtorjev ipd. zanimive vse besede. V ilustracijo navajam dva primera. Dokaj je bil evidentiran sedemkrat, vendar samo v enem besedilu! Beseda namreč se pojavlja v določeni vrsti znanstvenih publikacij dvakrat pogosteje od povprečja, v prispevkih za zbornike pogosteje kot v člankih revije Knjižnica in najredkeje v monografskih publikacijah . . . Pogostost v tem primeru ne pomeni absolutne frekvence, temveč delež v odnosu do vseh besed, izražen v promilih.

V prvi stotniji najpogostejših besed so na primer:

biti
in
v
za
na
ki
da
tudi
pa
z
s
ona
kot
ta
o
pri
ali
lahko
ne
po
v
od
ter
do
iz
imeti
med
še
svoj
drugi
tako
kateri
kar
ves
le
več
že
saj
oziroma
si
naj
bolj
vse
ko

Med 100 najpogosteje evidentiranimi besedami pa so tudi nekatere za bibliotekarstvo pomembne ključne besede, knjižnica je že na 7. mestu, nato si sledijo še gradivo, informacijski, delo, podatek, sistem, uporabnik, tema, področje, knjižničen, informacija, knjiga, vir, zbirka, visokošolski, uporabnikov, znanstven, storitev, program, avtor, revija, raziskovalen, študent, razvoj, rezultat, analiza, dejavnost, vsebina, vprašanje, stran, članek, primer, iskanje, organizacija, dokument, knjižničar pa še ravno zaključuje prvo stotnijo najpogostejših. Pri vseh teh je bilo izračunano absolutno pojavljanje vseh oblik besede, ker je bil izveden postopek lematizacije, to je je proces pripisovanja osnovne (slovarske) oblike besednim oblikam v korpusu. Beseda knjižnica se npr. pojavlja v 21 različnih oblikah (glede na sklon in število, vendar tudi z razlikovanjem velike in male začetnice).


Amebisova Termania poizkusno že išče po Bibliotekarskem terminološkem slovarju, našla je tudi blokirano besedo. Kot je razvidno, je bilo geslo dodano in urejeno že leta 1998.

četrtek, 4. avgust 2011

Korpus bibliotekarstva je dosegel milijon besed in je odslej javno dostopen

Besedilni korpus bibliotekarstva je presegel magično mejo enega milijona besed, ki jih črpa iz 144 slovenskih bibliotekarskih strokovnih besedil. Korpus vključuje samo objavljena besedila, ki so že dosegljiva v elektronski obliki. Poudarek je predvsem na zajemu besedil, objavljenih v zadnjem desetletju, glede na možnosti pa kdaj tudi nekatera starejša. Pričakujemo, da nam bo dal korpus, ki ga bomo še dopolnjevali, trdno osnovo za temeljit analitičen vpogled v sodobno bibliotekarsko terminologijo in omogočil učinkovitejše dopolnjevanje Bibliotekarskega terminološkega slovarja.

Upoštevana besedila niso v korpusu dostopna niti v izvirni obliki niti v celoti, za uporabnike so izdelane le hipertekstne povezave na izvirno objavo (npr. dLib.si, arhiv revije Knjižnica, zborniki ipd.). Besedila so uporabljena samo za izdelavo kumulativnih statističnih kazalcev jezika, npr. za sezname besed ali besednih zvez s pogostnostjo, in v konkordančnih seznamih, vendar tudi tam le v obliki ožjega citata ne več kot treh povedi - tekoče povedi, povedi pred njo in povedi za njo. Korpus torej ne posega v avtorske pravice piscev besedil ali založnikov. Kjer prispevki niso prosto dostopni, je zato povezava narejena samo na naslovno stran časopisa (npr. v primeru Knjižničarskih novic).

Pri pripravljanju besedil in za postavitev ter javno spletno uporabo korpusa je bila uporabljena domača programska oprema - urejevalnik besedil Eva in njegova internetna različica NEVA s specifičnimi funkcijami, ki že nekaj let omogočajo delovanje splošnega referenčnega korpusa slovenskega jezika Nova beseda , spletne različice Slovarja slovenskega knjižnega jezika in nekaterih drugih slovarskih in jezikoslovnih orodij.

Korpus bibliotekarstva je zasnoval in pripravil Ivan Kanič, korpus je javno in brezplačno dostopen na spletu pod pogoji licence CC.

Testna verzija korpusa je glede uporabnih funkcij še omejena na konkordančno kazalo, nekatere druge funkcije bomo dodali v kratkem. Vabimo vas, da korpus preizkusite in pokomentirate!

Preizkusite javno dostopni Korpus bibliotekarstva na straneh bloga Bibliotekarska terminologija.

Nekaj navodil v pomoč
pri uporabi Korpusa bibliotekarstva

Iskalni razpon
Standardno poteka iskanje po vseh besedilih (označena je izbira "celotni korpus"). Z izbiro v okencih je mogoče izbrati iskanje po besedilih samo enega tipa ali več tipov dokumentov. V tem primeru je treba izključiti izbiro Celotni korpus.

Postopek
V testni verziji korpusa je aktivna samo izbira Konkordance.
A/a - Omogoča omejevanje iskanja glede na veliko/malo začetnico. Iskanje ne razlikuje med velikimi in malimi črkami, kljukica v okencu pa pomeni poizvedbo z iskalnim nizom, pisanim samo z malo začetnico (primerjaj: knjižnica, Knjižnica)

Iskalni izraz
Standardno poteka iskanje po vpisanem nizu znakov vključno s presledki in vrstnim redom besed.
Maskiranje posameznih znakov ni mogoče.
Dovoljeno je desno krajšanje z znakom *
Primeri

knjižničarskegavse pojavitve besede knjižničarskega
visokošolskim knjižnicamvse pojavitve besedne zveze visokošolskim knjižnicam
knjižnic*beseda knjižnica v vseh sklonih in številih
bibliotekar*besede, ki se začnejo na bibliotekar-
spletn* katalog*besedne zveze z obema besedama v vseh sklonih in številih

Prikaz zadetkov
Standardno se izpiše do 100 zadetkov na stran, nastavitev je mogoče spremeniti. Puščice za listanje po straneh so na dnu izpisa.
Konkordančni seznam izpiše 45 znakov pred iskano besedo in 45 znakov za njo; nastavitev je mogoče spremeniti.
Na desni strani vsakega zadetka se izpiše kodirana oznaka dokumenta, ki s klikom pokaže sobesedilo iskane besede.
Izpišejo se do tri povedi, tekoča poved z iskano besedo, poved pred njo in poved za njo. Nad besedilom je kratek bibliografski opis dokumenta s hipertekstno povezavo do celotnega izvirnega besedila na strežniku, kjer je objavljeno.

Preizkusite javno dostopni Korpus bibliotekarstva na straneh bloga Bibliotekarska terminologija.

petek, 29. julij 2011

Nekaj najpogostejših besed v Korpusu bibliotekarstva

Besedilni korpusi se v terminologiji uporabljajo za inventarizacijo in preverjanje pojavitev besed in besednih zvez v strokovnih besedilih, torej za ugotavljanje, kateri izrazi in na kakšen način se pojavljajo v jeziku neke stroke. Zato so nepogrešljivo in nadvse koristno orodje ob pripravi sodobnih terminoloških slovarjev. V ta namen smo si že dalj časa prizadevali vzpostaviti tak korpus tudi na področju bibliotekarstva. Poskusna verzija slovenskega korpusa bibliotekarstva bo v nekaj dneh tudi javno dostopna, v kratkem času je dosegla že tri četrt milijona besed, ki jih črpa iz 71 strokovnih besedil (tekoče ažuriran Seznam besedil), glede na vrsto objave pa je struktura doslej analiziranih besedil taka:

Vrsta objaveŠtevilo besedilŠtevilo besed
    Doktorske disertacije2103.802    
    Magistrska dela350.492    
    Diplomska dela8203.805    
    Monografske publikacije8174.242    
Članki:
    Revija Knjižnica23107.530    
    Organizacija znanja26.182    
    Knjižničarske novice49.016    
    Prispevki v zbornikih1888.762    
    Drugi članki in sestavki38.148    
Celotni korpus71751.879    

Brez številk (predvsem obilice letnic) je prišlo doslej v konkordančna kazala 750.715 besed, od tega je 56.067 različnih oblik. Po pogostosti so na prvih mestih seveda funkcijske in terminološko nerelevantne besede kot so npr. vezniki, predlogi, pomožni glagoli ipd. (v podatkovnih zbirkah pogosto sodijo v kategorijo blokiranih besed), najpogostejši je veznik "in" s 26.421 pojavljanji, najpogostejši bibliotekarski termin je šele na 14. mestu, to je seveda knjižnica. Ker nastopa v različnih sklonskih oblikah, smo izvedli iskanje z desnim odrezom končnic:


Prikaz konkordančnega izpisa: termin knjižnica s sobesedilom in navedbo vira

Kot rezultat poizvedbe se izpiše konkordančni seznam iskanega zaporedja znakov v ožjem sobesedilu tako, da je pred iskano besedo še 45 znakov in enako število znakov za njo. Tradicionalno se takšno kazalo imenuje tudi KWIC indeks ali ključne besede v besedilu. Na desni strani vsakega zadetka se izpiše tudi kodirana oznaka dokumenta, ki s klikom pokaže širše sobesedilo iskane besede - izpišejo se do tri povedi, tekoča poved z iskano besedo, poved pred njo in poved za njo. Nad tako prikazanim besedilom je kratek bibliografski opis dokumenta s hipertekstno povezavo do celotnega izvirnega besedila na strežniku, kjer je objavljeno.

Knjižnici sledijo še uporabnik, gradivo, podatki, sistem, vir, avtor in informacija, med desetimi najpogostejšimi pa sta tudi pridevnika knjžnični in informacijski.

Korpus bibliotekarstva - Deset najpogostejših enobesednih bibliotekarskih terminov


Korpus bibliotekarstva - Vizualizacija stotih najpogostejših oblik enobesednih bibliotekarskih terminov

V korpusu izpričan besedni zaklad in njegova pestrost ter pogostost pojavljanja besed so odraz nabora analiziranih besedil, zato dosti pričakujemo od nadaljnje rasti korpusa, ki ga bomo po najboljših močeh dopolnjevali. Največje bogastvo in pestrost izrazja pričakujemo v številnih člankih, objavljenih v reviji Knjižnica v zadnjem desetletju, ter magistrskih delih. Žal diplomska dela s področja bibliotekarstva praviloma niso dostopna v elektronski obliki. Kovačeva kobila?

četrtek, 21. julij 2011

Sedaj med slovenskimi besedilnimi korpusi tudi bibliotekarstvo

V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, navadno grajena, hranjena in obdelana računalniško. Korpuse se uporablja za statistične analize pisanega in/ali govorjenega jezika, za preverjanje pojavitev besed in besednih zvez ali pa za potrditev lingvističnih pravil v določenem jeziku. So tudi nepogrešljivo in nadvse koristno orodje ob pripravi splošnih in tudi terminoloških slovarjev. Korpusi so seveda začeli nastajati tam čez veliko lužo in predvsem v "velikih" jezikih, vendar imamo že nekaj časa tudi za slovenski jezik več po nastanku in namenu različnih korpusov.

Referenčni korpusi so temeljna vrsta korpusov, ki naj bi predstavili celovito podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi najnatančneje izdelana metodologija gradnje, predstavljajo pa izhodišče za temeljne jezikoslovne raziskave predvsem s področja slovnice in slovarjev. Pri nas sodita v to kategorijo dva besedilna korpusa: Nova beseda, ki vsebuje okrog 240 milijonov besed iz 5.700 leposlovnih, strokovnih in uradnih besedil do leta 2004, in referenčni korpus slovenskega jezika FidaPLUS, ki vsebuje okrog 621 milijonov besed iz slovenskih besedil najrazličnejših zvrsti, objavljenih v letih od 1979 do 2006.

Specializirani korpusi predstavljajo jezik v natančno določeni rabi, med njimi so najpomembnejši korpusi strokovnih jezikov, predvsem v okviru terminoloških raziskav in gradnje terminoloških slovarjev. Taki so pri nas na primer Korpus DSI (Korpus zbornikov posvetovanja Dnevi slovenske informatike od 2003 do 2010 in revije Uporabna informatika), ki vsebuje 2 milijona besed, in na istem naslovu korpus iFpX, ki zajema okrog 14 milijonov izbranih izrazov iz korpusov FidaPLUS in DSI. Zanimiva sta tudi jezikoslovno označeni korpus Jos in Evrokorpus, ki je zbirka vzporednih dvojezičnih korpusov prevodov in obsega besedila v 22 jezikih držav, ki so bile leta 2007 članice EU, vsebuje pa 98 milijonov besed oz. 600 tisoč prevodnih enot. Nekaj prav posebnega pa je Vayna s četrt milijona besed iz 360 časopisnih člankov, ki so v času od aprila do avgusta 1998 obravnavali ti. "verbalne napade na JLA" (malo manj mladi se še spominjamo procesa JBTZ).

Predhodnik besedilnega korpusa bibliotekarstva

Strokovno delo pri pripravi Bibliotekarskega terminološkega slovarja , ki je potem izšel leta 2009, se je ravnalo po sodobnih načelih leksikografije, zato je temeljilo na ugotavljanju rabe izrazja v strokovnem jeziku in evidentiranju terminov s tradicionalnim "ročnim" izpisovanjem bibliotekarskih izrazov iz obsežnega seznama tiskanih slovenskih strokovnih besedil. Izpisovanje izbrane slovenske bibliotekarske strokovne literature v letih 1988 do 1999 je zajelo 291 sistematično in v celoti izpisanih besedil na skupno 6575 straneh, ob tem pa še naključne izpiske iz večjega števila ob delu uporabljenih besedil. Upoštevana so bila dela okrog 140 slovenskih avtorjev in tudi nekaj prevodov, npr. standardi ISBD. Na tej osnovi je bil nato izdelan alfabetarij, ki je predstavljal osnovni nabor izrazov za pripravo slovarja. Izpiski so bili že tedaj računalniško obdelani, najprej s "tablico" ZX Spectrum, nato z Atarijem in končno z osebnimi računalniki na različnih operacijskih sistemih. Računalniška besedilna zbirka je vsebovala 10.300 ekscerptov iz teh slovenskih bibliotekarskih besedil, ki so bila objavljena v letih med 1940 in 1999. Besedilnega korpusa in njegovih funkcij s takratno računalniško opremo, sredstvi in znanjem še ni bilo mogoče vzpostaviti. Danes je to že mogoče in po enoletnih pripravah je "shodila" te dni julija 2011 testna zasnova slovenskega Korpusa bibliotekarstva.

O slovenskem besedilnem korpusu bibliotekarstva

Ob zagonu je zajel korpus 25 slovenskih strokovnih bibliotekarskih besedil z okrog 380 tisoč besedami. Med njimi sta po dve doktorski disertaciji in dve magistrski deli, eno diplomsko delo, 13 člankov iz revije Knjižnica, 3 monografske publikacije, 3 prispevki iz zbornikov in en članek iz elektronske izdaje Organizacije znanja. Selektivni seznam besedil, ki bi sodila v korpusno obdelavo, obsega še okrog 600 enot, pri tem so upoštevana samo objavljena besedila, dosegljiva v elektronski obliki. Dinamika dopolnjevanja bo odvisna od prostovoljnega dela sodelavcev in razpoložljivosti besedil.

Pri pripravljanju besedil in za postavitev ter javno spletno uporabo korpusa je bila uporabljena domača programska oprema - urejevalnik besedil Eva in njegova internetna različica NEVA s specifičnimi funkcijami, ki že nekaj let omogočajo delovanje splošnega referenčnega korpusa slovenskega jezika Nova beseda , spletne različice Slovarja slovenskega knjižnega jezika in nekaterih drugih slovarskih in jezikoslovnih orodij.

Testno verzijo korpusa bibliotekarstva že uporabljamo in bo kmalu javno dostopna, takrat bomo o korpusu, njegovi vsebini, nastajanju in uporabi napisali še kaj več.