Prikaz objav z oznako besedilni korpusi. Pokaži vse objave
Prikaz objav z oznako besedilni korpusi. Pokaži vse objave

sobota, 8. februar 2014

Zakon o knjižničarstvu in korpusna analiza


Ko sem pred časom objavil nekaj krajših sestavkov in analiz izrazja v slovenskih bibliotekarskih strokovnih in znanstvenih besedilih, ki jih je zajel Korpusa bibliotekarstva, sem med kolegi nekajkrat naletel na previdno izražene dvome o morebitni praktični (ne)uporabnosti takšnega početja. Med javno obravnavo Osnutka Zakona o spremembah in dopolnitvah Zakona o knjižničarstvu se je, kot že mnogokrat pred tem (tudi v času priprave in sprejemanja sedaj veljavnega Zakona o knjižničarstvu iz leta 2001), večkrat pojavljalo vprašanje oz. dvom o "uravnoteženosti" zakona glede na obravnavanje in zastopanost posameznih vrst knjižnic. Takrat se mi je porodila ideja, da bi lahko kvantitativna korpusna analiza besedila zakona pokazala, če gre res za poudarjeno obravnavo katere od vrst knjižnic oz. zelo redko obravnavo katere druge.

Analiziral sem dve besedili, Zakon o knjižničarstvu (Zknj-1, Uradni list RS, št. 87/2001 z dne 8. 11. 2001) in Osnutek Zakona o spremembah in dopolnitvah Zakona o knjižničarstvu, kakršen je bil dan v javno obravnavo Ministrstva za kulturo na spletu (16.1.2014). Pri tem je treba upoštevati, da ne gre za neposredno primerjavo obeh besedil, saj sta po strukturi zelo različni. Prvo je "suhoparen" zakon, kakršni pač zakoni po naravi praviloma so, v integralni obliki z vsemi členi, drugo pa obsežnejše opisno, razumevanju namenjeno besedilo, ki je osredotočeno zgolj na obravnavo nekaterih izbranih in za dopolnjevanje ali spreminjanje namenjenih členov, vsebuje pa več poglavij:

  • Uvod
  • Ocena stanja in razlogi za sprejem zakona,
  • Cilji, načela in poglavitne rešitve predloga zakona
  • Ocena finančnih posledic
  • Prikaz ureditve v drugih pravnih sistemih in prilagojenost ureditve pravu EU
  • Besedilo členov
  • Obrazložitev členov
  • Besedilo členov, ki se s tem zakonom spreminjajo
  • Zato prikazujem rezultate ločeno za vsak dokument in potem tudi kumulativno (sivi stolpec v tabeli) za Zakon in predlog njegovih dopolnil. Vzorec besedil je relativno majhen, saj obsegata obe besedili skupaj le nekaj manj kot 17 tisoč besed, zato so potekale obdelave skoraj hipno in če je bilo potrebno, jih ni bilo težko ponoviti. V skladu s pričakovanji distribucija najpogostejših besed znatno odstopa od vzorca najpogostejših besed v splošni rabi slovenskega jezika, saj gre v našem primeru za ozko specializirano besedilo. Tako je v zakonskem besedilu beseda knjižnica s 444 pojavljanji po pogostosti že takoj na drugem mestu (za veznikom in), v splošnem jeziku pa je šele na 1448. mestu. Ker pa nas ne zanima samo pojavnost besede knjižnica, pač pa predvsem njena zastopanost v terminih, ki predstavljajo posamezne vrste knjižnic, temelji analiza na konkordancah (pojavljanje v sobesedilu), kolokaciji (značilno sopojavljanje dveh ali več besed) in n-gramih (dvo- ali večbesednih terminoloških zvezah, kjer je knjižnica nosilna pomenska beseda).

    Zakon 2001 in
    Osnutek 2014
    Zakon o knjižničarstvu
    (2001)
    Osnutek zakona o spremembah in dopolnitvah
    Zakona o knjižničarstvu (2014)
        skupno število besed
    16.838
    5.325
    11.513
        knjižnica *
    444
    198
    246
        javna knjižnica
    3
    0
    3
        nacionalna knjižnica
    68
    32
    35
        Narodna in univerzitetna knjižnica
    7
    3
    4
        univerzitetna knjižnica **
    9
    6
    3
        specialna knjižnica
    15
    10
    5
        visokošolska knjižnica
    9
    7
    2
        splošna knjižnica
    76
    46
    30
        šolska knjižnica
    12
    9
    3
        državna knjižnica
    1
    1
    0
        knjižnični informacijski servis
    60
    28
    32

    Kako pogosto so v zakonskih dokumentih uporabljena poimenovanja posameznih vrst knjižnic.
              *    samostojno ali v zvezah
              ** samostojno (ne pa npr. v zvezi Narodna in univerzitetna knjižnica)

    Primerjalni prikaz števila pojavljanj poimenovanj knjižnic v dveh dokumentih.

    Kumulativni prikaz števila pojavljanj poimenovanj knjižnic v obeh dokumentih skupaj.

    Zgornja analiza je zgolj poskus objektivnega kvantitativnega prikaza zgradbe obravnavanih besedil in nima namena vsebine teh dokumentov niti vrednotiti niti komentirati. Sodbo o tem si je mogoče ustvariti le s pazljivim branjem, saj je pogostost pojavljanja neke besede v besedilu le eden od elementov za ocenjevanje vsebine.

    Kako pa na to gledate vi?

    ponedeljek, 29. julij 2013

    Mednarodna znanstvena konferenca CORPORA2013


    © International scientific conference  
    "Corpus linguistics"
    Korpusno jezikoslovje je sodobna veja jezikoslovja, ki raziskuje značilnosti in zakonitosti naravnega jezika na podlagi obsežnega empiričnega vzorca besedil iz vsakdanje javne jezikovne rabe. V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, navadno grajena, hranjena in obdelana računalniško. Korpuse se uporablja za statistične analize pisanega in/ali govorjenega jezika, za preverjanje pojavitev besed in besednih zvez ali pa za potrditev lingvističnih pravil v določenem jeziku. So tudi nepogrešljivo in nadvse koristno orodje ob pripravi splošnih in tudi terminoloških slovarjev. Korpuse so že v predračunalniškem času izdelovali tudi ročno, taki so bili seveda prava redkost in skoraj čudež, danes pa so to praviloma računalniške zbirke podatkov shranjene na digitalnih medijih in nekatere tudi javno dostopne na spletu. Prvi digitalizirani besedilni korpus (Brown Corpus) vsebuje besedila v ameriški angleščini in je nastal že v šestdesetih letih preteklega stoletja. Korpusi druge generacije so povezani z razvojem tehnologije, ki omogoča njihovo delovanje in uporabo, in so nastali v sodelovanju raziskovalnih, univerzitetnih in pogosto tudi založniških okolij. Prosto dostopna reprezentativna referenčna jezikovna korpusa za slovenski jezik sta Nova beseda in Gigafida, nekaj pa je tudi za posebna strokovna področja specializiranih korpusov, vendar vsi niso javni ali pa za njih pogosto ne vemo (npr. dvojezični Evrokorpus - vzporedni korpus prevodov ali pa Vayna s četrt milijona besed iz 360 časopisnih člankov, ki so v času od aprila do avgusta 1998 obravnavali ti. "verbalne napade na JLA" (malo manj mladi se še spominjamo procesa JBTZ). O vseh naštetih sem na tem mestu pred časom že nekajkrat pisal. Dokaj bogat specializiran besedilni korpus imamo Slovenci tudi za področje bibliotekarstva, to je Korpus bibliotekarstva, ki je prosto dostopen na straneh tega bloga in o katerem je bilo tudi že dovolj napisanega. Pred kratkim smo ga uspešno predstavili tudi širši mednarodni strokovni javnosti jezikoslovcev na znanstveni konferenci v St. Petersburgu.

    Katedra za matematično lingvistiko na Državni univerzi v St. Petersburgu je letos konec junija v sodelovanju z Inštitutom za jezikoslovne študije Ruske akademije znanosti in Oddelkom za aplikativno jezikoslovje Ruske državne pedagoške univerze A. I. Hercena že petič organiziral bienalno mednarodno znanstveno konferenco o korpusni lingvistiki Corpora 2013. Uredniški odbor je z veseljem sprejel našo prijavo in nas po predstavitvi s korpusom povezanih aktivnosti in analiz še posebej povabil k sodelovanju v skupino specializiranih korpusov. Konference se je udeležilo 67 strokovnjakov iz 14 držav (Rusije, ZDA, Nemčije, Velike Britanije, Slovaške, Češke, Belorusije, Poljske, Italije, Finske, Francije, Koreje, Belorusije In Slovenije). 54 predstavitev (Program) je obravnavalo različne praktične in teoretične vidike izgradnje in uporabe korpusov v različnih jezikih in na različnih nivojih (pisana in govorjena besedila, knjižni jezik in narečja, splošni in strokovni jezik, starejša besedila ipd.) ter rezultate analiz na področju morfologije, sintakse, semantike in jezikovnih primerjav. Zajeten konferenčni zbornik je zašel tudi v NUK-ov fond (Trudy meždunarodnoj konferencii "Korpusnaja lingvistika - 2013", 25-27 ijunja 2013 g., Sankt-Peterburg / [otvetstvennye redaktory V. P. Zaharov, O. A. Mitrofanova, M. B. Hohlova]. - Sankt-Peterburg : Izdatelʹstvo SPBGU, 2013. - 480 str.), na srečo pa so vsi članki, večina predstavitev in tudi videoposnetkov nastopov dostopni na spletu. Slovenski prispevek Slovene Specialized Text Corpus of Library and Information Science – an Advanced Lexicographic Tool for Library Terminology Research (članek, predstavitev, videoposnetek - žal zelo slaba kvaliteta zvoka) je naletel na dokajšnje zanimanje, kar kažejo tudi nekateri pokonferenčni odmevi.

    "Poslušanje v cirilici."

    Pri nas na severu je bilo 34,
    v Ljubljani pa 19°C.
    V muzeju Univerze.

    Ne, ni pokopališče. Na kamnih so ploščice z
    napisi univerz, s katerimi sodeluje Državna univerza v
    St. Petersburgu
    Med znanimi alumni Univerze sta tudi predsednika.

    Ruska nacionalna knjižnica je vsak zadnji
    torek v mesecu zaprta.
    Carskoe selo – krajevna knjižnica nedaleč od
    svetovno znanih carskih palač.

    petek, 10. avgust 2012

    Do kod osebni podatki?

    Hudo poletno vročino je pregrel še en dogodek, ki pa je za marsikoga smuknil mimo kar neopazno, čeprav se je o njem pisalo v dnevnem tisku, čivkalo na Twitterju in Facebooku pa tudi blogi so ga zaznali. Najbolj pa so dogodek občutili seveda uporabniki korpusa Nova beseda, v katerega so letele strele. Za kaj gre?

    Nova beseda, slovenski besedilni korpus, ki je sicer namenjen predvsem za slovaropisne potrebe Inštituta za slovenski jezik Frana Ramovša SAZU, kjer je tudi nastal, obenem pa tudi vsem drugim, ki se ukvarjajo z raziskovanjem slovenskega jezika in ga lahko na spletu prosto uporabljajo, se je začel julija letos čudno obnašati. Če je bilo v iskalni zahtevi osebno ime ali kaj osebnemu imenu podobnega (slovenski priimki so pogosto izpeljani iz poklicev od kovača do zidarja, kuharja in šuštarja, živali kot so zajec, medved, volk in sinica, pa tudi po narodih se imenujejo Lah, Nemec, Švab, Horvat, Turk, Rus ali so nastali iz domačih krajevnih imen, npr. Dolenc, Gorenc, Bohinc, Posavec in še kaj, da ne govorimo o "botaničnih" osebnih imenih, nastalih iz travica, bor, gaber, breza, ajda, marjetica, lan ipd.) se je skujal in ni hotel izpljuniti rezultatov ("Iskalni izraz: * * * vsebuje osebna lastna imena, zato zaradi varstva osebnih podatkov ne sme biti izveden."; Glej sliko pod naslovom). Vse to je posledica elektronskega sporočila, v katerem je nekdo aprila letos Informacijskemu pooblaščencu namignil, da naj bi upravitelji oz. avtor besedilnega korpusa ". . . kršil zakon s tem, ko je na svoji spletni strani http://bos.zrc-sazu.si/s_beseda.html, pod rubriko »Nova beseda«, brez privolitve objavil osebne podatke posameznikov, ki so primarno objavljeni v časopisu Delo . . .".

    Nekdo se je torej prepoznal v stavkih, iztrganih in izoliranih iz člankov, v preteklosti objavljenih v dnevnem časopisju . . . kot tisti policaj pred leti v romanu tam na Koroškem.
    Pooblaščenec je po prejemu navedenega obvestila zoper zavezanca, po uradni dolžnosti, uvedel postopek inšpekcijskega nadzora nad izvajanjem določb ZVOP-1 ter je dne 25. 4. 2012 po državnem nadzorniku za varstvo osebnih podatkov opravil ogled spletne strani in izdal Odločbo, v kateri je do potankosti in po korakih opisal iskanje, klikanje, dobljene rezultate in še kaj iz arzenala iskalnih strategij in postopkov ter uporabniškega vedenja (študentje bibliotekarstva pozor: učno gradivo!), nato pa sledi še usodna ugotovitev:
    ". . . da Nova beseda brez ustrezne zakonske podlage obdeluje osebne podatke posameznikov, ki jih je . . . torej mogoče na podlagi podatkov, ki so objavljeni v korpusu »Nova beseda« identificirati . . . Poleg tega je v korpusu »Nova beseda« objavljen tudi vir in datum izvornega članka, zato se lahko vsakdo, brez sorazmerno velikega napora, vloženega časa in brez stroškov, seznani s celotno vsebino članka . . . . V inšpekcijskem postopku je bilo ugotovljeno, da zavezanec brez ustrezne zakonske podlage obdeluje osebne podatke posameznikov, ki jih je mogoče brez velikih stroškov, nesorazmerno velikega napora ali veliko časa, neposredno identificirati. . . . zato je odredil, da . . . besedilni korpus »Nova beseda« na svoji spletni strani prilagodi na način, ki bo onemogočal kakršno koli iskanje besedil po imenu in/ali priimku posameznik."

    Ukrep je korpus kastriral do te mere, da je bilo nemogoče poiskati kakršno koli osebno ime in njegovo pojavljanje v besedilih, kar sem tudi sam opazil in seveda postal pozoren na dogajanje. Sledili so bolj ali manj ukrepu nenaklonjeni članki v časopisju (npr. Prepovedana kovačeva kobila komentatorja Lenarta J. Kučića v Sobotni prilogi Dela, Grožnja temeljnim civilizacijskim pridobitvam dr. Mirana Hladnika v Delu ter nato odgovor informacijske pooblaščenke, problem je zaznal tudi blog. Po pritožbi in dogovarjanju ter usklajevanju v začetku avgusta so predstavniki obeh ustanov ugotovili in se strinjali, da " . . . način, na katerega je bila odločba najprej izvršena, ni optimalen z vidika uporabnosti besedilnega korpusa, z vidika varstva osebnih podatkov pa je pretiran . . . zato bodo skupaj iskali rešitve, s katerimi se bo na eni strani ohranila uporabnost in poslanstvo besedilnega korpusa, obenem pa zagotovilo varstvo osebnih podatkov". Korpus je sedaj nekje "na pol poti", posamezna imena je mogoče iskati, imena in priimka pa ne, izjeme so tudi nekatera tuja imena in še kaj. Skratka na tič ne miš, volk ni sit, koza pa tudi ne več cela!

    Za primerjavo sem uporabil drugi (še večji) spletni korpus slovenskega jezika Gigafida; v zadnji številki Dela (7. avgust 2012) sem iz vidnejšega članka izbrskal ime in priimek osebe, ki ni politik, in poiskal v korpusu – 322 zadetkov, polno ime in priimek v sobesedilu! Z vsemi žgečkljivimi podrobnostmi. (Ime sem zakril jaz, nikoli ne veš . . .).

    Res pa je, da nadaljnje brskanje poda samo skrajšan bibliografski opis (samo naslov časopisa, naslov članka in leto), v katerem ni številke časopisa in strani. Pri spletnih dokumentih je označeno samo "Interenet" – podcenjevanje, kot da ne znam "kopipejstati", porabil sem 5 sekund, Google pa še eno! Iskanje z istim imenom sem ponovil, tokrat v spletnem Delu in za zadnjih 7 let dobil 139 člankov z vsemi detajli o tej osebi, njenih znancih in prijateljih, še slike, taka portretna en face in s profila, pa cela postava, vse v barvah . . . V Dnevniku 45 člankov, 24ur.com 45 člankov, Google pa sploh darežljiv – kakšnih 44.000 zadetkov! Zdaj pa nečesa ne razumem . . . !

    Nikakor ne oporekam prizadevanjem za varovanje in zaščito osebnih podatkov v kibernetskem prostoru (nekateri rečejo kar kiberprostor), saj se problema in posledic vse premalo zavedamo in prepogosto prihaja do nezaželenih presenečenj, kdo ve, kakšna nas še (že) čakajo! Celo zagovarjam in podpiram ohranjanje in varovanje zasebnosti. Me pa vržejo s tira prepovedi knjig (à la avtorice Gospe in zahtevane odškodnine, ki ji je sledilo uničenje knjige) ali dobljena tožba podeželskega policaja in pošteno oglobljen pisatelj! Pa vendar je v primeru korpusa situacija še nekoliko drugačna in specifična. Pustimo ob strani izobraževalni in raziskovalni namen, ki je gotovo najpomembnejši, vendar se zato še ni mogoče izogniti zakonu, in se posvetimo vsebini. Pomembno je to, da korpus ne zbira in ne obdeluje osebnih podatkov, pač pa že objavljena (t.i. ponovna raba ali reuse) in javno dostopna besedila, pretežno vzeta celo iz javnih občil, katerih namen je obveščanje in informiranje, objavljena v tiskani in elektronski obliki. Največja v korpusu zajeta celota so tri povedi (nikoli večji del besedila). Da pa " . . . se lahko vsakdo, brez sorazmerno velikega napora, vloženega časa in brez stroškov, seznani s celotno vsebino članka . . . ", je danes irelevantno, saj so vsa ta besedila (članki) na dosegu klika, če ne enega pa treh!

    Že pred časom sem hotel spoznati to dimenzijo gradnje korpusov in s tem povezanih rešitev drugod, ob teh zapletih sem poskusil znova, vendar nisem nikjer zasledil ničesar podobnega. Osebne podatke in njihovo varstvo se večkrat omenja in celo izpostavlja kot zelo pomembno vprašanje, vendar samo v povezavi z avtorji, bodisi kot varstvo avtorskih pravic, pravic do zasebnosti za psevdonimom skritega avtorja in predvsem pri govornih korpusih pravica "avtorja", to je govorca, do zasebnosti oz. neodkrivanja njegove identitete. O osebah, ki se pojavljajo v objavljenih besedilih, nisem zasledil ničesar, poseben problem so seveda nekatera specifična besedila (npr. pravna, medicinska, ponovna uporaba osebnih podatkov v informacijah javnega sektorja ipd.). Nekateri korpusi niso povsem javno dostopni in zahtevajo pisno izjavo uporabnika o njegovem statusu in namenu uporabe, take so npr. International Corpus of English-Ireland, The English-Norwegian Parallel Corpus, francoski Base textuelle FRANTEXT in nemški NEGRA Korpus.

    The British National Corpus omogoča iskanje po osebnih imenih in tudi lokacijo v besedilu podaja natančno, res pa je, da strani v dokumentu zelo pogosto ne navaja.

    Vzporedni večjezični Linguistic Corpus of the University of Vigo, ki vsebuje ločene segmente za besedila s področja prava, znanosti in tehnologije, računalniška, literature, turizma in varstva potrošnikov, omogoča iskanje po osebnih imenih in tudi prikaz vira, ki je lahko zelo natančen (tudi v pravnem segmentu) ali pa bolj splošen, kot je prikazano na primeru zgoraj.

    Švedski Korp, ki združuje iskanje po 85 manjših korpusih in obsega skoraj milijardo besed, je glede prikaza precej podoben našemu, omogoča iskanje po osebnih imenih in prikaže poleg osnovnih slovničnih podatkov tudi natančen vir, kjer je mogoče, tudi URL.

    In kako je z osebnimi podatki v Korpusu bibliotekarstva? Ta zajema izključno strokovna in znanstvena besedila s področja bibliotekarstva, v katerih se, hvala bogu, pojavlja kaj malo oseb, tu in tam kak in memoriam ali visok jubilej, pa še teh je komaj kaj, sicer pa samo avtorji prispevkov (Vključena besedila). Seznami literature, ki spremljajo analizirana dela, pa ne pridejo v korpus.


    Vir: design mind

    nedelja, 18. september 2011

    Korpus bibliotekarstva je dosegel popolno funkcionalnost

    © Altorientalistik
    Natančno dva meseca je trajalo, da se je Korpus bibliotekarstva iz svojih zametkov razvil v povsem delujoč sistem z vsemi funkcijami, kot je bil načrtovan. Namenjen je analizi slovenskih bibliotekarskih strokovnih in znanstvenih besedil in v njih uporabljnih terminov, predvsem pa kot učinkovito orodje za dopolnjevanje Bibliotekarskega terminološkega slovarja. Korpus omogoča različne oblike iskanja in prikaza besed in besednih zvez v ožjem ali širšem sobesedilu ter izdelavo seznamov in kazal po meri za analize in primerjave.

    Že v tej začetni fazi vzpostavitve je dosegel korpus občudovanja vreden obseg, predvsem pa zadovoljivo delujejo tudi že vse predvidene funkcije. Vsebuje več kot 1,8 milijona besed, črpanih iz 234 krajših ali daljših besedil. To so 4 doktorske disertacije, 19 magistrskih del, 8 diplomskih del, 79 člankov iz novejših letnikov strokovne revije Knjižnica, 31 člankov iz revije Organizacija znanja, 21 izbranih člankov Knjižničarskih novice, 59 prispevkov iz zbornikov, 3 starejši strokovnoinformativni članki in 10 monografskih publikacij. Vsa navedena dela so bila objavljena v elektronski obliki, večina izvorno digitalnih oz. vzporednih tiskani izdaji, nekaj pa tudi digitaliziranih. Poudarek je na zajemu besedil, objavljenih v zadnjem desetletju, glede na možnosti pa kdaj tudi starejša. Selektivni seznam potencialno zanimivih besedil obsega še okrog 400 enot, s katerimi bomo v prihodnje dopolnjevali korpus glede na časovne možnosti.

    Upoštevanje avtorskih pravic: Zajeta besedila niso v korpusu dostopna niti v izvirni obliki niti v celoti, za uporabnike so izdelane le hipertekstne povezave na izvirno objavo (npr. dLib.si, arhiv revije Knjižnica ipd.). Besedila so uporabljena samo za izdelavo kumulativnih statističnih kazalcev jezika, npr. za sezname besed ali besednih zvez s pogostnostjo, in v konkordančnih seznamih, vendar tudi tam le v obliki ožjega citata ne več kot treh povedi - tekoče povedi, povedi pred njo in povedi za njo. Korpus torej ne posega v avtorske pravice piscev besedil ali založnikov. Kjer prispevki niso prosto dostopni, je zato povezava narejena samo na naslovno stran časopisa (npr. Knjižničarske novice), kadar je zbornik objavljen v eni sami datoteki, je za vsakega od prispevkov povezava na celoten zbornik.

    Korpus je javno dostopen, zato upamo, da bo koristil tudi strokovnim kolegom bibliotekarjem pa tudi študentom bibliotekarstva in morebiti kakšnemu jezikoslovcu, terminologu ali slovaropiscu iz drugih logov.

    Funkcije in kako se uporabljajo

    Uporabniške nastavitve

    črk na levi strani in črk na desni strani
    Nastavitev dolžine prikazanega ožjega sobesedila pred iskano besedo in za njo.

    Izpiši enot na stran, prvi zadetek št.
    Nastavitev dolžine strani izpisa zadetkov in zaporedne številke zadetka, kjer naj izpis začne.

    * A/a
    Omogoča omejevanje iskanja konkordanc glede na veliko/malo začetnico. Iskanje sicer ne razlikuje med velikimi in malimi črkami, kljukica v okencu pa pomeni poizvedbo z iskalnim nizom, pisanim samo z malo začetnico (npr. knjižnica, Knjižnica); primer iskanja s kljukico in brez kljukice.

    Besedno iskanje po celih besedah   
    Standardno iskanje (kljukica) poteka samo natančno po vpisanem nizu znakov kot zaključeni celoti – besedi (knjiga). Brez kljukice poteka iskanje po tem nizu, ki je lahko tudi del besede (knjiga). Nastavitev velja za besedno iskanje, iskanje po parih, trojčkih, četverčkih in peterčkih.

    Iskalni razpon

    Standardno poteka iskanje po vseh besedilih (označena je izbira "celotni korpus"). Z izbiro v okencih je mogoče izbrati (omejiti) iskanje po besedilih samo enega tipa ali več tipov dokumentov hkrati. V tem primeru je treba izključiti izbiro Celotni korpus.

    Postopek

    • Konkordance - iskanje in prikaz besed v sobesedilu z navedbo vira.
      • Iskalni izraz
        • Standardno poteka iskanje po vpisanem nizu znakov vključno s presledki in upoštevaje vrstni red besed, ki jih je lahko več.
        • Maskiranje posameznih znakov ni mogoče.
        • Dovoljeno je desno krajšanje vsake od besed z znakom *.
      • Primeri
        knjižničarskega- vse pojavitve besede knjižničarskega
        visokošolskim knjižnicam- vse pojavitve besedne zveze visokošolskim knjižnicam
        knjižnic*- beseda knjižnica v vseh sklonih in številih
        bibliotekar*- besede, ki se začnejo na bibliotekar-
        spletn* katalog*- besedne zveze z obema besedama v vseh sklonih in številih
      • Prikaz zadetkov
        • Standardno se izpiše do 100 zadetkov na stran, nastavitev je mogoče spremeniti. Puščice za listanje po straneh so na dnu izpisa.
        • Konkordančni seznam izpiše 45 znakov pred iskano besedo in 45 znakov za njo; nastavitev je mogoče spremeniti.
        • Na desni strani vsakega zadetka se izpiše kodirana oznaka dokumenta, ki s klikom pokaže sobesedilo iskane besede.
        • Izpišejo se do tri povedi, tekoča poved z iskano besedo, poved pred njo in poved za njo. Nad besedilom je skrajšan bibliografski opis dokumenta s hipertekstno povezavo do celotnega izvirnega besedila na strežniku, kjer je objavljeno.

    • Besedno iskanje
      • Iskanje ene same besede, dovoljen je levi in/ali desni odrez z znakom *.
      • V rezultatih se izpiše abecedni seznam zadetkov z navedbo pogostosti pojavljanja.
      • V naslednjem koraku je mogoče prikazati vsakega od zadetkov v sobesedilu.
      • Primeri
        *graf*- besede, ki vsebujejo niz graf
        fr>500- besede s pogostostjo nad 500
        fr>100 in be:podat- besede s pogostostjo več kot 100, ki vsebujejo niz podat
        *log- besede, ki se končujejo na log
        do=20- 20 črk dolge besede

    • Iskanje po pogostih besednih parih
      • Iskanje ene ali obeh besed v besednem paru besede, dovoljen je levi in/ali desni odrez z znakom *.
      • Znak * lahko nadomešča tudi celo besedo.
      • V rezultatih se izpiše seznam besednih parov, v katerih se iskana beseda pojavlja.
      • Seznam je urejen padajoče po pogostosti pojavljanja.
      • Primeri
        vmes*- ena od besed se začne z vmes
        * bralnik- druga beseda je bralnik
        *i katalog- katalog, ki ima spredaj besedo na -i

    • Iskanje po pogostih besednih trojčkih . . . četverčkih . . . peterčkih
      • Iskanje ene ali več besed v besednem trojčku (četverčku, peterčku), dovoljen je levi in/ali desni odrez z znakom *.
      • Znak * lahko nadomešča tudi celo besedo.
      • V rezultatih se izpiše seznam besednih trojčkov (četverčkov, peterčkov), v katerih se iskana beseda pojavlja .
      • Seznam je urejen padajoče po pogostosti pojavljanja.
      • Primeri
        javni * katalog- trojčki, ki vsebujejo javni katalog, vmes je še ena beseda
        uporabniki * * *- četverčki, ki se začnejo z besedo uporabniki
        * OA * * *- peterčki, v katerih je beseda OA in ena beseda spredaj, zadaj pa tri
      POZOR: Iskanje po trojčkih, četverčkih in peterčkih (posebno z uporabo zvezdic) je lahko dolgotrajno!


    petek, 29. julij 2011

    Nekaj najpogostejših besed v Korpusu bibliotekarstva

    Besedilni korpusi se v terminologiji uporabljajo za inventarizacijo in preverjanje pojavitev besed in besednih zvez v strokovnih besedilih, torej za ugotavljanje, kateri izrazi in na kakšen način se pojavljajo v jeziku neke stroke. Zato so nepogrešljivo in nadvse koristno orodje ob pripravi sodobnih terminoloških slovarjev. V ta namen smo si že dalj časa prizadevali vzpostaviti tak korpus tudi na področju bibliotekarstva. Poskusna verzija slovenskega korpusa bibliotekarstva bo v nekaj dneh tudi javno dostopna, v kratkem času je dosegla že tri četrt milijona besed, ki jih črpa iz 71 strokovnih besedil (tekoče ažuriran Seznam besedil), glede na vrsto objave pa je struktura doslej analiziranih besedil taka:

    Vrsta objaveŠtevilo besedilŠtevilo besed
        Doktorske disertacije2103.802    
        Magistrska dela350.492    
        Diplomska dela8203.805    
        Monografske publikacije8174.242    
    Članki:
        Revija Knjižnica23107.530    
        Organizacija znanja26.182    
        Knjižničarske novice49.016    
        Prispevki v zbornikih1888.762    
        Drugi članki in sestavki38.148    
    Celotni korpus71751.879    

    Brez številk (predvsem obilice letnic) je prišlo doslej v konkordančna kazala 750.715 besed, od tega je 56.067 različnih oblik. Po pogostosti so na prvih mestih seveda funkcijske in terminološko nerelevantne besede kot so npr. vezniki, predlogi, pomožni glagoli ipd. (v podatkovnih zbirkah pogosto sodijo v kategorijo blokiranih besed), najpogostejši je veznik "in" s 26.421 pojavljanji, najpogostejši bibliotekarski termin je šele na 14. mestu, to je seveda knjižnica. Ker nastopa v različnih sklonskih oblikah, smo izvedli iskanje z desnim odrezom končnic:


    Prikaz konkordančnega izpisa: termin knjižnica s sobesedilom in navedbo vira

    Kot rezultat poizvedbe se izpiše konkordančni seznam iskanega zaporedja znakov v ožjem sobesedilu tako, da je pred iskano besedo še 45 znakov in enako število znakov za njo. Tradicionalno se takšno kazalo imenuje tudi KWIC indeks ali ključne besede v besedilu. Na desni strani vsakega zadetka se izpiše tudi kodirana oznaka dokumenta, ki s klikom pokaže širše sobesedilo iskane besede - izpišejo se do tri povedi, tekoča poved z iskano besedo, poved pred njo in poved za njo. Nad tako prikazanim besedilom je kratek bibliografski opis dokumenta s hipertekstno povezavo do celotnega izvirnega besedila na strežniku, kjer je objavljeno.

    Knjižnici sledijo še uporabnik, gradivo, podatki, sistem, vir, avtor in informacija, med desetimi najpogostejšimi pa sta tudi pridevnika knjžnični in informacijski.

    Korpus bibliotekarstva - Deset najpogostejših enobesednih bibliotekarskih terminov


    Korpus bibliotekarstva - Vizualizacija stotih najpogostejših oblik enobesednih bibliotekarskih terminov

    V korpusu izpričan besedni zaklad in njegova pestrost ter pogostost pojavljanja besed so odraz nabora analiziranih besedil, zato dosti pričakujemo od nadaljnje rasti korpusa, ki ga bomo po najboljših močeh dopolnjevali. Največje bogastvo in pestrost izrazja pričakujemo v številnih člankih, objavljenih v reviji Knjižnica v zadnjem desetletju, ter magistrskih delih. Žal diplomska dela s področja bibliotekarstva praviloma niso dostopna v elektronski obliki. Kovačeva kobila?

    četrtek, 21. julij 2011

    Sedaj med slovenskimi besedilnimi korpusi tudi bibliotekarstvo

    V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, navadno grajena, hranjena in obdelana računalniško. Korpuse se uporablja za statistične analize pisanega in/ali govorjenega jezika, za preverjanje pojavitev besed in besednih zvez ali pa za potrditev lingvističnih pravil v določenem jeziku. So tudi nepogrešljivo in nadvse koristno orodje ob pripravi splošnih in tudi terminoloških slovarjev. Korpusi so seveda začeli nastajati tam čez veliko lužo in predvsem v "velikih" jezikih, vendar imamo že nekaj časa tudi za slovenski jezik več po nastanku in namenu različnih korpusov.

    Referenčni korpusi so temeljna vrsta korpusov, ki naj bi predstavili celovito podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi najnatančneje izdelana metodologija gradnje, predstavljajo pa izhodišče za temeljne jezikoslovne raziskave predvsem s področja slovnice in slovarjev. Pri nas sodita v to kategorijo dva besedilna korpusa: Nova beseda, ki vsebuje okrog 240 milijonov besed iz 5.700 leposlovnih, strokovnih in uradnih besedil do leta 2004, in referenčni korpus slovenskega jezika FidaPLUS, ki vsebuje okrog 621 milijonov besed iz slovenskih besedil najrazličnejših zvrsti, objavljenih v letih od 1979 do 2006.

    Specializirani korpusi predstavljajo jezik v natančno določeni rabi, med njimi so najpomembnejši korpusi strokovnih jezikov, predvsem v okviru terminoloških raziskav in gradnje terminoloških slovarjev. Taki so pri nas na primer Korpus DSI (Korpus zbornikov posvetovanja Dnevi slovenske informatike od 2003 do 2010 in revije Uporabna informatika), ki vsebuje 2 milijona besed, in na istem naslovu korpus iFpX, ki zajema okrog 14 milijonov izbranih izrazov iz korpusov FidaPLUS in DSI. Zanimiva sta tudi jezikoslovno označeni korpus Jos in Evrokorpus, ki je zbirka vzporednih dvojezičnih korpusov prevodov in obsega besedila v 22 jezikih držav, ki so bile leta 2007 članice EU, vsebuje pa 98 milijonov besed oz. 600 tisoč prevodnih enot. Nekaj prav posebnega pa je Vayna s četrt milijona besed iz 360 časopisnih člankov, ki so v času od aprila do avgusta 1998 obravnavali ti. "verbalne napade na JLA" (malo manj mladi se še spominjamo procesa JBTZ).

    Predhodnik besedilnega korpusa bibliotekarstva

    Strokovno delo pri pripravi Bibliotekarskega terminološkega slovarja , ki je potem izšel leta 2009, se je ravnalo po sodobnih načelih leksikografije, zato je temeljilo na ugotavljanju rabe izrazja v strokovnem jeziku in evidentiranju terminov s tradicionalnim "ročnim" izpisovanjem bibliotekarskih izrazov iz obsežnega seznama tiskanih slovenskih strokovnih besedil. Izpisovanje izbrane slovenske bibliotekarske strokovne literature v letih 1988 do 1999 je zajelo 291 sistematično in v celoti izpisanih besedil na skupno 6575 straneh, ob tem pa še naključne izpiske iz večjega števila ob delu uporabljenih besedil. Upoštevana so bila dela okrog 140 slovenskih avtorjev in tudi nekaj prevodov, npr. standardi ISBD. Na tej osnovi je bil nato izdelan alfabetarij, ki je predstavljal osnovni nabor izrazov za pripravo slovarja. Izpiski so bili že tedaj računalniško obdelani, najprej s "tablico" ZX Spectrum, nato z Atarijem in končno z osebnimi računalniki na različnih operacijskih sistemih. Računalniška besedilna zbirka je vsebovala 10.300 ekscerptov iz teh slovenskih bibliotekarskih besedil, ki so bila objavljena v letih med 1940 in 1999. Besedilnega korpusa in njegovih funkcij s takratno računalniško opremo, sredstvi in znanjem še ni bilo mogoče vzpostaviti. Danes je to že mogoče in po enoletnih pripravah je "shodila" te dni julija 2011 testna zasnova slovenskega Korpusa bibliotekarstva.

    O slovenskem besedilnem korpusu bibliotekarstva

    Ob zagonu je zajel korpus 25 slovenskih strokovnih bibliotekarskih besedil z okrog 380 tisoč besedami. Med njimi sta po dve doktorski disertaciji in dve magistrski deli, eno diplomsko delo, 13 člankov iz revije Knjižnica, 3 monografske publikacije, 3 prispevki iz zbornikov in en članek iz elektronske izdaje Organizacije znanja. Selektivni seznam besedil, ki bi sodila v korpusno obdelavo, obsega še okrog 600 enot, pri tem so upoštevana samo objavljena besedila, dosegljiva v elektronski obliki. Dinamika dopolnjevanja bo odvisna od prostovoljnega dela sodelavcev in razpoložljivosti besedil.

    Pri pripravljanju besedil in za postavitev ter javno spletno uporabo korpusa je bila uporabljena domača programska oprema - urejevalnik besedil Eva in njegova internetna različica NEVA s specifičnimi funkcijami, ki že nekaj let omogočajo delovanje splošnega referenčnega korpusa slovenskega jezika Nova beseda , spletne različice Slovarja slovenskega knjižnega jezika in nekaterih drugih slovarskih in jezikoslovnih orodij.

    Testno verzijo korpusa bibliotekarstva že uporabljamo in bo kmalu javno dostopna, takrat bomo o korpusu, njegovi vsebini, nastajanju in uporabi napisali še kaj več.

    torek, 8. februar 2011

    Knjižnica v slovenskih bibliotekarskih strokovnih besedilih

    V prispevku Knjiga v slovenskih bibliotekarskih strokovnih besedilih je bil predstavljen postopek ekscerpiranja slovenskih bibliotekarskih besedil, na katerem je temeljila izdelava besedilne podatkovne zbirke, izhodiščnega abecedarija in kasneje Bibliotekarskega terminološkega slovarja. Izpisovanje je zajelo 291 v celoti izpisanih strokovnih besedil okrog 140 avtorjev, ki so bila objavljena v letih med 1940 in 1999.

    Tokrat pa še nekaj besed o pojavljanju termina knjižnica v slovenskih bibliotekarskih pa tudi drugih besedilih. V navedenih izpisanih bibliotekarskih strokovnih besedilih se pojavlja knjižnica samostojno in v 346 terminoloških zvezah, vsaj izpisovalci so se pri izpisovanju tako odločili in jih evidentirali kot stalne zveze, ogledate si jih lahko v prilogi 1. Pri treh avtorjih lahko zasledimo od leta 1995 tudi že termin elektronska knjižnica in pri štirih avtorjih od leta 1998 digitalna knjižnica, hibridna knjižnica pa v izpisih besedil do leta 1999 še ni bila evidentirana. Po domiselnosti nedvomno vodi totalna elektronska splošnoizobraževalna knjižnica, ki smo jo zasledili v članku revije Knjižnica leta 1988, vendar jo je tudi avtor zapisal med narekovaje.

    V Bibliotekarskem terminološkem slovarju je našlo poleg gesla knjižnica svoje mesto še 160 besednih zvez s to besedo, ogledate si jih lahko v prilogi 2. Med njimi so seveda tudi nekatere sopomenke, npr. centralna, osrednja in središčna knjižnica.

    V slovenskem besedilnem korpusu Nova beseda, ki vsebuje okrog 240 milijonov besed iz 5.700 leposlovnih, strokovnih in uradnih besedil do leta 2004, se pojavlja beseda knjižnica okrog 15.400-krat, to je petkrat manj kot knjiga, med najpogostejšimi 2000 besedami pa se pojavi samo enkrat in to na 1448. mestu v reviji Monitor, kar pa najverjetneje pomeni, da gre za programsko knjižnico, ki ni iz bibliotekarske terminologije. Število pogosteje zastopanih besednih zvez je mnogo skromnejše, kot smo zasledili pri knjigi. Knjižnica se v besedilih največ pojavlja v zvezi z besedami osrednja, splošna in tudi splošnoizobraževalna ter univerzitetna, ki je najpogostejša. Pogostejša od vseh navedenih je kratica NUK, virtualna in elektronska knjižnica pa se pojavljata le 20 oz. 33-krat.

    Referenčni korpus slovenskega jezika FidaPLUS vsebuje okrog 621 milijonov besed iz slovenskih besedil najrazličnejših zvrsti, objavljenih v letih od 1979 do 2006. Beseda knjižnica se v korpusu samostojna ali v besedni zvezi pojavlja 61.465-krat.

    V letu 2011 bomo skušali vzpostaviti lasten korpus okrog 500 novejših bibliotekarskih besedil in ena od analiz bo seveda posvečena uporabi termina knjižnica v najnovejših besedilih.


    Knjižnica malo drugače: Južnoameriška potujoča knjižnica z oslički
    Vir: Imagen y Cominicationes S&C

    četrtek, 6. januar 2011

    Knjiga v slovenskih bibliotekarskih strokovnih besedilih

    Spomenik leta 1942 uničenim in sežganim
    poljskim in židovskim knjigam, Kalisz
    Vir: Kalisz Turystyka
    Ko je pred leti začel nastajati slovenski bibliotekarski terminološki slovar, je bilo to pionirsko delo na povsem neraziskanem in neobdelanem področju, kjer ni bilo na razpolago nobenih osnov za delo in nobenih slovarjev, na katere bi se lahko slovaropisna skupina oprla. Ravnala se je po sodobnih načelih leksikografije, zato je delo temeljilo na ugotavljanju rabe izrazja v strokovnem jeziku in evidentiranju terminov z izpisi bibliotekarskih izrazov iz obsežnega korpusa slovenskih strokovnih besedil in po njih izdelanem geslovniku. Ta je bil osnova za izbor kasneje v slovarju obdelanih strokovnih pojmov in primerjanje z izborom v tujejezičnih strokovnih slovarjih. Izpisovanje izbrane slovenske bibliotekarske strokovne literature je zajelo 291 v celoti izpisanih besedil na skupno 6575 straneh. Računalniška besedilna zbirka vsebuje sedaj 10.300 ekscerptov iz teh slovenskih bibliotekarskih besedil, ki so bila objavljena v letih med 1940 in 1999. Zajeta so bila dela okrog 140 slovenskih avtorjev in tudi nekaj prevodov, npr. standardi ISBD. Na tej osnovi je bil nato izdelan alfabetarij, ki obsega 16.578 iztočnic in je predstavljal osnovni nabor za pripravo slovarja.

    V teh besedilih se pojavlja knjiga samostojno in v 124 terminoloških zvezah, vsaj izpisovalci so se pri izpisovanju tako odločili in jih evidentirali kot stalne zveze. Pri treh avtorjih se pojavlja od leta 1993 tudi že termin elektronska knjiga. Evidentirane so bile naslednje zveze, ki jih navajamo v Prilogi.

    V Bibliotekarskem terminološkem slovarju je našlo poleg gesla knjiga (ki je rekorder s šestimi razlagami) svoje mesto še 50 besednih zvez s to besedo. Med njimi so seveda tudi sopomenke, npr. e-knjiga in elektronska knjiga.

    V slovenskem besedilnem korpusu Nova beseda, ki vsebuje okrog 240 milijonov besed iz 5.700 leposlovnih, strokovnih in uradnih besedil do leta 2004, se pojavlja beseda knjiga okrog 71.655-krat, kar je petkrat več kot knjižnica, posamezne sklonske oblike pa so skoraj vse med najpogostejšimi 2000 besedami (345. mesto v leposlovju, 542. v znanstveni in strokovni literaturi, 749. v časopisu Delo in 857. v celotnem korpusu). Povsem v skladu s pričakovanji je knjiga največkrat v zvezah z avtor/avtorica, bela, del, elektronska, Guinnessova, izdati in izid, mladinska, matična, napisati, naslov, nova, objaviti, otroška, poslovne, predstaviti in predstavitev, slovenska, šolska, zemljiška ipd. Nedvomna zmagovalka je mladinska knjiga z 2200 pojavljanji, e-knjiga se pojavlja 173-krat in elektronska knjiga 252-krat, 57-krat pa celo inkunabula. Zanimiva je ugotovitev, da se knjiga najpogosteje uporablja v edninskih oblikah (okrog tri četrtine vseh pojavljanj).

    Referenčni korpus slovenskega jezika FidaPLUS vsebuje okrog 621 milijonov besed iz slovenskih besedil najrazličnejših zvrsti, objavljenih v letih od 1979 do 2006. Beseda knjiga se v korpusu samostojna ali v besedni zvezi že samo v osnovni obliki (imenovalnik ednine) pojavlja 57.621-krat.

    V prihajajočem letu bomo skušali vzpostaviti lasten korpus okrog 500 novejših bibliotekarskih besedil in ena od analiz bo seveda posvečena uporabi termina knjiga v sodobnem času.

    četrtek, 25. marec 2010

    Kaj slovar vsebuje in česa ne – in zakaj tako?

    Priprava projekta za sestavo terminološkega slovarja se je začela na povsem neraziskanem in neobdelanem področju, kjer ni bilo na razpolago nobenih osnov za delo in slovarjev, na katere bi se lahko skupina oprla. Delo slovaropisne skupine se je ravnalo po sodobnih načelih leksikografije, zato je temeljilo na izpisovanju bibliotekarskih izrazov iz obsežnega korpusa slovenskih strokovnih besedil in po njih izdelanem geslovniku. Ta je bil osnova za izbor v slovarju obdelanih strokovnih pojmov in primerjanje z izborom v tujejezičnih strokovnih slovarjih. Nesporno je, da je bibliotekarstvo razvejeno področje, zato je bila inventarizacija izrazja zahtevno pionirsko delo. Izhodišče za rast slovarja je bilo temeljito izpisovanje izrazja iz slovenskih bibliotekarskih besedil, ki so bila objavljena predvsem v drugi polovici dvajsetega stoletja. Prednost je bila dana izvirnim besedilom, upoštevanih pa je bilo tudi večje število prevodov predvsem monografskih publikacij.

    Koncept vsebinske zasnove slovarja

    Kodificiranje slovenske bibliotekarske terminologije, zapisane v terminološkem slovarju, temelji na
    • evidentiranju strokovnih izrazov, ki se v bibliotekarstvu uporabljajo danes ali so se uporabljali v preteklosti,
    • pomenski analizi posameznega termina in ugotavljanju pomenskih povezav ter sinonimnih ali antonimnih odnosov med njimi,
    • normiranju glede na knjižno normo in vsebinske ter jezikovne zahteve urejene strokovne terminologije.
    Vzporedno s tem je že v času nastajanja slovarja seveda potekalo ob tako pripravljenem gradivu tudi jezikovno svetovanje in presoja ob tekočih terminoloških vprašanjih rabe strokovnih izrazov v bibliotekarstvu in informacijski znanosti ter objavljanje rezultatov v strokovni literaturi, predvsem v strokovni reviji Knjižnica. Oboje je pomenilo tudi preverbo teoretičnih dognanj v praksi in omogočalo povratno informacijo širšega kroga strokovnjakov.

    Po svoji zasnovi in namenu je Bibliotekarski terminološki slovar
    • enojezični slovar – gesla in razlage so samo v slovenščini brez tujejezičnih ustreznikov,
    • razlagalni slovar – gesla opredeljujejo razlage, ki so krajše in enostavnejše od razlag v leksikonu,
    • normativni slovar – slovar predpisuje rabo in izraze tudi vrednoti (npr. neustrezno, žargon, zastarelo ipd.)
    V njem so zajeti tisti bibliotekarski strokovni izrazi, ki so v rabi predvsem danes in omogočajo komuniciranje v stroki. V slovarju so zato obdelani:
    • veljavni bibliotekarski termini,
    • slovenski termini s področja informacijske znanosti,
    • pomembnejša zastarela poimenovanja,
    • udomačeni žargonski izrazi,
    • splošno rabljene okrajšave in pomembnejše kratice,
    • strokovni izrazi s področja tiskarstva, založništva, knjigarstva, računalništva, dokumentalistike, informatike in nekaterih drugih področij, če posegajo v bibliotekarsko stroko.
    Pri izboru terminov, ki so v slovarju obravnavani, je v okviru posamezne besedne družine, v kateri je iz istega pojmovnega sklopa več besednih vrst, praviloma dana prednost samostalniku, medtem ko so druge besedne vrste vključene glede na pogostnost rabe.

    O nastanku alfabetarija

    Osnova za vključevanje terminov v slovar je bila kritična presoja izrazov v alfabetariju, ki je nastal z izpisovanjem. Izbor 291 besedil za izpisovanje je bil skrbno pretehtan in je temeljil na bibliografijah slovenske bibliotekarske literature Bože Pleničar. Izpisana besedila so bila objavljena v letih med 1940 in 1999 na skupaj 6.566 straneh.

    V prvi fazi izpisovanja izbrane slovenske bibliotekarske strokovne literature, ki je potekalo v letih 1987 do 1992, je bilo ekscerpiranih 61 strokovnih besedil. Temeljno izpisovanje je tako zajelo okrog 2.200 strani besedila, rezultat pa je bilo 4.662 računalniško obdelanih izpisov. V njih je bilo podčrtanih 10.570 strokovnih izrazov; nekateri med njimi se ponavljajo, zato je bilo dejansko identificiranih 6.534 terminov.

    Namen druge faze, ki je potekala v letih 1996 in 1997, je bilo dopolnilno in rezervno izpisovanje. Po ponovni presoji in izboru je bilo pregledanih še 139 besedil na skupaj 2.716 straneh. V računalniško zbirko je bilo dodanih 4.235 izpisov z 9.161 podčrtanimi terminološkimi zvezami, ki prinašajo v alfabetarij dodatno še 5.926 različnih terminov.

    Tretja faza, ki je potekala leta 1999, je bila namenjena predvsem dopolnilnemu izpisovanju novejših besedil, ki so bila objavljena v času po prvih dveh izpisovanjih. Zajela je 91 strokovnih besedil na skupaj 1.659 straneh, rezultat pa je 1.405 novih izpisov z 2.703 podčrtanimi terminološkimi zvezami, ki prinašajo v alfabetarij še 1.166 doslej neevidentiranih terminov.

    Iz gradiva za pripravo Angleško-slovenskega slovarja bibliotekarske terminologije, ki je izšel leta 2002 v sklopu mednarodnega projekta "Multilingual dictionary of library terminology" v Ljubljani, je bilo v alfabetarij vključenih 4.900 slovenskih izrazov.

    Tako pripravljena računalniška zbirka vsebuje 10.300 ekscerptov, odraz izpisovanja pa je abecedno urejen geslovnik v tiskani obliki, ki obsega 16.578 iztočnic; iz gradiva za alfabetarij je bilo leta 2000 izdelano tudi permutirano kazalo s 34.900 enotami. Alfabetarij in zbirka izpiskov sta na spletu javno dostopna.

    Alfabetarij, z njim pa seveda tudi slovar, odraža strokovno usmerjenost in vsebino ter terminološko pestrost slovenskih bibliotekarskih besedil druge polovice dvajsetega stoletja, pogosto pa žal tudi terminološko revnost in skoraj odsotnost nekaterih strokovnih področij. Na izbor so seveda vplivali tudi izpisovalci in njihovo razumevanje oz. "naklonjenost" določeni vsebini. Po letu 1999 sistematičnega izpisovanja ni več bilo, zato pa so člani slovaropisne skupine ob svojem vsakodnevnem pa tudi terminološkem delu skrbno beležili nove ali še neevidentirane izraze ter jih vključevali v slovar. Nekaj predlogov so iz svojega dela posredovali tudi strokovni kolegi.

    Kaj ja, kaj ne – in zakaj

    Neizpodbitno drži ugotovitev, ki velja za vse slovarje: V slovarju je tisto, kar že itak vem, tistega, kar iščem, pa tako nikoli ni! Ni razloga, da bi bilo z našim drugače . . .

    Izbor terminov pri izpisovanju in kasneje njihovo selektivno izbiranje iz alfabetarija sta nedvomno posledica subjektivne presoje posameznika, ki se je ukvarjal z določenim besedilom ali terminološkim gnezdom. Kljub sistematičnemu in začrtanemu delu se nekaterim »izgubljenim« terminom, ki jih v slovarju ni, pa bi tja vsekakor sodili, ni dalo izogniti. Najpogostejši razlogi za to so predvsem:
    • izraz se v izbranih besedilih ni pojavil ali zelo redko in ga je izpisovalec spregledal,
    • izpisovalec ali kasneje redaktor se je odločil, da je izraz presplošen in ni tipičen za bibliotekarsko terminologijo,
    • izpisovalec ali kasneje redaktor se je odločil, da je besedna zveza ti. prosta zveza in ne bibliotekarski termin,
    • ugotovili smo, da so nekatera strokovna področja relativno slabo zastopana v strokovni literaturi določenega obdobja,
    • huda skušnjava je izpuščanje izrazov, »ki jih tako ali tako vsakdo pozna«,
    • prav tako izpuščanje izrazov, ki so uporabljeni zelo nejasno in nerazumljivo (in opaženi samo pri enem avtorju),
    • včasih se je težko odločiti, če določen izraz še sodi v našo stroko ali je preveč od drugod,
    • težko se je odločiti tudi o tem, kako daleč bi posegali v neko drugo stično stroko (npr. knjigoveštvo, tiskarstvo ipd.),
    • če bi upoštevali vse novoprišleke iz računalništva, bi postal slovar prej računalniški kot bibliotekarski,
    • pri nekaterih izrazih je bilo zabeleženo neverjetno veliko število sopomenk, kar je v strokovni terminologiji nezaželeno, zato se je bilo težko odločiti, do kod bi sinonime še upoštevali,
    • v nekaterih primerih je težko ugotoviti, če gre res za sinonime ali za različne odtenke podobnega pomena, ki pa jih je vredno upoštevati,
    • nekateri novi, neustaljeni in v stroki še nepreverjeni izrazi bodo morali še počakati.
      Ne glede na navedeno se je vendarle bilo treba nekje zamejiti in redakcijo zaključiti, saj se sestavljanje slovarja živega jezika sicer nikoli ne zaključi.
    Kako naprej?

    Slovar je v dobrem in v slabem postavljen na ogled in dan strokovni javnosti v presojo. Več oči več vidi in več glav več ve, zato računamo na vaše pripombe in predloge, ki bodo vodili v dopolnjevanje manjkajočega in izboljšavo nepopolnega ali celo napačnega. Novejših besedil zadnjih nekaj let nismo sistematično analizirali in izpisovali, zato že imamo v načrtu izgradnjo spletnega besedilnega korpusa za bibliotekarstvo, ki bo vključeval besedila kakšnih 280 strokovnih besedil, ki so bila objavljena v zadnjem desetletju. Že preverjeni konkordančnik, kot ga uporablja Inštitut za slovenski jezik ZRC SAZU, bo omogočil raznovrstna iskanja in statistične analize uporabe besed in besednih zvez, kar bo nedvomno velik prispevek k učinkovitemu dopolnjevanju slovarja z najnovejšimi izrazi. Ob dinamičnem razvoju stroke, ki smo mu priča, se ni bati, da ne bi bilo vsak dan novih . . .