nedelja, 18. september 2011

Korpus bibliotekarstva je dosegel popolno funkcionalnost

© Altorientalistik
Natančno dva meseca je trajalo, da se je Korpus bibliotekarstva iz svojih zametkov razvil v povsem delujoč sistem z vsemi funkcijami, kot je bil načrtovan. Namenjen je analizi slovenskih bibliotekarskih strokovnih in znanstvenih besedil in v njih uporabljnih terminov, predvsem pa kot učinkovito orodje za dopolnjevanje Bibliotekarskega terminološkega slovarja. Korpus omogoča različne oblike iskanja in prikaza besed in besednih zvez v ožjem ali širšem sobesedilu ter izdelavo seznamov in kazal po meri za analize in primerjave.

Že v tej začetni fazi vzpostavitve je dosegel korpus občudovanja vreden obseg, predvsem pa zadovoljivo delujejo tudi že vse predvidene funkcije. Vsebuje več kot 1,8 milijona besed, črpanih iz 234 krajših ali daljših besedil. To so 4 doktorske disertacije, 19 magistrskih del, 8 diplomskih del, 79 člankov iz novejših letnikov strokovne revije Knjižnica, 31 člankov iz revije Organizacija znanja, 21 izbranih člankov Knjižničarskih novice, 59 prispevkov iz zbornikov, 3 starejši strokovnoinformativni članki in 10 monografskih publikacij. Vsa navedena dela so bila objavljena v elektronski obliki, večina izvorno digitalnih oz. vzporednih tiskani izdaji, nekaj pa tudi digitaliziranih. Poudarek je na zajemu besedil, objavljenih v zadnjem desetletju, glede na možnosti pa kdaj tudi starejša. Selektivni seznam potencialno zanimivih besedil obsega še okrog 400 enot, s katerimi bomo v prihodnje dopolnjevali korpus glede na časovne možnosti.

Upoštevanje avtorskih pravic: Zajeta besedila niso v korpusu dostopna niti v izvirni obliki niti v celoti, za uporabnike so izdelane le hipertekstne povezave na izvirno objavo (npr. dLib.si, arhiv revije Knjižnica ipd.). Besedila so uporabljena samo za izdelavo kumulativnih statističnih kazalcev jezika, npr. za sezname besed ali besednih zvez s pogostnostjo, in v konkordančnih seznamih, vendar tudi tam le v obliki ožjega citata ne več kot treh povedi - tekoče povedi, povedi pred njo in povedi za njo. Korpus torej ne posega v avtorske pravice piscev besedil ali založnikov. Kjer prispevki niso prosto dostopni, je zato povezava narejena samo na naslovno stran časopisa (npr. Knjižničarske novice), kadar je zbornik objavljen v eni sami datoteki, je za vsakega od prispevkov povezava na celoten zbornik.

Korpus je javno dostopen, zato upamo, da bo koristil tudi strokovnim kolegom bibliotekarjem pa tudi študentom bibliotekarstva in morebiti kakšnemu jezikoslovcu, terminologu ali slovaropiscu iz drugih logov.

Funkcije in kako se uporabljajo

Uporabniške nastavitve

črk na levi strani in črk na desni strani
Nastavitev dolžine prikazanega ožjega sobesedila pred iskano besedo in za njo.

Izpiši enot na stran, prvi zadetek št.
Nastavitev dolžine strani izpisa zadetkov in zaporedne številke zadetka, kjer naj izpis začne.

* A/a
Omogoča omejevanje iskanja konkordanc glede na veliko/malo začetnico. Iskanje sicer ne razlikuje med velikimi in malimi črkami, kljukica v okencu pa pomeni poizvedbo z iskalnim nizom, pisanim samo z malo začetnico (npr. knjižnica, Knjižnica); primer iskanja s kljukico in brez kljukice.

Besedno iskanje po celih besedah   
Standardno iskanje (kljukica) poteka samo natančno po vpisanem nizu znakov kot zaključeni celoti – besedi (knjiga). Brez kljukice poteka iskanje po tem nizu, ki je lahko tudi del besede (knjiga). Nastavitev velja za besedno iskanje, iskanje po parih, trojčkih, četverčkih in peterčkih.

Iskalni razpon

Standardno poteka iskanje po vseh besedilih (označena je izbira "celotni korpus"). Z izbiro v okencih je mogoče izbrati (omejiti) iskanje po besedilih samo enega tipa ali več tipov dokumentov hkrati. V tem primeru je treba izključiti izbiro Celotni korpus.

Postopek

  • Konkordance - iskanje in prikaz besed v sobesedilu z navedbo vira.
    • Iskalni izraz
      • Standardno poteka iskanje po vpisanem nizu znakov vključno s presledki in upoštevaje vrstni red besed, ki jih je lahko več.
      • Maskiranje posameznih znakov ni mogoče.
      • Dovoljeno je desno krajšanje vsake od besed z znakom *.
    • Primeri
      knjižničarskega- vse pojavitve besede knjižničarskega
      visokošolskim knjižnicam- vse pojavitve besedne zveze visokošolskim knjižnicam
      knjižnic*- beseda knjižnica v vseh sklonih in številih
      bibliotekar*- besede, ki se začnejo na bibliotekar-
      spletn* katalog*- besedne zveze z obema besedama v vseh sklonih in številih
    • Prikaz zadetkov
      • Standardno se izpiše do 100 zadetkov na stran, nastavitev je mogoče spremeniti. Puščice za listanje po straneh so na dnu izpisa.
      • Konkordančni seznam izpiše 45 znakov pred iskano besedo in 45 znakov za njo; nastavitev je mogoče spremeniti.
      • Na desni strani vsakega zadetka se izpiše kodirana oznaka dokumenta, ki s klikom pokaže sobesedilo iskane besede.
      • Izpišejo se do tri povedi, tekoča poved z iskano besedo, poved pred njo in poved za njo. Nad besedilom je skrajšan bibliografski opis dokumenta s hipertekstno povezavo do celotnega izvirnega besedila na strežniku, kjer je objavljeno.

  • Besedno iskanje
    • Iskanje ene same besede, dovoljen je levi in/ali desni odrez z znakom *.
    • V rezultatih se izpiše abecedni seznam zadetkov z navedbo pogostosti pojavljanja.
    • V naslednjem koraku je mogoče prikazati vsakega od zadetkov v sobesedilu.
    • Primeri
      *graf*- besede, ki vsebujejo niz graf
      fr>500- besede s pogostostjo nad 500
      fr>100 in be:podat- besede s pogostostjo več kot 100, ki vsebujejo niz podat
      *log- besede, ki se končujejo na log
      do=20- 20 črk dolge besede

  • Iskanje po pogostih besednih parih
    • Iskanje ene ali obeh besed v besednem paru besede, dovoljen je levi in/ali desni odrez z znakom *.
    • Znak * lahko nadomešča tudi celo besedo.
    • V rezultatih se izpiše seznam besednih parov, v katerih se iskana beseda pojavlja.
    • Seznam je urejen padajoče po pogostosti pojavljanja.
    • Primeri
      vmes*- ena od besed se začne z vmes
      * bralnik- druga beseda je bralnik
      *i katalog- katalog, ki ima spredaj besedo na -i

  • Iskanje po pogostih besednih trojčkih . . . četverčkih . . . peterčkih
    • Iskanje ene ali več besed v besednem trojčku (četverčku, peterčku), dovoljen je levi in/ali desni odrez z znakom *.
    • Znak * lahko nadomešča tudi celo besedo.
    • V rezultatih se izpiše seznam besednih trojčkov (četverčkov, peterčkov), v katerih se iskana beseda pojavlja .
    • Seznam je urejen padajoče po pogostosti pojavljanja.
    • Primeri
      javni * katalog- trojčki, ki vsebujejo javni katalog, vmes je še ena beseda
      uporabniki * * *- četverčki, ki se začnejo z besedo uporabniki
      * OA * * *- peterčki, v katerih je beseda OA in ena beseda spredaj, zadaj pa tri
    POZOR: Iskanje po trojčkih, četverčkih in peterčkih (posebno z uporabo zvezdic) je lahko dolgotrajno!


2 komentarja:

  1. Lepo in zapleteno, ampak kdo v teh letih suhih krav plačuje takšno igračkanje? Ne bi raje porabili denarja za knjige, ki jih nikoli ni dovolj?

    OdgovoriIzbriši
  2. Spoštovani @Anonimni (-a?), veseli me že to, da ste obiskovalec tega bloga, da ga berete in tudi dovolj kritično ocenjujete. Cenim tudi mnenja, ki se ne strinjajo z mojimi. Iz njih sem se že mnogo naučil in upam, da se bo kdo kaj naučil tudi iz mojega bloga in Korpusa bibliotekarstva.

    Prav imate, za knjige je vedno premalo denarja, in tudi če ga dodamo še nekaj malega, ga bo še vedno premalo . . . Tudi če nehamo nabirati travniške cvetlice, ne bodo krave nič bolj debele.

    Naj vas pomirim, za projekt zasnove in potem za samo pripravo, razvoj in gradnjo korpusa ni bil porabljen niti cent iz javnih sredstev, vse je bilo "financirano" privatno – popoldanski prosti čas, neprespane noči, vikendi za računalnikom, večji del letošnjega dopusta, lasten prenosnik, lastnen internetni priključek, lastno znanje . . . Samo predstavljajte si, koliko kave je za to potrebno, tudi lastna investicija . . .

    In every real man a child is hidden that wants to play. ~Friedrich Nietzsche

    OdgovoriIzbriši

Opomba: Komentarje lahko objavljajo le člani tega spletnega dnevnika.