petek, 30. september 2011

Enkratnice


© izklop.com
Namen tokratnega prispevka je praktičen in ilustrativen prikaz uporabe ene od možnosti, ki jih daje besedilni korpus v slovaropisju, v našem primeru za urejanje in dopolnjevanje Bibliotekarskega terminološkega slovarja.

Enkratnica ali hapax legomenon (gr. (kar je bilo) rečeno samo enkrat; mn. hapax legomena) je beseda, ki se v določenem besedilu ali pri določenem avtorju pojavi samo enkrat. (Wikipedia). Termin je, kot mnoge druge, (menda) uvedel dr. J. Toporišič (čeprav navaja njegova Enciklopedija slovenskega jezika, 1992, še termin "enkratna beseda"), ali pa morebiti dr. Peter Weiss ob eni od disertacij o analizi slovenskih besedil. Pomen enkratnic je različen glede na okolje, v katerem se pojavljajo. Pri prevajanju, predvsem starejših besedil, lahko povzročajo glavobol, ker jih je težko ali skoraj nemogoče prevesti, saj njihovega pomena ni mogoče ugotavljati s primerjavo besedil, ki bi to besedo prav tako vsebovala (prav primerjava vzporednih besedil v treh jezikih na kamnu iz Rosette je omogočila dešifriranje hieroglifov!). Nekateri literarni zgodovinarji se opirajo na enkratnice pri ugotavljanju avtentičnosti starejših besedil in potrjevanju ali zavračanju avtorstva (znan primer so besedila W. Shakespearja). Pri podatkovnih zbirkah so enkratnice največkrat balast in nezaželene, zato jih nekateri sistemi pri indeksiranju izločijo, ker praviloma nimajo teže pri opisovanju vsebine niti velike vrednosti za poizvedovanje (malo verjetno je, da se bo kdo spomnil prav te besede za poizvedovanje), po drugi strani pa obremenjujejo indekse in s tem povečujejo odzivne čase. V besedilnih korpusih pa so pogosto predmet raziskovanja.

V prispevku Blokirane besede je bilo govora o najpogostejših besedah, ki jih je evidentiral Korpus bibliotekarstva, tokrat pa namenjam objavo tistim na drugem koncu porazdelitvene krivulje, to je enkratnicam, besedam s pogostostjo ena. Korpus bibliotekarstva, ki vsebuje sedaj okrog 1,8 milijona besed iz 234 slovenskih bibliotekarskih strokovnih besedil, je namenjen predvsem proučevanju bibliotekarske terminologije, kot se uporablja v teoriji in v praksi, s tem pa tudi evidentiranju izrazja, ki sodi v terminološki slovar in tam še ni zajeto. Za tako proučevanje so zanimive tudi enkratnice, ki jih je potrebno prej temeljito presejati in izbrati le tiste zanimive in pomembne, ki pa se merijo prej v promilih kot v odstotkih izplena. Te izbranke lahko prihajajo z ožjega strokovnega področja, kjer je malo strokovnjakov in/ali literature, pogosto so to manj uporabljane sopomenke ali pa novosti, ki se v literaturi še niso uveljavile. So pa lahko tudi dober vir za iskanje zatipkanih besed, seveda samo tistih, ki so res zatipkane, ne pa posledica disleksije ali neznanja (te se praviloma ponavljajo).

V besednih indeksih Korpusa bibliotekarstva je evidentiranih kot enkratnica 38.413 "besed" v najširšem pomenu (torej delov besedila, ki so na obeh koncih zamejeni s presledkom, zato sodijo sem tudi števila, z OCR slabo prepoznane"packe", deli slabo deljenih besed ipd.). Kazala sem se lotil s slovaropisno ambicijo najti nekaj manj znanih ali novih besed, ki jih še ni v slovarju. Za pokušino sem uporabil kar krna najpogostejših ali najpomembnejših (?) terminov: knjižni* (-ca, -čni, -čar, -čarski, -čarstvo ipd.) in biblio* (-tekar, -tekarstvo, -tekarski, -grafija, -grafski, -metrija ipd.). Rezultati so bili presenetljivo zanimivi in predvsem tudi koristni, to je uporabni za dopolnjevanje slovarja. Namenoma navajam cel iskalni izraz, če bi koga od bralcev zamikalo ponoviti kaj podobnega za druge besede.

Ker gre za uporabo frekvenčnega kazala, je treba v iskalnem vmesniku označiti okence Besedno iskanje.

fr=1 in be:knjižni* - 121 zadetkov
fr=1 in be:biblio* - 110 zadetkov
Prikaz rezultatov ; v treh korakih si je potem mogoče ogledati ožje sobesedilo izbrane besede (po 45 znakov pred besedo in prav toliko za njo), širše sobesedilo (tri povedi) ali celoten dokument na strežniku, kjer je objavljen.
(fr = frekvenca; be = beseda; in = Boolov operator (konjunkcija); = relacijski operator enakosti; : relacijski operator "vsebuje")

Kot je bilo že omenjeno, so enkratnice predvsem "nepotrebne" ali celo nezaželene besede, med njimi je mnogo takih, ki so nastale kot napaka pri indeksiranju (nenavadno deljene besede, oznake za opombe, ki so stične z besedo ipd.), pri branju besedila (pdf datoteke različnih verzij in kodiranj), zaradi težav pri prepoznavanju skeniranih besedil (OCR), zatipkane besede pa tudi imena in blagovne znamke. Tu žal računalnik več ne pomaga in čez seznam je treba "ročno". In splačalo se je! Iz prve pozvedbe sem kot zanimivost označil in izbral dve besedi:
       geoknjižnica
       kiberknjižničar
Iz drugega seznama pa dvanajst:
       biblioandragoški
       biblioblogosfera
       bibliodementia (gr.)
       bibliokomunikacija
       bibliološki
       bibliopola (gr.)
       Bibliotekarček
       bibliotekarskobibliografski
       bibliourica
       nebibliotekar
       podbibliotekar
       sobibliometričen

Ta nabor bo lahko osnova za razpravo redaktorjev slovarja, ki bodo presodili slovarsko vrednost in pomembnost posameznih terminov, poiskali morebitne sopomenke ali člane istega frazeološkega gnezda in termine uvrstili med slovarska gesla, ali pa jih kot nepotrebne zavrgli.

Ni komentarjev:

Objavite komentar