petek, 29. julij 2011

Nekaj najpogostejših besed v Korpusu bibliotekarstva

Besedilni korpusi se v terminologiji uporabljajo za inventarizacijo in preverjanje pojavitev besed in besednih zvez v strokovnih besedilih, torej za ugotavljanje, kateri izrazi in na kakšen način se pojavljajo v jeziku neke stroke. Zato so nepogrešljivo in nadvse koristno orodje ob pripravi sodobnih terminoloških slovarjev. V ta namen smo si že dalj časa prizadevali vzpostaviti tak korpus tudi na področju bibliotekarstva. Poskusna verzija slovenskega korpusa bibliotekarstva bo v nekaj dneh tudi javno dostopna, v kratkem času je dosegla že tri četrt milijona besed, ki jih črpa iz 71 strokovnih besedil (tekoče ažuriran Seznam besedil), glede na vrsto objave pa je struktura doslej analiziranih besedil taka:

Vrsta objaveŠtevilo besedilŠtevilo besed
    Doktorske disertacije2103.802    
    Magistrska dela350.492    
    Diplomska dela8203.805    
    Monografske publikacije8174.242    
Članki:
    Revija Knjižnica23107.530    
    Organizacija znanja26.182    
    Knjižničarske novice49.016    
    Prispevki v zbornikih1888.762    
    Drugi članki in sestavki38.148    
Celotni korpus71751.879    

Brez številk (predvsem obilice letnic) je prišlo doslej v konkordančna kazala 750.715 besed, od tega je 56.067 različnih oblik. Po pogostosti so na prvih mestih seveda funkcijske in terminološko nerelevantne besede kot so npr. vezniki, predlogi, pomožni glagoli ipd. (v podatkovnih zbirkah pogosto sodijo v kategorijo blokiranih besed), najpogostejši je veznik "in" s 26.421 pojavljanji, najpogostejši bibliotekarski termin je šele na 14. mestu, to je seveda knjižnica. Ker nastopa v različnih sklonskih oblikah, smo izvedli iskanje z desnim odrezom končnic:


Prikaz konkordančnega izpisa: termin knjižnica s sobesedilom in navedbo vira

Kot rezultat poizvedbe se izpiše konkordančni seznam iskanega zaporedja znakov v ožjem sobesedilu tako, da je pred iskano besedo še 45 znakov in enako število znakov za njo. Tradicionalno se takšno kazalo imenuje tudi KWIC indeks ali ključne besede v besedilu. Na desni strani vsakega zadetka se izpiše tudi kodirana oznaka dokumenta, ki s klikom pokaže širše sobesedilo iskane besede - izpišejo se do tri povedi, tekoča poved z iskano besedo, poved pred njo in poved za njo. Nad tako prikazanim besedilom je kratek bibliografski opis dokumenta s hipertekstno povezavo do celotnega izvirnega besedila na strežniku, kjer je objavljeno.

Knjižnici sledijo še uporabnik, gradivo, podatki, sistem, vir, avtor in informacija, med desetimi najpogostejšimi pa sta tudi pridevnika knjžnični in informacijski.

Korpus bibliotekarstva - Deset najpogostejših enobesednih bibliotekarskih terminov


Korpus bibliotekarstva - Vizualizacija stotih najpogostejših oblik enobesednih bibliotekarskih terminov

V korpusu izpričan besedni zaklad in njegova pestrost ter pogostost pojavljanja besed so odraz nabora analiziranih besedil, zato dosti pričakujemo od nadaljnje rasti korpusa, ki ga bomo po najboljših močeh dopolnjevali. Največje bogastvo in pestrost izrazja pričakujemo v številnih člankih, objavljenih v reviji Knjižnica v zadnjem desetletju, ter magistrskih delih. Žal diplomska dela s področja bibliotekarstva praviloma niso dostopna v elektronski obliki. Kovačeva kobila?

Ni komentarjev:

Objavite komentar

Opomba: Komentarje lahko objavljajo le člani tega spletnega dnevnika.