sreda, 14. september 2011

Blokirane besede

 

© 123rf
Z blokiranimi besedami in seznami blokiranih besed se srečujemo predvsem pri indeksiranju besedilnih podatkovnih zbirk in poizvedovanju po njih. Slovenska izraza sta bila dolgo v senci angleških terminov stopword in stopword list ali kar stoplist, v zadnjem času pa se slovenski termini uporabljajo pogosto in brez občutka sramu . . . Oba sta že zajeta v Bibliotekarskem terminološkem slovarju:
blokírana beséda -e -e ž beseda, ki je zaradi pogostosti ali nepomembnosti izločena
    iz postopkov poizvedovanja, avtomatskega indeksiranja, npr. veznik
seznám blokíranih beséd -a -- -- m popis besed, ki so zaradi pogostosti ali
    nepomembnosti izločene iz postopkov poizvedovanja, avtomatskega indeksiranja
Z blokiranjem besed se filtrira obdelavo besedilnik podatkov, navadno celotnih besedil dokumentov v podatkovnih zbirkah, zato da pri avtomatskem indeksiranju v kazala ne pridejo najpogostejše in za vsebino nepomembne besede. Tak seznam besed, ki so izključene iz iskalnih indeksov, ni rezultat računalniških obdelav, pač pa intelektualnega človeškega dela, saj se seznami od zbirke do zbirke lahko razlikujejo glede na njen namen in vsebino, razumljivo pa seveda tudi glede na jezik dokumentov. Primer seznama blokiranih besed, ki ga uporablja Google za angleški in nekatere druge jezike - krajši seznam vsebuje 174 besed, popolnejši pa že več kot 670. Število besed v takem seznamu je odvisno tudi od jezika, njegove strukture in posebnosti, znano je, da so seznami blokiranih besed angleškega jezika navadno mnogo krajši od slovenskih. V slovenski bibliotekarski literature je moč najti podatek (Dimec, J.: Avtomatsko indeksiranje 1), da sta slovenska strokovnjaka za potrebe svojih raziskav pripravila sezname blokiranih besed s 1593 (Popovič) in 1205 (Dimec) besedami. Urednik zbirke lahko uvrsti med blokirane besede katero koli besedo, primarno pa so to predvsem funkcijske besede. To so besede, ki pogosto nimajo posebnega leksikalnega pomena in služijo za izražanje slovničnih odnosov z drugimi besedami znotraj stavka (za razliko od leksikalnih besed, med katere spadajo samostalniki, glagoli, pridevniki in večina prislovov, ki lahko v podatkovni zbirki postanejo indeksirni izrazi oz. ključne besede). Med funkcijske besede štejemo predvsem veznike, predloge, zaimke, pomožne glagole, člene in členke. (Wikipedija)

Analiza Korpusa bibliotekarstva z nekaj več kot 200 slovenskimi strokovnimi bibliotekarskimi besedili oz. 1,6 milijona besedami (v času priprave podatkov za ta prispevek) je povsem potrdila osnovne teoretične predpostavke o besedilnih korpusih. V korpusu zajete besede se lahko razdeli v tri skupine:

  • zelo pogoste besede, ki pa ne predstavljajo vsebine dokumentov, mednje sodijo tudi funkcijske besede; v tej skupini je razmeroma malo različnih besed, vendar izrazito izstopajo s svojo veliko pogostostjo (absolutni prvak je pomožni glagol biti s 93.896 pojavljanji, sledi mu veznik in (61.115), predlog v (46.315) itd.; opaziti je strm padec pogostosti, zato je petnajsta najpogostejša beseda še zadnja s frkvenco nad deset tisoč),
  • zelo redke besede, ki prav tako ne predstavljajo vsebine dokumentov (med njimi so tudi imena)
  • relativno ozek pas besed v sredini, ki so najpomembnejše nosilke vsebine in v našem primeru morebitni kandidati za vključitev v slovar.
Med tistimi najpogostejšimi so praviloma besede, ki bi jih pri indeksiranju podatkovne zbirke lahko uvrstili med blokirane besede. Korpus te kategorije ne pozna, ker so lahko za analize besedil, primerjavo avtorjev ipd. zanimive vse besede. V ilustracijo navajam dva primera. Dokaj je bil evidentiran sedemkrat, vendar samo v enem besedilu! Beseda namreč se pojavlja v določeni vrsti znanstvenih publikacij dvakrat pogosteje od povprečja, v prispevkih za zbornike pogosteje kot v člankih revije Knjižnica in najredkeje v monografskih publikacijah . . . Pogostost v tem primeru ne pomeni absolutne frekvence, temveč delež v odnosu do vseh besed, izražen v promilih.

V prvi stotniji najpogostejših besed so na primer:

biti
in
v
za
na
ki
da
tudi
pa
z
s
ona
kot
ta
o
pri
ali
lahko
ne
po
v
od
ter
do
iz
imeti
med
še
svoj
drugi
tako
kateri
kar
ves
le
več
že
saj
oziroma
si
naj
bolj
vse
ko

Med 100 najpogosteje evidentiranimi besedami pa so tudi nekatere za bibliotekarstvo pomembne ključne besede, knjižnica je že na 7. mestu, nato si sledijo še gradivo, informacijski, delo, podatek, sistem, uporabnik, tema, področje, knjižničen, informacija, knjiga, vir, zbirka, visokošolski, uporabnikov, znanstven, storitev, program, avtor, revija, raziskovalen, študent, razvoj, rezultat, analiza, dejavnost, vsebina, vprašanje, stran, članek, primer, iskanje, organizacija, dokument, knjižničar pa še ravno zaključuje prvo stotnijo najpogostejših. Pri vseh teh je bilo izračunano absolutno pojavljanje vseh oblik besede, ker je bil izveden postopek lematizacije, to je je proces pripisovanja osnovne (slovarske) oblike besednim oblikam v korpusu. Beseda knjižnica se npr. pojavlja v 21 različnih oblikah (glede na sklon in število, vendar tudi z razlikovanjem velike in male začetnice).


Amebisova Termania poizkusno že išče po Bibliotekarskem terminološkem slovarju, našla je tudi blokirano besedo. Kot je razvidno, je bilo geslo dodano in urejeno že leta 1998.

Ni komentarjev:

Objavite komentar

Opomba: Komentarje lahko objavljajo le člani tega spletnega dnevnika.