|
Orodje za gradnjo in uporabo korpusa omogoča tudi iskanje, prikaz in analizo n-gramov (n-gram je zaporedje določenega števila (n) besed, npr. besedni dvojček, trojček, četverček ipd.). V nadaljevanju so naštete nekatere najpogostejše besedne zveze glede na pojavljanje v besedilih, ki jih analizira Korpus bibliotekarstva. Upoštevane so tiste besedne zveze, ki jih lahko štejemo za stalne besedne zveze ali za strokovne termine (ne pa npr. samostalnik s predlogom ali veznikom, osebek z glagolom ipd.), naštevanje začne z najpogostejšimi in sega v vsaki skupini po rangu do stotega mesta.
Besedni pari knjižnično gradivo visokošolske knjižnice informacijska pismenost informacijski viri splošne knjižnice |
Besedni trojčki Univerza v Ljubljani v elektronski obliki sistemi za poizvedovanje enota knjižničnega gradiva v digitalni obliki |
Besedni četverčki uporabniki s posebnimi potrebami Narodna in univerzitetna knjižnica dejavnost kot javna služba trajno ohranjanje digitalnih virov Center za razvoj knjižnic predmet informatika v športu informacijska in komunikacijska tehnologija standardi za splošne knjižnice nacionalni program za kulturo za otroke in mladino strokovni kriteriji in merila merila za visokošolske knjižnice
|
Besedni peterčki bibliotekarstvo, informacijska znanost in knjigarstvo knjižnična dejavnost kot javna služba pogoji za izvajanje knjižnične dejavnosti delo v sistemu vzajemne katalogizacije knjižnično gradivo na 1000 prebivalcev programska oprema za avtomatizacijo knjižnic zagotavljanje dostopa do informacijskih virov dostop do elektronskih informacijskih virov gradivo in drugi informacijski viri
|
Zanimiva je infografika s prikazom 86.600 najpogostejših besed angleškega jezika, zajetih v British National Corpus, ki jo predstavlja WordCount.
Nekaj zanimivosti s tega seznama – dvajset izbranih besed z oznako ranga na lestvici pogostosti:
rang | beseda | rang | beseda |
219 | information | 1577 | TV |
357 | book | 3700 | catalogue |
406 | read | 3780 | journal |
555 | paper | 3928 | PC |
559 | type | 4505 | mouse |
705 | computer | 4875 | mobile |
843 | technology | 8143 | ink |
930 | write | 8222 | librarian |
1271 | phone | 9397 | tag |
1552 | library | 11013 | wireless |
WordCount - Primer prikaza ranga za besedo database, ki je
v rangiranem seznamu na 2876. mestu tik pred besedo socialist
Zanima me, ali se pojavi termin bibliopedagogika.
OdgovoriIzbrišiČe se, kolikokrat, morda v besedni zvezi ...
Hvala.
Termin "bibliopedagogika" v doslej analiziranih bibliotekarskih besedilih še ni bil evidentiran, se pa 13-krat pojavlja pridevnik bibliopedagoški. Bibliopedagogike tudi Nova beseda ni evidentirala, ima pa po enkrat biblipedagoga in bibliopedagoginjo.
OdgovoriIzbrišiPoudariti je treba, da je nabor besed seveda neposredno odvisen od besedil, ki so v korpusu že zajeta in zato (še) ne pokrivajo besedišča vseh avtorjev in vseh strokovnih področij; nabor besedil glede na tipologijo je razviden iz naslovne strani korpusa, sami naslovi besedil in avtorji pa so navedeni v seznamu besedil . Z dodajanjem novih besedil bo mogoče prišla na površje tudi beseda "bibliopedagigika". Verjamem, da bi bibliopedagogiko zagotovo našel v člankih revije Šolska knjižnica, vendar ta izhaja žal samo v tiskani obliki, Korpus bibliotekarstva pa se je omejil na elektronsko objavljena besedila in ne kaže, da bi se tu kaj spremenilo.
@Janez: Ker ste že v zapisu o Korpusu b. omenili, komu vse je lahko koristen me zanima a) kje si je mogoče pridobiti osnovno znanje za sestavljanje Korpusa za neko področje in b) kako se nato sploh lotiti takega dela. In potem, kakšen je kriterij za izbiro besedil iz katerih nastaja korpus (ekspertiza avtorja, obveza lektoriranja ipd.) in ali je mogoče vključevati tudi strokovne revije ali celo specializirane blogovske zapise?
OdgovoriIzbrišiO znanju:
IzbrišiKorpusno jezikoslovje je postalo sestavni del formalnega izobraževanja jezikoslovcev, domnevam, da poleg teoretičnih izhodišč v nekaterih okoljih spregovorijo precej tudi o praktičnih vidikih zasnove in izgradnje korpusov. Tudi vsak resen učbenik in/ali priročnik s področja jezikoslovja se danes o tem bolj ali manj obširno razpiše (npr. Bo Svensen: A Handbook of lexicography, 2009, knjiga je dosegljiva tudi v elektronski obliki na spletu, ali pa v slovensščini Špela Vintar: Terminologija : Terminološka veda in računalniško podprta terminografija, 2008). Kaj malega človek izve tudi na spletnih straneh posameznih korpusov, to so predvsem dobra izhodišča za razmišljanje (o morebitnem lastnem korpusu). Na LinkedIn obstaja skupina Terminology (včlanijo vsakega resnega kandidata), kjer je včasih kakšna razprava tudi o korpusih, pa tudi vprašati se da kaj. Tudi v slovenščini je že precej člankov o korpusih, predvsem predstavitve slovenskih dosežkov.
Glede praktične izvedbe (vzpostavitve, dopolnjevanja, obdelav ipd.) je nekoliko težje, odvisno od izbire programske podpore in njene specifike (vmesnik, jezik, dokumentacija, avtor . . .). Obstajajo brezplačna orodja (npr. SketchEngine), tudi Termania naj bi omogočala brezplačno uporabo orodja za korpus, vendar je v obeh primerih za začetnika malo navodil in/ali mentorstva. Jaz sem se odločil na orodja, ki jih uporablja Nova beseda, iz več razlogov – osnovne module poznam in že dolgo uporabljam (Eva za PC in Neva na spletnem strežniku), paket je odprt in omogoča lastne prilagoditve in visoko stopnjo "inventivnosti" (npr. kazala, analize kot je tabela v zadnji objavi Top200), avtor je pripravljen svetovati in priskočiti na pomoč, sploh pa me s prijateljem Primožem Jakopinom veže že celo stoletje ustvarjalnega sodelovanja (drznem si trditi, da sva naredila in objavila prvi slovenski računalniški slovarček, takrat še na avdiokaseti in za Spectruma).
O kriterijih:
IzbrišiKriteriji izbora besedil so zelo individualni in vezani na namen in cilje, ki jih želi uporabnik kasneje s korpusom doseči. Referenčni korpusi se pogosto ne omejujejo na določeno vrsto gradiv in "posrkajo" tako rekoč vsa dosegljiva besedila. Britanski referenčni besedilni korpus angleškega jezika vsebuje več kot dve milijardi besed iz vseh vrst besedil od leposlovja do dnevnega časopisja, strokovnih besedil in tudi spletnih virov kot so klepetalnice, blogi in podobno, ter velja za največji tovrstni korpus. Namen takega korpusa je zajeti "VSE" besede, ki se pojavljajo v angleškem jeziku – presoja in vrednotenje glede na nivo in rabo jezika (ter izrazov) ostaneta za kasneje strokovnjakom. Od tod tudi trditev, da je imel angleški jezik lani junija že en milijon besed! Specializirani korpusi imajo pogosteje (lahko tudi zelo striktno) izdelane kriterije za izbor, ker želijo zajeti določen, dokaj natančno razmejen, del jezika in njegove rabe. Pri Korpusu bibliotekarstva so bili kriterijo približno taki:
- Objavljena besedila
- Elektronska verzija (ničesar ne digitaliziramo, čeprav s tem izgubimo nekatere pomembne dokumente)
- Praviloma novejši dokumenti (vendar so tudi izjeme in jih bo vedno več)
- Znanstvena in strokovna dela (doktorati, magistrska in diplomska dela)
- Znanstveni in strokovni članki (v naprej pripravljen nabor naslovov znanstvenih in strokovnih časopisov)
- Prispevki v zbornikih
- Strokovno-informativni članki samo izjemoma (presoja redaktorja)
- Praviloma izvirna slovenska besedila, izjemoma tudi prevodi
- Specializiranih blogovskih zapisov doslej nismo zajemali, čeprav bo tudi to prej ko slej prišlo na vrsto; strokovni blogi so ob določeni kulturi piscev gotovo najboljši vir sodobne rabe strokovnega jezika in prav tam se pojavljajo najnovejši izrazi (včasih se tam zares rojevajo, če le imajo pisci posluh za to).
Formalnih kriterijev kakovosti sami nismo postavljali (zaupali smo presoji vira, npr. uredništvu časopisa, zbornika), niti ekspertize oz. strokovne avtoritete avtorja (to možnost presoje in vrednotenja ima še vedno lahko redaktor ob uporabi gradiva oz. posameznega termina, ker je za vsak izraz znan vir oz. tudi avtor). Na recenzentski postopek in lektoriranje se nismo ozirali, zopet s ciljem zajeti "živ" strokovni jezik in seveda ob tveganju zajeti tudi jezikovne spodrsljaje.
In ko smo že pri besedah: skočil sem na spletni seznam slovenskih dostopnih slovarjev in našel veliko pojmov, ki naj bi označevali približno to, kar tudi zajema beseda "slovar": Besednjak, Enciklopedija, Enciklopedični opis pojmov, eSlovar, Geslovnik, Glosar, Glosarček, Imenik, Iskalnik, iSlovar, ... izrazi, Izrazje, Klasifikacija, Korpus, Leksikon, Nomenklatura, Pojmi v ..., Pojmovnik, Prevajalnik, Seznam, Slogovni priročnik, Slovar, Slovarček, Slovnik, Terminologija, Terminološki slovar, Terminološka zbirka, Tezaver.
OdgovoriIzbrišiIn najbrž je tega še več... Sem bil kar malo zbegan, zlasti ker vse uporabljeno niso sopomenke in najbrž naslovi tudi niso vedno ustrezno uporabljeni za opis dejanske vsebine dela. Zato bi bil hvaležen našim leksikografom, ko bi k temu rekli kakšno besedo (morda pa so že?).
Sestavek o slovarju, besednjaku, glosarju . . . že pripravljam, vendar je precej nejasnosti in nedorečenosti. Potrebno bo še nekaj litrov kave, pa bo . . .
Izbriši