nedelja, 27. januar 2013

Standardne številke kot identifikatorji


© ISO - International Organization for Standardization

Zadnji zapis o identifikatorjih (Identifikator ali označevalnik? ) nadaljuje tokratni prikaz mednarodnih standardnih številk, s katerimi se najpogosteje srečujemo v bibliotekarstvu. Mednarodnim sistemom za enolično označevanje izdelkov (npr. EAN, GTIN ipd.) so se prvi priključili knjižni založniki v Veliki Britaniji že leta 1968, v kratkem času je to postala mednarodna standardna knjižna številka pod okriljem Mednarodne organizacije za standardizacijo, njena struktura pa se je iz na začetku 9-mestne spremenila v 10-mestno oznako, pred nekaj leti pa zaradi obsega založniške dejavnosti že v 13-mestno, saj deset števk ni več zadoščalo. Slovenski založniki so se s sistemom ISBN srečali že leta 1985 še pod okriljem Jugoslovanske agencija za ISBN, leta 1992 pa je naloge nacionalne agencije v Sloveniji prevzela Narodna in univerzitetna knjižnica." (povzeto po Priročnik za uporabnike Mednarodne knjižne številke, 2006). Nekaj let kasneje se je pojavila mednarodna oznaka za serijske publikacije ISSN, ki so ji v kratkem sledile še oznake za druge vrste publikacij in avtorskih del. V Bibliotekarskem terminološkem slovarju so evidentirane in na kratko opisane naslednje številke oz. njihove kratice:

  • standardna številka -e -e ž vsaka od dogovorjenih številk, navadno mednarodnih, ki enolično identificirajo publikacijo, dokument, npr. ISBN, ISSN, DOI

  • Mednarodna standardna knjižna številka -e -e -e -e ž (krat. ISBN) številka v mednarodnem sistemu za identifikacijo posamezne izdaje monografske publikacije, ki vključuje tudi oznako države ali jezika, založbe in knjige, publikacije; sin. Mednarodna standardna številka knjige
  • Mednarodna standardna koda besedila -e -e -e -- ž (krat. ISTC) koda v mednarodnem sistemu za identifikacijo intelektualne lastnine besedilnega dela
  • Mednarodna standardna koda dela -e -e -e -- ž (krat. ISWC) koda v mednarodnem sistemu za identifikacijo intelektualne lastnine glasbenega dela
  • Mednarodna standardna koda posnetka -e -e -e -- ž (krat. ISRC) koda v mednarodnem sistemu za identifikacijo zvočnih posnetkov
  • mednarodna standardna serijska številka neustr., gl. Mednarodna standardna številka serijske publikacije
  • Mednarodna standardna številka avdiovizualnega dela -e -e -e -- -- ž (krat. ISAN) standardna številka v mednarodnem sistemu za identifikacijo avdiovizualnega gradiva
  • Mednarodna standardna številka avdiovizualnega dela - identifikator verzije -e -e -e -- -- -ja -- ž (krat. V-ISAN) razširjena oblika Mednarodne standardne številke avdiovizualnega dela, ki omogoča tudi identifikacijo določene verzije določenega avdiovizualnega dela
  • Mednarodna standardna številka glasbenega tiska -e -e -e -- -- ž (krat. ISMN) številka v mednarodnem sistemu za identifikacijo glasbenih tiskov in muzikalij na katerem koli fizičnem nosilcu
  • Mednarodna standardna številka knjige -e -e -e -- ž (krat. ISBN) številka v mednarodnem sistemu za identifikacijo posamezne izdaje monografske publikacije, ki vključuje tudi oznako države ali jezikovne skupine, založbe in knjige, publikacije; sin.Mednarodna standardna knjižna številka
  • Mednarodna standardna številka serijske publikacije -e -e -e -- -- ž (krat. ISSN) številka v mednarodnem sistemu za identifikacijo serijskih publikacij
  • Mednarodna standardna številka strokovnega poročila -e -e -e -- -- ž (krat. ISRN) številka v mednarodnem sistemu za identifikacijo strokovnih poročil

Primer oznake ISBN – stara desetmestna in nova trinajstmestna
© HONGKIAT.com

sobota, 19. januar 2013

Bil je učitelj, kolega in prijatelj

 

 

 

 

 

 

 

     Dr. Branko Berčič
     12. januar 1927, Šmalčja vas pri Šentjerneju
     17. januar 2013, Škofja Loka

Radi se spominjamo dobrih učiteljev, ki so nas naučili česa koristnega in nam utrli pot ter nas usmerili v strokovno življenje, razgledanih strokovnih kolegov, s katerimi je bilo lepo sodelovati, živahno razpravljati in skupaj dosegati zastavljene cilje, in seveda prijetnih prijateljev, s katerimi smo preživeli nepozabne trenutke. On je bil vse to. Spoštovan profesor, občudovanja vreden kolega in nasmejan prijatelj, ki je bil vedno pripravljen prisluhniti in pomagati. Odslej bo z nami samo še v srcih in lepih spominih. Le nekaj dni po 86. rojstnem dnevu nas je za vedno zapustil.

Tudi tisti, ki smo mislili, da ga bolje poznamo, smo bili pogosto začudeni nad pisanostjo in raznolikostjo dejavnosti, s katerimi se je v življenju ukvarjal in nadvse uspešno spopadal. In v vsem je bil tako dober, zares odličen, da si ga vsak po svoje "lastimo". Življenje ga je že tako mladega z Dolenjske preneslo na Gorenjsko, da ga imajo Škofjeločani za svojega, bil jim je občinski odbornik in podpredsednik občine Škofja Loka. Za svojega ga imajo slavisti in literarni zgodovinarji, saj je bil velik poznavalec in raziskovalec Tavčarja, protestantike, srednjeveške literature in piscev 19. stoletja. Tudi zgodovinarji ne dajo svojega predsednika in častnega člana Muzejskega društva Škofja Loka. Celo kulturna politika mu ni bila tuja, bil je pomočnik republiškega sekretarja za prosveto in kulturo. Velik del življenja je posvetil študentom in ustanovitev Oddelka za bibliotekarstvo je prav njegova zasluga, Univerza mu je podelila naziv zaslužnega profesorja, po njem pa se imenuje tudi nagrada diplomantom za najboljše diplomsko delo s področja bibliotekarstva in informacijske znanosti. Seveda ga tudi knjižničarji ne damo, prehodil je vso pot od knjižničarja do vodje Rokopisnega oddelka in ravnatelja Narodne in univerzitetne knjižnice, ves čas pa tudi raziskovalca srednjeveških rokopisov in inkunabul, zaščite in nege knjižničnega gradiva, razvoja tiskarstva, nacionalne knjižnice in stanja ter organiziranosti knjižničarstva na Slovenskem. Njegova osebna bibliografija šteje nad 480 bibliografskih enot. Zveza bibliotekarskih društev Slovenije mu je za strokovno in znanstveno delo ter prispevk k razvoju bibliotekarstva podelila Čopovo diplomo in dvakrat nagrado Kalanovega sklada. Kot priznanje za življenjsko delo mu je leta 2010 predsednik republike podelil Zlati red za zasluge. Kaj še ostane tako bogatemu življenju? Umetnost? Objavil je tudi nekaj liričnih pesmi, nekatere skupaj z Ivanom Minattijem, Ado Škerlj in drugimi. Nemara šport? Kot deček se je že med vojno včlanil v loški nogometni klub in bil po vojni član nogometne mladinske selekcije . . .

Izjemen je bil tudi njegov prispevek k bibliotekarski terminologiji. Kot slavist, raziskovalec in pedagog je negoval slovenski jezik in se zavedal izjemnega pomena ustrezne terminologije za razvoj in afirmacijo stroke. Vse od leta 1987 je prizadevno sodeloval v Bibliotekarski terminološki komisiji, katere soustanovitelj je bil, in jo povezoval s Terminološko komisijo Inštituta za slovenski jezik pri SAZU. Veselje je bilo z njim razpravljati in se ob tem ves čas tudi učiti, saj je bil neizmeren vir znanja o zgodovini bibliotekarstva, pisav in knjige ter njenih prehodnic, inkunabulistike, tiskarstva in vsega s tem povezanega. Vodil nas je in nam svetoval, pri tem pa ga ni bilo sram priznati, da se z veseljem ves čas od nas tudi sam uči "vsega tega novega, kar zdaj vi mladi delate". Vedno dobrovoljen, razumevajoč in sočuten kolega je v strokovni terminološki razpravi enakovredno in brez zamere s spoštovanjem sprejemal mnenja in tudi kritike kolegov svoje generacije, Maksa Veselka, Staneta Suhadolnika, Jožeta Munde in kasneje Majde Ujčič, kot tudi nas, takrat še bibliotekarskih zelencev. V tako prijetnem vzdušju je bilo veselje delati, privoščili pa smo si tudi slavnostne večerje in razigrane piknike na Štajerskem, Gorenjskem in Notranjskem! Zasluga za uspešno delo Bibliotekarske terminološke komisije in izid slovarja je zagotovo v veliki meri prav njegova.

Branko ni bil nikoli moj profesor, vedno pa je bil moj učitelj in vzornik. Hvaležen sem mu za vsak trenutek skupnega dela, za vsak nasvet in vsako vzpodbudo. Pa neizmerno človeško toplino in prijateljski odnos. Ostal bo v mojem srcu.

Čas

I

Po cesti šla sva
jaz
korak za mano
Čas.

Drseč za sabo vlekel je stopinje,
mu plašč zamazan v sapi je pofrfotaval.
Pri luknjah noter, ven skozi rokav
se veter je skrivalnice igral,
lase razmršil in jih sipal čez oči,
ki bodle so kot brinje.
Ves šumni dan do pozne tihe tja noči
pretrgano je suho pokašljaval.
A jaz,
ves mlad in zdrav
naprej sem hitel kakor val vihrav
in nisem mu privoščil ne pogleda ne pozdrava.
Korak za mano šel je Čas!

II

Po cesti šla sva
jaz
in poleg mene
Čas.

Pogledal sem v obraz razbičan mu, v oči,
in videl sem, da take so kot moje,
in čutil sem, da isto v srcih obeh živi,
da kri obema divje poje.
Podal sem mu rokó
in šla sva, eno oba, v trpljenje, v boje
tovariš Čas in poleg njega jaz!

III

Po cesti stopa
Čas —
za njim grem
jaz.

S ponosno dvignjeno glavó,
s korakom prožnim gre naprej,
saj svet njegov je ves brez mej
in on za večno, za vsekdar
njegov je silni gospodar.
A meni v srcu je bolnó,
mi v prsi leze mrtvi mraz.
A tam, pred mano, Čas! —

. . . Počakaj Čas,
     za tabo grem!
     Ne smem? - - Ne smem! . . .
     Ah, meni že tako je mraz . . .
     Čas . . . ! Čas . . . !

Branko Berčič: Čas.
Pesmi mladih. V: Novi svet, letnik 2, številka 3/4 (1947)


Terminološko delovno gradivo

Zaplana 2003


Ljubljana 2003

Predavanje Muzejskemu društvu Škofja Loka, 2008


Ljubljana 2006

Še malo, pa bo slovar izšel! Ljubljana, 2006


Terminologija v Mariboru, UKM 2005

nedelja, 13. januar 2013

Identifikator ali označevalnik?


© PTV Industry Dictionary

Poleg občečloveško značilnega označevanja "naši" in "vaši", ki ga Slovenci začenjamo v zibki, doštudiramo ob poslušanju politikov in končujemo na parah, ljudje radi (bibliotekarji pa še malo bolj) označujemo ljudi, predmete, pojme in še kaj tako, da jih lahko enoznačno in nezamenljivo prepoznamo, identificiramo, najdemo in razločujemo med seboj. Že narava nam je dala prstni odtis, DNK zapis in sliko mrežnice, ki menda niti pri dveh ljudeh niso enaki, poznamo pa jih vsaj iz krimiserij če ne že kakšne serije člankov o izgubljenem sinu in še bolj izgubljenem očetu. No, pa sedaj še gre, ko ti za osebno izkaznico in biometrični potni list posvaljkajo prst po steklenem okencu s senzorji, jaz sem še iz generacije, ko ti je osorni aparatčik posvinjal prste z mastno, tiskarski barvi podobno tinto, potem pa si dobil za domov še kosem vate z alkoholom! Danes pa vsi poznamo in nenehno nosimo s seboj EMŠO in davčno številko, brez katerih se ne da več preživeti, številka pa nas preživi (brez davčne številke pokojnega sorodnika se niti njegovega telefona ne da prenesti na dediča!), tudi v trgovini ga ni več izdelka in pridelka, ki ne bi imel identifikacijske številke ali kode.

Vse to so identifikatorji (tudi označevalniki, kode), navadno številske, črkovne ali mešane oznake za enolično, nezamenljivo označevanje ljudi, izdelkov, publikacij ali njihovih delov ipd., ki so lahko "govoreče" (del oznake je lahko splošno poznan in razpoznaven, npr. EMŠO začne z datumom rojstva, ime ulice pred hišno številko, avtomobilska registrska številka začne z oznako kraja, tudi inventarna številka knjižničnega gradiva lahko vsebuje poleg tekoče številke še oznako leta in načina pridobitve (npr. v NUK-u), ISBN začne z oznako jezikovnega področja oz. države in založnika, struktura govorečega dela oznake DOI je na sliki levo zgoraj) ali "nevtralna" oz. povsem "administrativna" in je brez šifranta ne moremo razvozlati (npr. mednarodna oznaka ISSN), lahko pa je tudi čisto navadna zaporedna številka, kot je najpogosteje inventarna številka knjižničnega gradiva. Zelo zanimiva so tudi dopolnila k značnici (katalogizacija), ki so prav tako vrsta identifikacijske oznake.

V nadaljevanju navajam enajst identifikatorjev oz. označevalnikov (poleg gesel identifikacijska oznaka in kratice ID), ki jih že lahko najdemo v Bibliotekarskem terminološkem slovarju:

  • ID ID-ja [idé -êja] m krat., gl. identifikacijska oznaka (1)
  • identifikacíjska oznáka -e -e ž 1. oznaka za nedvoumno identifikacijo entitete 2. v katalogizaciji (krat. ID) oznaka, ki sledi značnici in omogoča razlikovanje soimenjakov, npr. letnica rojstva, smrti, področje delovanja; sin. dodatek k značnici (1), dopolnilo k značnici; prim. kvalifikator

  • enôtni identifikátor víra -ega -ja -- m (krat. URI) standardna sestavljena oznaka za lociranje internetnega vira z naslovnimi sistemi kot so URL, URN; sin. enotni označevalnik vira; prim. enotni naslov vira (2)
  • enôtni označeválnik víra -ega -a -- m (krat. URI) standardna sestavljena oznaka za lociranje internetnega vira z naslovnimi sistemi kot so URL, URN; sin. enotni identifikator vira; prim. enotni naslov vira (2)
  • identifikátor článka -ja -- m enolična in nedvoumna oznaka, dodeljena časopisnemu članku v določenem identifikacijskem sistemu, npr. biblid, SICI
  • identifikátor digitálnega objékta -ja -- -- m (krat. DOI) alfanumerična oznaka v mednarodnem sistemu za identifikacijo publikacij in njihovih sestavnih delov, namenjena za zaščito intelektualne lastnine zlasti elektronskih dokumentov; sin. označevalnik digitalnega objekta
  • identifikátor knjíge in sestávnega déla -ja -- -- -- -- m (krat. BICI) oznaka v mednarodnem sistemu za identifikacijo posamezne elektronske monografske publikacije, njenih logičnih sestavin, npr. poglavja, predgovora, bibliografije, kazala (1), in tudi fizičnih sestavin, npr. določenega števila strani; sin. označevalnik knjige in sestavnega dela; prim. identifikator serijske publikacije in prispevka
  • identifikátor naslôva -ja -- m tretja od štirih skupin številk v ISBN-u, ki označuje določeno izdajo, vezavo posameznega založnika in jo dodeli založnik sam; prim. identifikator skupine, identifikator založnika
  • identifikátor sêrijske publikácije in prispévka -ja -- -- -- -- m (krat. SICI) oznaka v mednarodnem sistemu za identifikacijo posamezne številke elektronske serijske publikacije ali posameznega sestavnega dela v njej, npr. članka, ki je neodvisna od medija (1), na katerem je objavljen, npr. na papirju, laserskem disku, mikrofilmu; sin. označevalnik serijske publikacije in prispevka; prim. identifikator knjige in sestavnega dela
  • identifikátor skupíne -ja -- m prva od štirih skupin številk v ISBN-u, ki označuje državo ali jezikovno skupino in jo dodeli Mednarodna agencija za ISBN; prim. identifikator naslova, identifikator založnika
  • identifikátor založníka -ja -- m druga od štirih skupin številk v ISBN-u, ki označuje določenega založnika in jo dodeli nacionalna ali regionalna agencija za ISBN; prim. identifikator naslova, identifikator skupine
  • identifikátor zapísa -ja -- m v MARC-formatih oznaka, ki enolično identificira zapis (2)
  • Mednárodna stándardna števílka ávdiovizuálnega déla - identifikátor vêrzije -e -e -e -- -- -ja -- ž (krat. V-ISAN) razširjena oblika Mednarodne standardne številke avdiovizualnega dela, ki omogoča tudi identifikacijo določene verzije določenega avdiovizualnega dela
V slovarju je očitno je prevladovanje termina identifikator nad označevalnikom, ki se pojavlja samo enkrat in še to kot sopomenka. Tudi v strokovnih besedilih uporabljamo bibliotekarji predvsem izraz identifikator. Korpus bibliotekarstva je evidentiral termin identifikator najpogosteje (113), le redko pa označevalec (8) in označevalnik (označevalnik vira - 1) oz. identifikacijska oznaka (4). Pojavljajo se seveda tudi nekatera njihova okrajšana imena, npr. DOI (109), URN (77), URI (16), SICI (6) in BICI (3).

Naslednjič pa še kaj o (mednarodnih) standardnih številkah kot identifikatorjih, ki jih srečujemo v bibliotekarstvu.

nedelja, 06. januar 2013

Še o samostalnikih, pridevnikih, glagolih v bibliotekarskem besednem zakladu

Tokrat nadaljujem vpogled v besedni zaklad bibliotekarske stroke in rabe besed, kot se kaže v 625 strokovnih in znanstvenih besedilih okrog 353 avtorjev, slovenskih praktikov in teoretikov bibliotekarstva, objavljenih pretežno v zadnjih dveh desetletjih. O tem, kako je nastal iz Korpusa bibliotekarstva seznam uporabljenih besed, sem pisal že zadnjič (Kako bogat je bibliotekarski besedni zaklad?), tokrat nekaj več o njihovi pogostosti in besednih vrstah. Kakšen jezik uporabljamo v bibliotekarstvu, kolikšen besedni zaklad uporabljamo in katere so najpogostejše besede?

V navedenih 625 besedilih s področja bibliotekarstva je bilo uporabljeno skupaj okrog 3.660.900 besed, ker pa se mnoge ponavljajo in pojavljajo v različnih oblikah (različni skloni, spol, število ipd.), je šele z lematizacijo, to je računalniškim postopkom spreminjanja vseh besed v lemo, to je osnovno obliko besede (prvi sklon ednine, nedoločnik ipd.), nastal pravi nabor vseh različnih besed, ki so jih avtorji uporabili v obravnavanih besedilih – takih besed je 28.808. Njihova pogostost pojavljanja v besedilih je seveda zelo različna, v skladu z vsemi pričakovanji (npr. raziskava in doktorska disertacija dr. Primoža Jakopina) vodi pomožni glagol biti s 172.031 pojavitvami, v vodilni skupini pa mu potem sledijo predvsem funkcijske besede, to je tiste, ki bi v sistemih za poizvedovanje sodile med blokirane besede in za osnovno sporočilnost, predvsem pa za stroko niso pomembne.


Krivulja pogostosti pojavljanja besed v bibliotekarskih
besedilih se povsem sklada s predpostavkami
Zipfovega zakona - 50 najpogostejših besed
Pogostost pojavljanja posameznih besed se od najpogostejše (172.031) zelo strmo zmanjšuje in pri 35. besedi že pade pod deset tisoč, pogostost besed nad 500. mestom pa že pod tisoč; 21.215 besed se pojavlja več kot enkrat, kar 7.590 besed pa samo enkrat, rekli bi jim enkratnice. Takšna razporeditev frekvenc se povsem ujema s predpostavkami Zipfovega zakona, ki sem ga pri analizi Bibliotekarskega terminološkega slovarja že uporabljal. Temelj Zipfovega zakona je trditev, da je majhno število besed uporabljeno zelo pogosto, mnogo drugih ali skoraj vse ostale pa zelo poredko.

Med prvo petdeseterico najpogostejših besed se je pririnilo tudi 13 bibliotekarskih terminov, nobeno presenečenje ni, da so to najprej knjižnica (6. najpogostejša beseda z 48.214 pojavitvami), gradivo (24. mesto s 14.348 pojavitvami), knjiga (28. mesto z 11.876 pojavitvami) in podatek (34. najpogostejša beseda z 10.046 pojavitvami).

Spletne aplikacije omogočajo poleg že omenjene lematizacije tudi oblikoslovno označevanje z določanjem besednih vrst (npr. Določevanje osnovnih besednih oblik (lem) in besednih vrst ali oblikoslovnih oznak Inštituta za slovenski jezik Frana Ramovša ZRC SAZU ali Amebisov Označevalnik), zato je bilo mogoče pridobiti nekaj podatkov o tem tudi za naše besede. Med 28.808 obravnavanimi besedami je

      13.128samostalnikov
        6.653pridevnikov
        6.460glagolov
        3.877prislovov

predlogov, števnikov, veznikov, zaimkov in členkov pa seveda mnogo manj (sto ali manj). Poudariti moram, da so to zgolj natančnejše ocene in ne povsem točne vrednosti, saj besednovrstni označevalnik v nekaterih primerih dandanes (še) ne more razločevati med nekaterimi enako pisanimi besedami, ki lahko glede na pomen pripadajo različnim besednim vrstam (npr. dela: glagol delati, samostalnika delo ali del; uporabnikov je lahko samostalnik ali pridevnik ipd.). Med 147.761 besedami, ki so šle v postopek lematizacije in besednovrstnega označevanja, je 13.074 takih, ki jim je označevalnik pridal oznako za dve ali celo več besednih vrst, ali pa v njih prepoznal možnost dveh besed z enako obliko (npr.: zbrana dela Ivana Cankarja / ne najdem drugega dela enciklopedije). Take besede sem v spodnjih grafikonih označil z zvezdico (npr. najpogostejši pridevnik lahek je tja zašel najverjetneje po zaslugi prislova lahko!).

V treh grafičnih prikazih sem ponazoril razmerje med najpogostejšimi samostalniki, pridevniki in glagoli. Glagola biti in dati po svoji pogostosti tako močno odstopata celo od svojih najbližjih "zasledovalcev", da povsem pokvarita vtis krivulje in razmerij, zato sem ju samo označil, vrednost pa omejil na širino grafikona.


Najpogostejših 30 samostalnikov

Najpogostejših 30 glagolov

Najpogostejših 30 pridevnikov

torek, 01. januar 2013

Kako bogat je bibliotekarski besedni zaklad?

Medpraznični dnevi ob zaključku leta so bili vremensko dovolj nestimulativni za večje podvige in temperaturno tako ekstremni in za december netipični, da se ni bilo treba preveč posvečati lončeni peči in avgusta nacepljenim drvom, zato je Korpus bibliotekarstva s svojimi 3,6 milijona besedami kar vabil k analizi in nadaljevanju razpredanja o vprašanju Koliko je besed?, ki sem ga tu na blogu začel lani spomladi. Raziskave kažejo, da uporabljajo slovenski srednješolci v povprečju okrog deset tisoč besed, za branje slovenskih časopisov zadostuje že znanje pet tisoč besed, tujec pa naj bi se za silo znašel že z znanjem dva tisoč slovenskih besed. Po besedah dr. Primoža Jakopina, vodje Laboratorija za korpus slovenskega jezika pri ZRC SAZU, obsega besedni zaklad slovenskega jezika okrog pol milijona besed (Slovenskih 500 tisoč, Finance, 31.12.2008). Gre za besede splošne slovenščine, ki jih najdemo v Slovarju slovenskega knjižnega jezika (93.500 gesel), v Besedišču slovenskega jezika (178 tisoč gesel, ki jih niso uvrstili v slovar), ter druge besede, ki so se v minulih dveh desetletjih po nastanku slovarja pojavile v periodičnem tisku in knjigah, na televiziji, v diplomskih in magistrskih nalogah ter doktorskih disertacijah, pa še v drugih publikacijah, na primer letakih in reklamah, ter na internetu. V praksi pa je tako, da najpogostejših 1000 besed predstavlja več kot 50 % v slovenščini uporabljenih besed. Velika večina besed se pojavlja precej redko, večkrat tudi v omejeni skupini ljudi, taka so na primer strokovna besedišča.

Prav proučevanju besednega zaklada in terminologije bibliotekarske stroke je namenjen Korpus bibliotekarstva, ki je zajel in evidentiral besedje iz 625 objavljenih strokovnih in znanstvenih besedil. Kakšen jezik uporabljamo v bibliotekarstvu, kolikšen besedni zaklad uporabljamo in katere so najpogostejše besede?

V navedenih 625 besedilih s področja bibliotekarstva je bilo evidentiranih 3.660.900 besed, kar je treba "vzeti z rezervo" in število pravilno interpretirati:

  • V tem kontekstu je beseda vsak niz znakov v besedilu, ki je na obeh straneh razmejen s presledkom. Sem torej sodijo vse številke, oznake poglavij ipd., zato ostane po ustreznem "čiščenju" samo še okrog 3.573.457 pravih besed (od "A" do "žvižgajoč").
  • Mnoge med njimi se seveda ponavljajo, zato je po združevanju enakih ostalo še nekaj manj kot 150.000 različnih oblik besed.
  • Svoje k raznolikosti seveda prispeva tudi značilnost slovenščine, da je pregibni jezik. Bogastvo in kompleksnost jezika glede na pregibnost se izraža v tem, da je število izpeljank, ki jih imajo leme v povprečju, relativno veliko. Lema je kanonična, to je osnovna oblika besede (npr. prva oseba ednine pri samostalniku, nedoločnik pri glagolu itd. - lema za besede "knjižničnega, knjižničnemu, knjižničnim . . . " je "knjižničen", za "grem, greva, pojdiva, šli, šla, šle . . . " pa "iti" itd.) iz katere z uporabo končnic nastanejo izpeljanke. Glede na bogastvo sklonov, števil in spolov ima npr. velika večina samostalnikov mnogo izpeljank. Šele z lematizacijo, to je računalniškim postopkom spreminjanja vseh besed v lemo, to je osnovno obliko besede, je nastal pravi nabor vseh različnih besed, ki so bile uporabljene v obravnavanih besedilih – takih besed je 28.808.
  • Pri tem je treba upoštevati, da je ostalo kljub "ročnemu čiščenju" še nekaj tujih besed (povzetki v angleščini so bili iz analize sicer izločeni, ostali pa so citati in večji del opomb) in imen.
Njihova pogostost uporabe v besedilih je seveda zelo različna, v skladu z vsemi pričakovanji vodi pomožni glagol biti s 172.031 pojavitvami, v vodilni skupini mu sledijo predvsem funkcijske besede, ki bi v sistemih za poizvedovanje sodile med blokirane besede in za stroko niso pomembne. Med našimi pravimi termini vodijo knjižnica (6. najpogostejša beseda z 48.214 pojavitvami), gradivo (24. mesto s 14.348 pojavitvami), knjiga (28. mesto z 11.876 pojavitvami) in podatek (34. najpogostejša beseda z 10.046 pojavitvami). Med petdesetimi najpogostejšimi besedami je tako le 13 terminov, ostalo so funkcijske besede.


Med najpogostejših 50 se je vrinilo tudi 13 za bibliotekarstvo pomembnih terminov

Več o zastopanosti besednih vrst in njihovih najpogostejših predstavnikih pa v nadaljevanju prihodnjič.