petek, 30. marec 2012

Metapodatki


© HudsonHorizons
Izraz metapodatki je relativno mlad in je bil prvič uporabiljen šele okoli leta 1960, iz Velike Britanije se je hitro razširil po Severni Evropi, vendar je kmalu postal priljubljen po celem svetu in je prešel iz angleščine v večino jezikov. Sama pomenska vsebina, ki jo izraz prinaša, pa ni nova in jo poznamo že iz časov Aleksandrijske knjižnice in Kalimaha, ki je izoblikoval idejo o urejanju podatkov. Še danes je znan po katalogu Pinakes, v katerem je popisal pol milijona zvitkov in je prvi znan primer zbirke metapodatkov. Skozi zgodovino je katalogizacija prehajala skozi različna razvojna obdobja vse do današnjih računalniških katalogov in zbirk metapodatkov.

Metapodatek (redkeje srečamo tudi poizkus slovenjenja opodatek) je podatek, ki vsebuje informacije o nekem podatku, a ni del le-tega. Metapodatki so praviloma strukturirani in obsegajo podatke, ki se nanašajo na vsebino, strukturo, kvaliteto, lastništvo, distribucijo, tehnologijo, namen, uporabnost in druge elemente, ki opisujejo informacijski objekt (danes najpogosteje elektronski vir) in so pomembni za njegovo identifikacijo in uporabo. Definicija pojma ni enoznačna, kar na številnih področjih, ki imajo stik z metapodatki, privede do različnih dojemanj. Funkcija metapodatkov je bila zato definirana večkrat in na različne načine, eden zadnjih in dovolj jasnih pa je 'model petih točk' (Haynes, D: Metadata for information management and retrieval, 2004), ki opredeljuje njihovo vlogo in namen:
1. Opis vira – pomembno predvsem za institucije, ki morajo (p)opisati svoje informacijske vire.
2. Iskanje vira – pomembno na vseh področjih, najbolj pa na akademskem, ker omogoča dostopnost verodostojnih virov informacij.
3. Vzdrževanje in shranjevanje vira – pomembno za ohranjanje življenjskega cikla virov in njihovo posodabljanje ter ohranjanje za prihodnost.
4. Dokumentiranje lastništva in avtentičnosti vira – metapodatki omogočajo istovetenje vira in dodazovanje avtentičnosti ter lastništva.
5. Interoperabilnost – metapodatki omogočajo povezavo med različnimi knjižničnimi in drugimi informacijskimi sistemi.

Za Bibliotekarski terminološki slovar smo zbrali nekaj z metapodatki povezanih terminov in pripravili slovarske razlage:

metapodatki podatki, ki označujejo, opisujejo druge podatke, dokumente, npr. bibliografski opis, Dublin Core (ang. metadata)
administrativni metapodatki metapodatki, ki omogočajo upravljanje z viri, dokumenti, npr. podatki o načinu arhiviranja, dostopnosti; prim. opisni metapodatki, strukturni metapodatki (ang. administrative metadata)
opisni metapodatki metapodatki, ki omogočajo identifikacijo, iskanje in izbor vira, dokumenta ter njegovo povezovanje z drugimi viri, dokumenti; prim. bibliografski metapodatki, administrativni metapodatki, strukturni metapodatki (ang. descriptive metadata)
strukturni metapodatki metapodatki za opisovanje notranje strukture in organizacije vira, dokumenta, npr. o povezovanju številskih podatkov v datotekah, tabelah, in so namenjeni računalniškim obdelavam; prim. administrativni metapodatki, opisni metapodatki (ang. structural metadata)
tehnični metapodatki metapodatki za opisovanje tehničnih značilnosti, npr. nastanka in značilnosti datotek, uporabljene strojne in programske opreme, informacije o digitalizaciji in digitalnem zapisu (ang. technical metadata)
metapodatki za prezervacijo administrativni metapodatki za podporo upravljanju digitalne zbirke, npr. tehnične specifikacije arhiviranja, migracije; sin: metapodatki za ohranjanje (ang. preservation metadata)
metapodatki za ohranjanje administrativni metapodatki za podporo upravljanju digitalne zbirke, npr. tehnične specifikacije arhiviranja, migracije; sin: metapodatki za prezervacijo (ang. preservation metadata)
metapodatki za opredeljevanje pravic administrativni metapodatki za upravljanje pravnih vidikov v zvezi z virom, dokumentom, npr. avtorske pravice, licenciranje, pravica posojanja (ang. rights metadata)
digitalni metapodatki metapodatki, ki so zapisani in dostopni na elektronskem mediju (1) (ang. digital metadata)
bibliografski metapodatki opisni metapodatki, ki vsebujejo bibliografske podatke; prim. opisni metapodatki (ang. bibliographic metadata)

Korpus bibliotekarstva je v 234 slovenskih strokovnih bibliotekarskih besedilih evidentiral naslednje vrste metapodatkov:

          bibliografski metapodatki
          deskriptivni metapodatki
          formalni metapodatki
          izmenjevalni metapodatki
          statistični metapodatki
          strukturni metapodatki
          tehnični metapodatki
          upravljalski metapodatki

in besednih zvez s pridevnikom metapodatkovni:

          metapodatkovna informacija
          metapodatkovna izmenjava
          metapodatkovna obdelava
          metapodatkovna obdelava
          metapodatkovna shema
          metapodatkovna vsebinska shema
          metapodatkovni element
          metapodatkovni model
          metapodatkovni opis
          metapodatkovni register
          metapodatkovni sklop
          metapodatkovni standard
          metapodatkovni zapis

Veseli bomo vaših komentarjev, pripomb in predlogov k poimenovanjem in njihovim razlagam.

petek, 23. marec 2012

Drugi rojstni dan

Danes minevata dve leti, kar je začel objavljati blog Bibliotekarska terminologija, ki je dopolnil še vedno redke vrste slovenskih blogov s področja bibliotekarstva. Takrat se je rodil tudi prvi slovenski blog, posvečen terminologiji neke stroke. Prav lepo se zahvaljujem vsem, ki ste mu z branjem, komentarji in vprašanji vdihnili življenje. Več kot pet tisoč vas je bilo v tem času na obisku, nekateri samo enkrat, mnogi pa večkrat in dva tisoč obiskovalcev se redno vrača. Tolikšen obisk je tiho priznanje in ocena, da so objave dovolj zanimive in morebiti kdaj komu tudi koristne. Če je tako, je bil dosežen cilj, ki si ga je avtor zastavil ob začetku - da bi se med slovenskimi bibliotekarji in drugimi zainteresiranimi strokovnjaki razvil živahnejši dialog o strokovnih vprašanjih bibliotekarske terminologije,ki bi omogočil učinkovitejše reševanje s tem povezanih vprašanj in dilem, ki jih ni malo.

Zamisel o terminološkem blogu izhaja iz skromne ambicije po rednem objavljanju enega ali dveh prispevkov mesečno, ki pa je bila kmalu presežena, v dveh letih je bilo 93 objav in prav kmalu je postalo redno tedensko objavljanje že skoraj pravilo. Prispevki so razglabljali o slovarjih in nekajkrat podrobneje o Bibliotekarskem terminološkem slovarju, o nekaterih izbranih bibliotekarskih terminih in poimenovanjih, predvsem takih, ki predstavljajo težave zaradi prehoda iz tujih jezikov, o pojavnosti nekaterih terminov v strokovnih besedilih in ustreznikih v tujih jezikih, vplivu angleščine na slovensko bibliotekarsko terminologijo, nekaj malega pa tudi o zgodovini in etimologiji nekaterih poimenovanj in bolj splošnih zanimivostih s področja jezikovne rabe, katerih analizo in prikaz je omogočil Korpus bibliotekarstva, ki je postal tudi sestavni del bloga. Objave so navedene v kumulativnem predmetnem kazalu. Avtorju so se pridružile tudi štiri gostje, dve Slovenki in dve kolegici iz tujine, nemška bibliotekarka in ameriška terminologinja.

Kaj je pritegnilo največ zanimanja? Sestavka o merskih enotah za količino podatkov v računalništvu sta s 1.138 in 644 ogledi nedvomno najbolj brana, sledi prispevek o odprtem in prostem dostopu, na četrtem mestu je predstavitev vsebine in nabora terminov Bibliotekarskega terminološkega slovarja, prispevek ameriške kolegice pa je po obiskanosti na osmem mestu. Velik obisk sta zabeležili tudi strani s slovarji (4.249) in Korpusom bibliotekarstva (1.586), ki je bil vzpostavljen šele avgusta lani. V povprečju so obiskovalci pregledali po 4,3 strani in ostali na blogu 3 minute in 8 sekund. Vseh komentarjev, vključno z odgovori, je bilo v tem času 172.

Najpogosteje obiskane in brane objave.

Po dveh letih uspešnega "izhajanja" je čas, da pogledamo, kdo so bili obiskovalci bloga in koliko jih je bilo. Nova vsebina na spletu ni ostala neopažena in že v prvem letu je bil zabeležen nadvse zadovoljiv obisk, ki se je še povečeval. Nenavadno dosti zanimanja je bilo tudi iz tujine, čeprav so objave praviloma samo v slovenščini. Podatki o obisku v absolutnih številkah so nezanesljivi, ker imajo različni števci vsak svojo metodologijo beleženja in poročanja, zato bomo vzeli kot merodajne podatke Google Analitics, ki spremlja uporabo bloga od samega začetka in omogoča tudi dokaj razvejane prikaze in primerjave, čeprav so nekateri drugi števci pokazali mnogo večji obisk in bi se lahko z njimi mnogo bolj pohvalili.

V dveh letih je števec Google Analytics zabeležil dostop 5.649 posameznikov iz 78 držav, ki so obiskali blog 10.787 krat in opravili skupaj 46.578 ogledov strani. Pretežno so bili to seveda Slovenci, pisana pa je tudi paleta obiskovalcev iz drugih držav, ki jim nekoliko pomaga razumeti vsebino namestitev avtomatskega prevajalnika Google Translate, saj je bil evidentiran dostop z brskalniki v 50 jezikih. Evidentirani so bili dostopi iz 310 mest, največje število obiskov je seveda iz Ljubljane (7.368), nato pa Maribora (1.003), Celja, Kranja in Kopra, kmalu sledita Beograd in Zagreb, potem pa še Mountain View v Kaliforniji, Moskva, Varšava, Bruselj in Toronto. ZDA so s 180 obiski na drugem mestu pred Srbijo in Hrvaško.

Zanimiv je pregled obiskovalcev glede na ti. zvestobo ali lojalnost (ang. loyalty), ki šteje vračanje istega bralca na spletno stran oz. blog. Med obiskovalci je 52% takih, ki se nikoli niso vrnili, ker jim vsebina ni bila zanimiva ali so imeli z razumevanjem jezika kljub možnostim avtomatskega prevajanja prevelike težave, 32% pa je takih, ki so se vrnili desetkrat ali še več. Skupaj je kar 1.911 takih obiskovalcev, ki se vračajo dokaj redno oz. so prišli na blog več kot petdesetkrat, med njimi pa je 713 zares zvestih bralcev, ki so prišli že več kot dvestokrat. Nekateri se usmerjajo na spletno stran bloga neposredno, sicer pa je bilo največ napotitev z Googla (4.920), sledi Biblioblog z 2.814 napotitvami, Facebook 757, Domblog 158, Drubima 92, Twitter 91, LiLoLe 86, BIKterminology (ZDA) 51 itd.


Naši obiskovalci prihajajo skoraj z vseh koncev sveta.

Blogu Bibliotekarska terminologija želimo uspešno nadaljevanje zastavljene poti, vas pa vabimo k branju, razmišljanjem in komentiranju! Bodite kritični in ustvarjalni, pokažite na nepravilnosti in če se le da, predlagajte boljšo rešitev. Oglasite se tudi, če česa ne veste, mogoče nam uspe skupaj najti rešitev! Če se bomo potrudili, bomo lahko skupaj upihnili še kakšno svečko.

ponedeljek, 19. marec 2012

Koliko je besed?


Vsak dan srečam kakšno novo
in nikoli ne bom spoznal vseh.
© SpanishTranslation.US
Zadnjič je bilo govora o besednem zakladu posameznika in številu besed, ki jih potrebujemo za vsakodnevno komuniciranje. Koliko besed pa imajo posamezni jeziki? Angleščina, slovenščina, nemščina . . . Jezikoslovci so mnenja, da je nemogoče prešteti vse besede kakega jezika, ker se jezik nenehno spreminja in predvsem zato, ker je nemogoče opredeliti, kaj bomo šteli kot "besedo", v kolikšni meri bomo šteli tudi tujke in izposojenke ter akronime, kako bi šteli pojme, ki jih označuje večbesedna besedna zveza (za pisalni stroj potrebujemo Slovenci dve besedi, Nemci so ti dve besedi zlili v eno (Schreibmaschine), Francozi potrebujejo tri (machine à écrire), v angleščini pa zopet zadošča enobesedno poimenovanje (typewriter) ipd. Jasno pa je, da so razlike v obsegu besednega zaklada med jeziki zelo velike tudi zaradi načina, kako jezik funkcionira v odnosu do svojega okolja in drugih jezikov. Za angleščino je značilno, da z lahkoto sprejema besede od drugod in jih spretno "požira" in asimilira, nekateri jeziki pa se močno ograjujejo, taka je na primer francoščina, ki je znala praviloma tudi na področju najnovejših tehnologij skovati ustrezne domače izraze (npr. livre numérique za elektronsko knjigo). Nemščina spretno zlaga besede v dolge nove nize (klasičen šaljiv primer je Hotentotenpotentatentantenatentäter, ki je sestavljen iz štirih samostojnih besed in pomeni nekaj takega kot »atentator na teto poglavarja Hotentotov«), ugrofinski jeziki so v tem še plodovitejši, slovenščina pa se takemu besedotvorju izogiba (vendar: detomor, knjigoljub, avtocesta, sredobežnica, rokonaslon, knjigožer ipd.).

Ko govorimo o številu besed kakega jezika, imamo v mislih besedišče, ki omogoča komuniciranje večine govorcev tega jezika kot maternega jezika, vključno s pogostejšimi in bolj splošno razumljivimi izrazi iz tehnike, znanosti, umetnosti ipd. Tak splošen besednjak večine jezikov v industrijsko razvitem svetu šteje okrog 200.000 besed. Germanski jeziki obsegajo praviloma več besed, kot romanski, razlog za to je zgoraj omenjeno sestavljanje besed, ki "proizvaja" vedno nove sestavljene besede, te pa bogatijo slovar. Jezikoslovci ocenjujejo, da obsega nemški besednjak okrog 400.000 besed, švedski pa okrog 300.000. Angleški jezik vsebuje poleg izvorno germanskih tudi mnogo latinskih besed, ki so prišle neposredno iz latinščine ali posredno preko romanskih jezikov, predvsem francoščine. Tipičen primer parov besed germanskega/romanskega izvora so poimenovanja živali in iz njih nastalih živil (npr. pig – pork, sheep – mutton, calf - veal ipd.). Po taki metodi ocenjen obseg angleškega besednjaka presega pol milijona besed. Najbolj znana in po vsem svetu razširjena angleška beseda je gotovo O.K.

K temu pa je treba prišteti še besedišče znanosti in tehnologije ter posameznih strok, ki ga dovolj pogosto uporablja večje (čeprav omejeno) število ljudi. Večinoma gre za ti. mednarodne besede, torej tujke, ki so v različnih jezikih najpogosteje enake ali vsaj zelo podobne (npr. international – internazionale - internacionalen). Tovrstnih besed je presenetljivo dosti, dosegajo kar pol milijona. Ena novejših v slovenščini je npr. cunami, nekaj pred tem sta postala moderna tajkun (pa tudi izpeljanke, npr. tajkunizacija in še 22 drugih) in milenijski. Če tovrstne besede prištejemo splošnemu besednjaku, dobimo ti. skupen slovar jezika, ki ga strokovnjaki ocenjujejo za angleščino na 700 do 800 tisoč leksemov (leksem je najmanjša enota v pomenskem sistemu nekega jezika, npr. beseda, krajšava ali besedna zveza). Neverjetno bogati so bili že nekateri starodavni jeziki, izpričani v ohranjenih zapisih. Latinščina, stara grščina in stara islandščina so poznale okrog sto tisoč besed, sanskrt pa celo dvakrat toliko! (Vir: How Many Words Are There In The Language And How Many Of Them Must Be Learnt?)


© Milenijski razvojni cilji
Za razvoj znanosti, medicine, tehnologije in mlajših strok, zlasti pa v publicistiki, je značilna tvorba neologizmov, ki prav tako pomembno vplivajo na rast besednjaka. Neologizem ali besedna novota je beseda ali besedna zveza, ki v jeziku še ni splošno uveljavljena. Navadno nastajajo kot nove enote v jeziku s prevzemanjem ali s ponovno oživitvijo besed, ki so v jeziku že obstajale. Poleg znanosti so vir neologizmov pogosto apokaliptični dogodki (npr. Katrina, topljenje sredice (reaktorja), cunami, 9/11, klimatske spremembe, finančni cunami), družbena omrežja (npr. všečkati, lajkati), svetovni dogodki (npr. uzulele) pa tudi bolj ali manj posrečene javne osebnosti (npr. bušizmi). Slovenski pravopis 2001 zapisuje na primer kot besedno novoto besedo potresnik (potresni oškodovanec), podvrsta računalniških navdušencev bo poznala pridevnik igričarski. Ob letošnjem 8. marcu me je našla nepripravljenega nova beseda v stavku "Združeni narodi so ustanovili novo telo za opolnomočenje žensk . . . ". O opolnomočenju otrok so pred tem govorili že šolniki. Nisem prepričan, da besedo in v njej skrit pomen povsem razumem. Pač nisem dovolj opolnomočen . . .

Prav tako ne gre zanemariti doprinosa številnih besed slenga in nasilnega oglaševanja (npr. minglaj z nami . . ., Julči je zih'r ena huda bejba ipd.; oba primera sta iz radijskega oz. televizijskega oglaševanja). Današnji sleng se navadno močno opira na tuje jezike, v tem seveda prednjači angleščina (fak men, grem s frendi na drink), pogosto pa tudi jezike manjšin ali priseljencev, pri nas sta to predvsem srbščina in hrvaščina, ki sta nam dali tudi največji del "močnih" besed in kletvic, nemalo pa tudi besed v kulinariki. V angleškem slengu so seveda drugi vplivi, npr. španski, italijanski, tudi kitajski, indijski, hebrejski idr. Zanimivost: ameriški pisatelj Anthony Burgess je v svojem bestselerju Peklenska pomaranča skoval sleng svojih ameriških razgrajačev iz ruščine (npr. droog – tovariš, nadsat – najstnik, bezoomny – nor, bolshy – velik, otchkies – očala, zoobies – zobje, zvook – zvok ipd.). Obstajajo obsežni slovarji slenga v različnih jezikih, nekaj podobnega je tudi slovenski Razvezani jezik (PDF ali HTML).

Po nekaterih podatkih pridobi angleščina vsak dan okrog 14 novih besed, nekatere se pojavijo in izginejo, druge se udomačijo in obdržijo. Le te slednje prej ko slej najdejo svoje mesto tudi v slovarjih. The Oxford English Dictionary (2nd edition - OED2) vsebuje okrog 600 tisoč razlag in sledi dokaj ohlapnim kriterijem izbora. Poleg standardnega jezika literature in pogovornega jezika vključuje tudi zastarele izraze, najpogostejšo tehniško in drugo strokovno terminologijo in v dokajšnji meri tudi sleng in dialekte. Webster's Third New International Dictionary ima nekaj manj kot 500 tisoč iztočnic, po besedah urednikov pa naj bi bil letni "priliv" novih besed v angleščino kar okrog 25 tisoč!

Po podatkih inštituta The Global Language Monitor naj bi angleščina v sredo, 10. junija 2009, ob 5.22 zjutraj (sic!!!) prešla magično mejo enega milijona besed. In katera je bila milijonta beseda? Seveda to ni moglo biti nič drugega kot Web 2.0 (in tik pred tem tudi cloud computing)! Med jezikoslovci in slovaropisci je izjava seveda naletela na pomisleke in nasprotovanja, vendar je bila številka v mnogih objavah in poročilih takoj nekritično sprejeta, do neke mere pa so jo vendarle potrdile tudi nekatere druge podobne raziskave. Googlova raziskava v sodelovanju s Harvardom je konec decembra 2010 z analizo 5,2 milijona digitaliziranih knjig ocenila fond angleškega jezika na 1.022.000 besed z letnim prirastom okrog 8.500 novosti. Seveda bo mnenj toliko, kot je v razpravo vključenih jezikoslovcev! Že definicija besede je vprašljiva in vsak bo štel po svoje. Vprašanje je namreč, katere besede upoštevati. Ali šteje vsaka spregatev in sklanjatev, ali je treba upoštevati tudi narečne ali slengovske oblike, pa besede, ki jih nihče več ne uporablja in jih je povozil čas, ali pa neologizme, ki umrejo skoraj isti hip, kot jih nekdo javno izgovori? Zame "Web 2.0" pač ni beseda. Koliko besed je hot dog, hot-dog in hotdog? Kaj je (še) angleščina in kaj več ni? Na kateri strani bodo latinski izrazi iz medicine, prava, pa francoska gastronomija, japonske borilne veščine in azijske meditacije? Ob tem ne gre pozabiti, da je okrog deset odstotkov (po nekaterih sodbah v velikih slovarjih celo do 20 odstotkov) zastarelih besed, ki niso več v tekoči rabi ali so že skoraj pozabljene. Res pa je, da prihajajo nove besede hitreje, kot stare odmirajo. Iz povedanega lahko zaključimo, da je "število besed" nekega jezika odvisno predvsem od kriterijev - "pravih" besed in takih, ki so v kolikor toliko splošni rabi, je mnogo manj, kot bi nekateri želeli prikazati. Po Billu Brysonu (knjiga The Mother Tongue) naj bi imela angleščina v širši rabi kakih 200.000 besed, nemščina 184.000 in francoščina 100.000.

Kaj pa slovenščina? Slovenski srednješolci uporabljajo v povprečju deset tisoč besed, za branje slovenskih časopisov zadostuje že znanje pet tisoč besed, tujec pa bi se za silo znašel z znanjem dva tisoč slovenskih besed, pravijo raziskovalci. "Slovenščina se s 400 do 500 tisoč besedami dobro drži," je prepričan dr. Primož Jakopin, vodja Laboratorija za korpus slovenskega jezika pri ZRC SAZU (Slovenskih 500 tisoč, Finance, 31.12.2008). Kot pojasnjuje Jakopin, gre za besede splošne slovenščine, ki jih najdemo v Slovarju slovenskega knjižnega jezika (93.500 gesel), v Besedišču slovenskega jezika (178 tisoč gesel, ki jih niso uvrstili v slovar), ter druge besede, ki so se v minulih dveh desetletjih pojavile v periodičnem tisku in knjigah, na televiziji, v diplomskih in magistrskih nalogah ter doktorskih disertacijah, pa še v drugih publikacijah, na primer letakih in reklamah, ter na internetu. Še vedno manjka ogromno predvsem strokovnega besedišča. Mnogo besed je potem še v pogovornem jeziku, ki je v slovarjih bolj slabo zajet. V uporabi je torej okoli pol milijona besed, seveda govorimo le o osnovnih besedah, če bi želeli dobiti še vse sklanjane/spregane/stopnjevane oblike, je treba to še pomnožiti. V praksi pa je tako, da najpogostejših 1000 besed predstavlja več kot 50 % v slovenščini uporabljenih besed. Velika večina besed se pojavlja precej redko, večkrat tudi v kar precej omejeni skupini ljudi.

Glede na svojo "vitalnost" in število govorcev slovenščina nikakor ne sodi v kategorijo ogroženih jezikov. Angleščina je edini jezik prve kategorije, slovenščina pa je v drugi kategoriji, kjer so tudi jeziki z veliko večjim številom govorcev, na primer nemščina in francoščina ter ruščina. Prva kategorija pomeni, da jezik s svojim besediščem "pokriva" terminologijo prav vseh strok. Slovenščina je v drugo kategorijo napredovala po osamosvojitvi države in vstopu v Združene narode, z leti se je razširila s posvojitvijo (npr. schengen preide v šengen) in kovanjem novih strokovnih besed (npr. popkovnična kri). Med bolj prijetnimi novimi skovankami sta na primer biosolata in ekočevlji.

Čez čas pa še kaj o besedah v slovenskih bibliotekarskih besedilih.

petek, 9. marec 2012

Euro-English?

Zaradi današnje podobnosti med večino evropskih jezikov in nekaterimi azijskimi jeziki so jezikoslovci domnevali, potem pa tudi dokazali, da ti jeziki, med njimi tudi slovenščina, izvirajo iz skupnega indoevropskega prajezika, ki je samo eden od številnih prajezikov, oblikovanih po svetu. S preseljevanjem ljudstev se je širil iz pradomovine med Karpati in Altajem proti Indiji, Mali Aziji in Evropi, v novih domovinah so plemena izgubila stik med seboj ali se pomešala, zato so se jeziki v novih razmerah razvijali po svoje (biblijska zgodba o Babilonskem stolpu in premešanih jezikih), kljub temu pa so se ohranile nekatere sorodnosti in presenetljive podobnosti, ki so opazne še danes. Jeziki so si na prvi pogled in po splošnem prepričanju zelo različni, tako različni, da pogosto slišimo stavek "V tem jeziku pa ne razumem niti besede!". Z nekaj poznavanja pravil, ki so določala razvoj jezikov, pa postanejo te razlike pogosto premostljive in sorodstvene vezi med jeziki spet pridejo na dan. Šaljiv ilustrativen primer je spodnje preoblikovanje besedila, ki se z nekaj pritiski na tipke pred našimi očmi prelevi iz enega (navidezno) v drug jezik.

The European Commission has just announced an agreement whereby English will be the official language of the EU rather than German which was the other possibility.

As part of the negotiations, Her Majesty’s Government conceded that English spelling had some room for improvement and has accepted a five year phase-in plan that would be known as “Euro-English”.

In the first year, “s” will replace the soft “c”. Sertainly, this will make the sivil servants jump with joy. The hard “c” will be dropped in favour of the “k”. This should klear up konfusion and keyboards kan have 1 less letter.

There will be growing publik enthusiasm in the sekond year, when the troublesome “ph” will be replaced with “f”. This will make words like “fotograf” 20% shorter.

In the 3rd year, publik akseptanse of the new spelling kan be ekspekted to reach the stage where more komplikated changes are possible. Governments will enkorage the removal of double letters, which have always ben a deterent to akurate speling. Also, al wil agre that the horible mes of the silent “e”s in the language is disgraseful, and they should go away.

By the fourth year, peopl wil be reseptiv to steps such as replasing “th” with “z” and “w” with “v”. During ze fifz year, ze unesesary “o” kan be dropd from vords kontaining “ou” and similar changes vud of kors be aplid to ozer kombinations of leters.

After zis fifz yer, ve vil hav a reli sensibl riten styl. Zer vil be no mor trubl or difikultis and evrivun vil find it ezi to understand ech ozer. Ze drem vil finali kum tru! And zen world!

Vir: Bird

"Družinsko drevo" indoevropskih jezikov (Vir: The Tree of Life)


nedelja, 4. marec 2012

Besede, besede, besede . . .


"Besede" leta 1579
Trubar, Dalmatin, Krelj: Ta celi catehismus . . .
Besede, besede, besede . . . Citat iz Hamleta? Popevka, ki jo je pred tridesetimi leti prepevala Elda Viler? Oba namigujeta na praznost in minljivost besed, njihovo varljivost in nepomembnost, prav tako kot tudi latinski rek Verba volant, scripta manent (Besede letijo, napisano pa ostane). Pa vendar so besede najpomembnejši izum na dolgi poti človeškega razvoja. Omogočajo opisovanje predmetov in pojavov, natančno izražanje misli in čustev, njihovo sporočanje neposredni okolici, z zapisovanjem pa celo komuniciranje na daljavo in neomejeno ohranjanje v času in prostoru. Ko se je po bibličnem izročilu človeštvo, ki je preživelo vesoljni potop, selilo z vzhoda in prišlo na rodovitne planjave med velikima rekama, je začelo graditi stolp, ki naj bi segal do neba. Jahve nad tem ni bil preveč navdušen in človeško ošabnost je kaznoval tako, da je ljudi raztresel po vsem svetu in jim zamešal jezike, niso se več razumeli in s stolpom ni bilo nič, saj se niso več mogli sporazumevati. Nastali naj bi jeziki, danes je živih še okrog 6.700 jezikov, Biblija, ki o tem dogodku "poroča", pa je bila prevedena v 2287 jezikov. Slovenščina je bila med jeziki, ki so relativno zgodaj dobili celoten prevod Biblije in s tem dokazali jezikovno zrelost in dovolj bogat besedni zaklad, ki je potreben za tako zahtevno besedilo, ki je v izvirnikih uporabljalo okrog 8.700 različnih hebrejskih in 5.600 grških besed. Popularni prevod angleške ti. King James Version pozna 12.143 angleških besed (Bible - Words, Facts, Figures, Statistics, Numbers, Versions, Translations, History and Languages of the Bible).

Besedni zaklad nekega jezika je verna podoba posameznika ali ljudstva, ki ga govori, saj zrcali podobo življenjskih pogojev v preteklosti in v sedanjosti, geografskih okoliščin, domačih in poklicnih opravil, odnosov s sosedi, kulture in civilizacije, mišljenja in zgodovinskega spomina, ki ga podeduje po prednikih. Kako bogat je lahko besedni zaklad, koliko besed vsebuje?

Besedni zaklad posameznika je nabor besed v določenem jeziku, maternem ali tujem, ki jih človek pozna, razume in zna uporabljati. Besedni zaklad se širi in razvija glede na starost in izobrazbo, predstavlja pa osnovno orodje za komuniciranje in pridobivanje znanja. Bogatenje besednega zaklada je eden temeljnih izzivov učenja tujih jezikov. Otrok z naravno metodo učenja jezika zelo hitro pridobiva nove besede maternega jezika, pri dveh letih prepozna 150-300 besed, število besed po tretjem letu zelo hitro raste, saj se otrok nauči tudi do 500 besed na leto. Pri treh letih razume 800-1000 besed, do šestega leta pa že 2500-3000 besed (Otroški govor). Ocene strokovnjakov, kolikšen naj bi bil povprečen besednjak posameznika, se zelo razlikujejo, odvisne pa so seveda predvsem od jezika in tudi okolja. Najstnik naj bi ob zaključku srednje šole obvladal kakih deset do dvanajst tisoč besed, odrasli z univerzitetno izobrazbo pa vsaj dvajset do petindvajset tisoč, bolj razgledani pa celo več kot šestdeset tisoč. Pri jezikih, kjer se pisava močno razlikuje od izgovorjave, je seveda osnovno vprašanje, kdaj lahko rečemo, da nekdo določeno besedo "obvlada".

Z vidika razumevanja in reproduciranja je cela paleta nivojev znanj, ki kažejo, kako beseda postopoma in skozi določeno časovno obdobje vstopa v človekov besednjak z vsemi svojimi pomeni in pomenskimi odtenki:
     - Besede še nikoli nisem srečal
     - Besedo sem že slišal, vendar je ne razumem
     - Besedo prepoznam glede na kontekst ali govorčev ton
     - Besedo znam uporabiti in razumem njen splošni pomen, ne bi pa je znal natančno razložiti
     - Dobro poznavanje besede in njene rabe, znam jo tudi razložiti.
Z vidika bolj poglobljenega znanja je poznavanje besed dosti bolj zapleteno, pogosto ni hierarhično, zato si pridobivanje posameznih znanj ne sledi vedno v istem zaporedju. Gre za pravopis in pisno obliko besede, fonetiko z izgovorjavo, semantiko s pomenom in sporočilnostjo, družbeno zvrst in primernost rabe, kolokacijo in uporabo v kontekstu, besedne asociacije, sintakso s slovničnimi funkcijami in morfologijo glede na tvorbo besed in njihove sestavne dele.

Do neke mere se pri posamezniku razlikuje besednjak govornega izražanja, pisanja in branja, predvsem velja to za tuje jezike in takrat, kadar je med pisno in izgovorjeno obliko lahko velika razlika, ki lahko vodi do neprepoznavanja besede (v tujem jeziku navadno razumemo mnogo besed, ki pa jih ne znamo napisati, in tudi obratno, razumemo napisane besede, ki jih ne znamo izgovoriti ali jih izgovorimo napak).

Osnovno sporazumevanje v tujem jeziku naj bi menda omogočalo že poznavanje okrog 800 besed, v vsakdanjem govoru uporabljamo manj kot tri tisoč besed, kolikor zadošča tudi za branje povprečno zahtevnih besedil in samostojno učenje novih besed iz konteksta. Zanimiva je analiza Shakespearovih besedil, ki kaže, da je v času, ko je povprečen prebivalec njegovega podeželskega Stratforda uporabljal le okrog 500 besed (!), sloviti William uporabljal več kot 21.000 besed, v dramah čez petnajst tisoč in v poeziji še dodatnih sedem tisoč besed!

Koliko besed pa imajo posamezni jeziki? In v okviru jezikov specializirani podsistemi za sporazumevanje med strokovnjaki določene stroke? Jezikoslovci so mnenja, da je nemogoče prešteti vse besede kakega jezika, ker se jezik nenehno spreminja in predvsem zato, ker je nemogoče opredeliti, kaj bomo šteli kot "besedo". Jasno pa je, da so razlike med jeziki zelo velike tudi zaradi načina, kako jezik funkcionira do svojega okolja in drugih jezikov. Za angleščino je značilno, da z lahkoto sprejema besede od drugod in jih spretno "požira", nekateri jeziki pa se močno ograjujejo, taka je na primer francoščina.

O sodobnih jezikih, predvsem o besedišču angleščine in slovenščine, nekaj več v nadaljevanju prihodnjič. Prav tako o besednem zakladu strokovnih besedil s področja bibliotekarstva.


Dr. David Crystal - Words Words Words