četrtek, 30. avgust 2012

Facepalm in palmface

Kljub poletni vročini in dopustniškim časom, ali pa prav zaradi tega, se je nabralo za terminološko razmišljanje in razpravo več gradiva, kot bi pričakoval. Tudi po elektronski pošti in na Facebooku smo kolegi modrovali, pač razmeram in času primerno pa bolj ležerno, značilno za ta poletni čas pa je, da smo se vsi mučili predvsem z angleškimi izrazi, za katere ne najdemo primernih slovenskih ustreznikov. Melita in Franc sta predlagala v razpravo "linked data", Igor "user driven", Tilen "facepalm", študentka Tamara "cyberbook" . . . da ne rečem, kje vse se je zatikalo meni. O teh terminih bom skušal v naslednjih tednih kaj napisati, za začetno ogrevanje po dopustu, ki ga zaključujem te dni, pa sem izbral tisto, kar nas je večina bralcev, poslušalcev in gledalcev, skratka "odjemalcev informacij" sredstev javnega obveščanja, čez poletje najpogosteje počelo – facepalm. Izjave in dejanja politikov, tistih poklicnih in tudi (nepoklicnih) kandidatov za najvišji slovenski stolček, dogajanja v podjetjih in na sodiščih, pa Črtomir in Bogomila . . . facepalmu se ni bilo mogoče izogniti!

Izraz (angleščina uporablja variante facepalm, tudi face-palm in face palm) ni nov in ga je mogoče zaslediti v slovarjih, res pa je, da je pridobil na popularnosti šele z internetnim žargonom. Opisuje značilno kretnjo, ko nekdo položi plosko dlan čez obraz ali spusti obraz v dlan ali obe dlani. To gesto poznajo različne kulture po svetu, povsod pa izraža močno čustvo frustracije, razočaranja, zadrege, sramu, presenečenja, nejevernosti, zaprepadenosti, gnusa, sramu, posmeha . . . Njegova spletna popularnost temelji na sceni iz 61. epizode TV nadaljevanke Star Trek, ko to znamenito gesto izvede Captain Jean-Luc Picard (6 min 11 sek). V medijih niso redke slike borznih posrednikov in neuspešnih poslovnežev, ki tako "opisujejo" finančno stanje ali finančni kolaps (povzeto po Wikipedia).

V internetnem žargonu je to "logičen" odgovor na neumno vprašanje ali izjavo oz. izraz žalosti, jeze ali besa, ko se zavemo napake ali trapastega dejanja. Pojavlja pa se tudi varianta "palmface", ki se lahko uporablja bodisi kot sopomenka ali pa ima nekoliko spremenjen pomen – v tem primeru kot odgovor na facepalm (dati svojo dlan na obraz sogovorniku, ki je pred tem izrazil posmeh tako, da si je z dlanjo pokril obraz – prva oseba je torej naredila facepalm, druga pa odgovorila s palmface) ( Urban Dictionary).

Kako pa je v drugih jezikih? Za nemščino sem zasledil frazo die Hände vors Gesicht schlagen, Francozi pa uporabljajo se taper la main sur le front, se taper la tête avec la main, se cacher la tête dans la main. Slovenščina pozna predvsem zakopati obraz v roke, zakopati obraz v dlani, skriti obraz v dlani in pokriti obraz z dlanmi, npr.:

- . . . Poliksenin lepi žalostni obraz. Ahil je zakopal obraz v roke in zajokal, ko je spoznal . . . (100 grških mitov za otroke, 2004)
- . . . Alica ni rekla ničesar, samo sedla je na tla, zakopala obraz v dlani in premišljevala, če . . . (Lewis Carroll: Aličine prigode v Čudežni deželi)
- . . . njegov govor kaže na obup (. . . obraz, zakopan v dlani) . . . (Wikiverza, analiza besedila).
Že dolgo znan pomen tako opisane geste je lahko enak, kot ga izraža "facepalm", vendar ne vedno. Pogosto je namreč povezana z žalostjo in jokom, ne pa posmehom in sarkazmom, ki sta danes poglavitno sporočilo v internetnem žargonu. Poleg tega je kretnja "facepalm" izvedena (navadno) z eno roko, slovenski izraz (tudi nemški) pa navadno predstavlja zakrivanje obraza z obema dlanema; francoščina pozna obe varianti.

Kako torej po slovensko? V internetnem žargonu se tudi v slovenskih besedilih korajžno pojavlja facepalm v izvirni obliki, pogosto mu sledi emotikon in/ali pomensko sorodna slengovska kratica (npr. ROFL). Najdemo ga seveda predvsem v krajših neformalnih sporočilih elektronske pošte, forumov in seveda tvitov, ali pa v proznih besedilih, ki opisujejo tako okolje. Kljub prizadevanjem nisem našel ničesar, kar bi kazalo na poizkus uporabe slovenskega izraza. Angleški izraz je dovolj kratek in enostaven (za pisavo in za izgovorjavo), njegova prednost pa je tudi v tem, da ima lahko ista oblika vlogo samostalnika (a quick facepalm), glagola (she facepalmed twice) in glagolnika (his facepalming upsets me). Vse to je pogosto ovira pri iskanju in kovanju ustreznika v slovenščini. Menim, da facepalm v kratkem ne bo dobil slovenskega ustreznika.

Pa vendar – Uporablja kdo med vami v takšnih situacijah kdaj tudi slovensko besedo ali frazo? Sporočite jo!

petek, 10. avgust 2012

Do kod osebni podatki?

Hudo poletno vročino je pregrel še en dogodek, ki pa je za marsikoga smuknil mimo kar neopazno, čeprav se je o njem pisalo v dnevnem tisku, čivkalo na Twitterju in Facebooku pa tudi blogi so ga zaznali. Najbolj pa so dogodek občutili seveda uporabniki korpusa Nova beseda, v katerega so letele strele. Za kaj gre?

Nova beseda, slovenski besedilni korpus, ki je sicer namenjen predvsem za slovaropisne potrebe Inštituta za slovenski jezik Frana Ramovša SAZU, kjer je tudi nastal, obenem pa tudi vsem drugim, ki se ukvarjajo z raziskovanjem slovenskega jezika in ga lahko na spletu prosto uporabljajo, se je začel julija letos čudno obnašati. Če je bilo v iskalni zahtevi osebno ime ali kaj osebnemu imenu podobnega (slovenski priimki so pogosto izpeljani iz poklicev od kovača do zidarja, kuharja in šuštarja, živali kot so zajec, medved, volk in sinica, pa tudi po narodih se imenujejo Lah, Nemec, Švab, Horvat, Turk, Rus ali so nastali iz domačih krajevnih imen, npr. Dolenc, Gorenc, Bohinc, Posavec in še kaj, da ne govorimo o "botaničnih" osebnih imenih, nastalih iz travica, bor, gaber, breza, ajda, marjetica, lan ipd.) se je skujal in ni hotel izpljuniti rezultatov ("Iskalni izraz: * * * vsebuje osebna lastna imena, zato zaradi varstva osebnih podatkov ne sme biti izveden."; Glej sliko pod naslovom). Vse to je posledica elektronskega sporočila, v katerem je nekdo aprila letos Informacijskemu pooblaščencu namignil, da naj bi upravitelji oz. avtor besedilnega korpusa ". . . kršil zakon s tem, ko je na svoji spletni strani http://bos.zrc-sazu.si/s_beseda.html, pod rubriko »Nova beseda«, brez privolitve objavil osebne podatke posameznikov, ki so primarno objavljeni v časopisu Delo . . .".

Nekdo se je torej prepoznal v stavkih, iztrganih in izoliranih iz člankov, v preteklosti objavljenih v dnevnem časopisju . . . kot tisti policaj pred leti v romanu tam na Koroškem.
Pooblaščenec je po prejemu navedenega obvestila zoper zavezanca, po uradni dolžnosti, uvedel postopek inšpekcijskega nadzora nad izvajanjem določb ZVOP-1 ter je dne 25. 4. 2012 po državnem nadzorniku za varstvo osebnih podatkov opravil ogled spletne strani in izdal Odločbo, v kateri je do potankosti in po korakih opisal iskanje, klikanje, dobljene rezultate in še kaj iz arzenala iskalnih strategij in postopkov ter uporabniškega vedenja (študentje bibliotekarstva pozor: učno gradivo!), nato pa sledi še usodna ugotovitev:
". . . da Nova beseda brez ustrezne zakonske podlage obdeluje osebne podatke posameznikov, ki jih je . . . torej mogoče na podlagi podatkov, ki so objavljeni v korpusu »Nova beseda« identificirati . . . Poleg tega je v korpusu »Nova beseda« objavljen tudi vir in datum izvornega članka, zato se lahko vsakdo, brez sorazmerno velikega napora, vloženega časa in brez stroškov, seznani s celotno vsebino članka . . . . V inšpekcijskem postopku je bilo ugotovljeno, da zavezanec brez ustrezne zakonske podlage obdeluje osebne podatke posameznikov, ki jih je mogoče brez velikih stroškov, nesorazmerno velikega napora ali veliko časa, neposredno identificirati. . . . zato je odredil, da . . . besedilni korpus »Nova beseda« na svoji spletni strani prilagodi na način, ki bo onemogočal kakršno koli iskanje besedil po imenu in/ali priimku posameznik."

Ukrep je korpus kastriral do te mere, da je bilo nemogoče poiskati kakršno koli osebno ime in njegovo pojavljanje v besedilih, kar sem tudi sam opazil in seveda postal pozoren na dogajanje. Sledili so bolj ali manj ukrepu nenaklonjeni članki v časopisju (npr. Prepovedana kovačeva kobila komentatorja Lenarta J. Kučića v Sobotni prilogi Dela, Grožnja temeljnim civilizacijskim pridobitvam dr. Mirana Hladnika v Delu ter nato odgovor informacijske pooblaščenke, problem je zaznal tudi blog. Po pritožbi in dogovarjanju ter usklajevanju v začetku avgusta so predstavniki obeh ustanov ugotovili in se strinjali, da " . . . način, na katerega je bila odločba najprej izvršena, ni optimalen z vidika uporabnosti besedilnega korpusa, z vidika varstva osebnih podatkov pa je pretiran . . . zato bodo skupaj iskali rešitve, s katerimi se bo na eni strani ohranila uporabnost in poslanstvo besedilnega korpusa, obenem pa zagotovilo varstvo osebnih podatkov". Korpus je sedaj nekje "na pol poti", posamezna imena je mogoče iskati, imena in priimka pa ne, izjeme so tudi nekatera tuja imena in še kaj. Skratka na tič ne miš, volk ni sit, koza pa tudi ne več cela!

Za primerjavo sem uporabil drugi (še večji) spletni korpus slovenskega jezika Gigafida; v zadnji številki Dela (7. avgust 2012) sem iz vidnejšega članka izbrskal ime in priimek osebe, ki ni politik, in poiskal v korpusu – 322 zadetkov, polno ime in priimek v sobesedilu! Z vsemi žgečkljivimi podrobnostmi. (Ime sem zakril jaz, nikoli ne veš . . .).

Res pa je, da nadaljnje brskanje poda samo skrajšan bibliografski opis (samo naslov časopisa, naslov članka in leto), v katerem ni številke časopisa in strani. Pri spletnih dokumentih je označeno samo "Interenet" – podcenjevanje, kot da ne znam "kopipejstati", porabil sem 5 sekund, Google pa še eno! Iskanje z istim imenom sem ponovil, tokrat v spletnem Delu in za zadnjih 7 let dobil 139 člankov z vsemi detajli o tej osebi, njenih znancih in prijateljih, še slike, taka portretna en face in s profila, pa cela postava, vse v barvah . . . V Dnevniku 45 člankov, 24ur.com 45 člankov, Google pa sploh darežljiv – kakšnih 44.000 zadetkov! Zdaj pa nečesa ne razumem . . . !

Nikakor ne oporekam prizadevanjem za varovanje in zaščito osebnih podatkov v kibernetskem prostoru (nekateri rečejo kar kiberprostor), saj se problema in posledic vse premalo zavedamo in prepogosto prihaja do nezaželenih presenečenj, kdo ve, kakšna nas še (že) čakajo! Celo zagovarjam in podpiram ohranjanje in varovanje zasebnosti. Me pa vržejo s tira prepovedi knjig (à la avtorice Gospe in zahtevane odškodnine, ki ji je sledilo uničenje knjige) ali dobljena tožba podeželskega policaja in pošteno oglobljen pisatelj! Pa vendar je v primeru korpusa situacija še nekoliko drugačna in specifična. Pustimo ob strani izobraževalni in raziskovalni namen, ki je gotovo najpomembnejši, vendar se zato še ni mogoče izogniti zakonu, in se posvetimo vsebini. Pomembno je to, da korpus ne zbira in ne obdeluje osebnih podatkov, pač pa že objavljena (t.i. ponovna raba ali reuse) in javno dostopna besedila, pretežno vzeta celo iz javnih občil, katerih namen je obveščanje in informiranje, objavljena v tiskani in elektronski obliki. Največja v korpusu zajeta celota so tri povedi (nikoli večji del besedila). Da pa " . . . se lahko vsakdo, brez sorazmerno velikega napora, vloženega časa in brez stroškov, seznani s celotno vsebino članka . . . ", je danes irelevantno, saj so vsa ta besedila (članki) na dosegu klika, če ne enega pa treh!

Že pred časom sem hotel spoznati to dimenzijo gradnje korpusov in s tem povezanih rešitev drugod, ob teh zapletih sem poskusil znova, vendar nisem nikjer zasledil ničesar podobnega. Osebne podatke in njihovo varstvo se večkrat omenja in celo izpostavlja kot zelo pomembno vprašanje, vendar samo v povezavi z avtorji, bodisi kot varstvo avtorskih pravic, pravic do zasebnosti za psevdonimom skritega avtorja in predvsem pri govornih korpusih pravica "avtorja", to je govorca, do zasebnosti oz. neodkrivanja njegove identitete. O osebah, ki se pojavljajo v objavljenih besedilih, nisem zasledil ničesar, poseben problem so seveda nekatera specifična besedila (npr. pravna, medicinska, ponovna uporaba osebnih podatkov v informacijah javnega sektorja ipd.). Nekateri korpusi niso povsem javno dostopni in zahtevajo pisno izjavo uporabnika o njegovem statusu in namenu uporabe, take so npr. International Corpus of English-Ireland, The English-Norwegian Parallel Corpus, francoski Base textuelle FRANTEXT in nemški NEGRA Korpus.

The British National Corpus omogoča iskanje po osebnih imenih in tudi lokacijo v besedilu podaja natančno, res pa je, da strani v dokumentu zelo pogosto ne navaja.

Vzporedni večjezični Linguistic Corpus of the University of Vigo, ki vsebuje ločene segmente za besedila s področja prava, znanosti in tehnologije, računalniška, literature, turizma in varstva potrošnikov, omogoča iskanje po osebnih imenih in tudi prikaz vira, ki je lahko zelo natančen (tudi v pravnem segmentu) ali pa bolj splošen, kot je prikazano na primeru zgoraj.

Švedski Korp, ki združuje iskanje po 85 manjših korpusih in obsega skoraj milijardo besed, je glede prikaza precej podoben našemu, omogoča iskanje po osebnih imenih in prikaže poleg osnovnih slovničnih podatkov tudi natančen vir, kjer je mogoče, tudi URL.

In kako je z osebnimi podatki v Korpusu bibliotekarstva? Ta zajema izključno strokovna in znanstvena besedila s področja bibliotekarstva, v katerih se, hvala bogu, pojavlja kaj malo oseb, tu in tam kak in memoriam ali visok jubilej, pa še teh je komaj kaj, sicer pa samo avtorji prispevkov (Vključena besedila). Seznami literature, ki spremljajo analizirana dela, pa ne pridejo v korpus.


Vir: design mind