petek, 10. avgust 2012

Do kod osebni podatki?

Hudo poletno vročino je pregrel še en dogodek, ki pa je za marsikoga smuknil mimo kar neopazno, čeprav se je o njem pisalo v dnevnem tisku, čivkalo na Twitterju in Facebooku pa tudi blogi so ga zaznali. Najbolj pa so dogodek občutili seveda uporabniki korpusa Nova beseda, v katerega so letele strele. Za kaj gre?

Nova beseda, slovenski besedilni korpus, ki je sicer namenjen predvsem za slovaropisne potrebe Inštituta za slovenski jezik Frana Ramovša SAZU, kjer je tudi nastal, obenem pa tudi vsem drugim, ki se ukvarjajo z raziskovanjem slovenskega jezika in ga lahko na spletu prosto uporabljajo, se je začel julija letos čudno obnašati. Če je bilo v iskalni zahtevi osebno ime ali kaj osebnemu imenu podobnega (slovenski priimki so pogosto izpeljani iz poklicev od kovača do zidarja, kuharja in šuštarja, živali kot so zajec, medved, volk in sinica, pa tudi po narodih se imenujejo Lah, Nemec, Švab, Horvat, Turk, Rus ali so nastali iz domačih krajevnih imen, npr. Dolenc, Gorenc, Bohinc, Posavec in še kaj, da ne govorimo o "botaničnih" osebnih imenih, nastalih iz travica, bor, gaber, breza, ajda, marjetica, lan ipd.) se je skujal in ni hotel izpljuniti rezultatov ("Iskalni izraz: * * * vsebuje osebna lastna imena, zato zaradi varstva osebnih podatkov ne sme biti izveden."; Glej sliko pod naslovom). Vse to je posledica elektronskega sporočila, v katerem je nekdo aprila letos Informacijskemu pooblaščencu namignil, da naj bi upravitelji oz. avtor besedilnega korpusa ". . . kršil zakon s tem, ko je na svoji spletni strani http://bos.zrc-sazu.si/s_beseda.html, pod rubriko »Nova beseda«, brez privolitve objavil osebne podatke posameznikov, ki so primarno objavljeni v časopisu Delo . . .".

Nekdo se je torej prepoznal v stavkih, iztrganih in izoliranih iz člankov, v preteklosti objavljenih v dnevnem časopisju . . . kot tisti policaj pred leti v romanu tam na Koroškem.
Pooblaščenec je po prejemu navedenega obvestila zoper zavezanca, po uradni dolžnosti, uvedel postopek inšpekcijskega nadzora nad izvajanjem določb ZVOP-1 ter je dne 25. 4. 2012 po državnem nadzorniku za varstvo osebnih podatkov opravil ogled spletne strani in izdal Odločbo, v kateri je do potankosti in po korakih opisal iskanje, klikanje, dobljene rezultate in še kaj iz arzenala iskalnih strategij in postopkov ter uporabniškega vedenja (študentje bibliotekarstva pozor: učno gradivo!), nato pa sledi še usodna ugotovitev:
". . . da Nova beseda brez ustrezne zakonske podlage obdeluje osebne podatke posameznikov, ki jih je . . . torej mogoče na podlagi podatkov, ki so objavljeni v korpusu »Nova beseda« identificirati . . . Poleg tega je v korpusu »Nova beseda« objavljen tudi vir in datum izvornega članka, zato se lahko vsakdo, brez sorazmerno velikega napora, vloženega časa in brez stroškov, seznani s celotno vsebino članka . . . . V inšpekcijskem postopku je bilo ugotovljeno, da zavezanec brez ustrezne zakonske podlage obdeluje osebne podatke posameznikov, ki jih je mogoče brez velikih stroškov, nesorazmerno velikega napora ali veliko časa, neposredno identificirati. . . . zato je odredil, da . . . besedilni korpus »Nova beseda« na svoji spletni strani prilagodi na način, ki bo onemogočal kakršno koli iskanje besedil po imenu in/ali priimku posameznik."

Ukrep je korpus kastriral do te mere, da je bilo nemogoče poiskati kakršno koli osebno ime in njegovo pojavljanje v besedilih, kar sem tudi sam opazil in seveda postal pozoren na dogajanje. Sledili so bolj ali manj ukrepu nenaklonjeni članki v časopisju (npr. Prepovedana kovačeva kobila komentatorja Lenarta J. Kučića v Sobotni prilogi Dela, Grožnja temeljnim civilizacijskim pridobitvam dr. Mirana Hladnika v Delu ter nato odgovor informacijske pooblaščenke, problem je zaznal tudi blog. Po pritožbi in dogovarjanju ter usklajevanju v začetku avgusta so predstavniki obeh ustanov ugotovili in se strinjali, da " . . . način, na katerega je bila odločba najprej izvršena, ni optimalen z vidika uporabnosti besedilnega korpusa, z vidika varstva osebnih podatkov pa je pretiran . . . zato bodo skupaj iskali rešitve, s katerimi se bo na eni strani ohranila uporabnost in poslanstvo besedilnega korpusa, obenem pa zagotovilo varstvo osebnih podatkov". Korpus je sedaj nekje "na pol poti", posamezna imena je mogoče iskati, imena in priimka pa ne, izjeme so tudi nekatera tuja imena in še kaj. Skratka na tič ne miš, volk ni sit, koza pa tudi ne več cela!

Za primerjavo sem uporabil drugi (še večji) spletni korpus slovenskega jezika Gigafida; v zadnji številki Dela (7. avgust 2012) sem iz vidnejšega članka izbrskal ime in priimek osebe, ki ni politik, in poiskal v korpusu – 322 zadetkov, polno ime in priimek v sobesedilu! Z vsemi žgečkljivimi podrobnostmi. (Ime sem zakril jaz, nikoli ne veš . . .).

Res pa je, da nadaljnje brskanje poda samo skrajšan bibliografski opis (samo naslov časopisa, naslov članka in leto), v katerem ni številke časopisa in strani. Pri spletnih dokumentih je označeno samo "Interenet" – podcenjevanje, kot da ne znam "kopipejstati", porabil sem 5 sekund, Google pa še eno! Iskanje z istim imenom sem ponovil, tokrat v spletnem Delu in za zadnjih 7 let dobil 139 člankov z vsemi detajli o tej osebi, njenih znancih in prijateljih, še slike, taka portretna en face in s profila, pa cela postava, vse v barvah . . . V Dnevniku 45 člankov, 24ur.com 45 člankov, Google pa sploh darežljiv – kakšnih 44.000 zadetkov! Zdaj pa nečesa ne razumem . . . !

Nikakor ne oporekam prizadevanjem za varovanje in zaščito osebnih podatkov v kibernetskem prostoru (nekateri rečejo kar kiberprostor), saj se problema in posledic vse premalo zavedamo in prepogosto prihaja do nezaželenih presenečenj, kdo ve, kakšna nas še (že) čakajo! Celo zagovarjam in podpiram ohranjanje in varovanje zasebnosti. Me pa vržejo s tira prepovedi knjig (à la avtorice Gospe in zahtevane odškodnine, ki ji je sledilo uničenje knjige) ali dobljena tožba podeželskega policaja in pošteno oglobljen pisatelj! Pa vendar je v primeru korpusa situacija še nekoliko drugačna in specifična. Pustimo ob strani izobraževalni in raziskovalni namen, ki je gotovo najpomembnejši, vendar se zato še ni mogoče izogniti zakonu, in se posvetimo vsebini. Pomembno je to, da korpus ne zbira in ne obdeluje osebnih podatkov, pač pa že objavljena (t.i. ponovna raba ali reuse) in javno dostopna besedila, pretežno vzeta celo iz javnih občil, katerih namen je obveščanje in informiranje, objavljena v tiskani in elektronski obliki. Največja v korpusu zajeta celota so tri povedi (nikoli večji del besedila). Da pa " . . . se lahko vsakdo, brez sorazmerno velikega napora, vloženega časa in brez stroškov, seznani s celotno vsebino članka . . . ", je danes irelevantno, saj so vsa ta besedila (članki) na dosegu klika, če ne enega pa treh!

Že pred časom sem hotel spoznati to dimenzijo gradnje korpusov in s tem povezanih rešitev drugod, ob teh zapletih sem poskusil znova, vendar nisem nikjer zasledil ničesar podobnega. Osebne podatke in njihovo varstvo se večkrat omenja in celo izpostavlja kot zelo pomembno vprašanje, vendar samo v povezavi z avtorji, bodisi kot varstvo avtorskih pravic, pravic do zasebnosti za psevdonimom skritega avtorja in predvsem pri govornih korpusih pravica "avtorja", to je govorca, do zasebnosti oz. neodkrivanja njegove identitete. O osebah, ki se pojavljajo v objavljenih besedilih, nisem zasledil ničesar, poseben problem so seveda nekatera specifična besedila (npr. pravna, medicinska, ponovna uporaba osebnih podatkov v informacijah javnega sektorja ipd.). Nekateri korpusi niso povsem javno dostopni in zahtevajo pisno izjavo uporabnika o njegovem statusu in namenu uporabe, take so npr. International Corpus of English-Ireland, The English-Norwegian Parallel Corpus, francoski Base textuelle FRANTEXT in nemški NEGRA Korpus.

The British National Corpus omogoča iskanje po osebnih imenih in tudi lokacijo v besedilu podaja natančno, res pa je, da strani v dokumentu zelo pogosto ne navaja.

Vzporedni večjezični Linguistic Corpus of the University of Vigo, ki vsebuje ločene segmente za besedila s področja prava, znanosti in tehnologije, računalniška, literature, turizma in varstva potrošnikov, omogoča iskanje po osebnih imenih in tudi prikaz vira, ki je lahko zelo natančen (tudi v pravnem segmentu) ali pa bolj splošen, kot je prikazano na primeru zgoraj.

Švedski Korp, ki združuje iskanje po 85 manjših korpusih in obsega skoraj milijardo besed, je glede prikaza precej podoben našemu, omogoča iskanje po osebnih imenih in prikaže poleg osnovnih slovničnih podatkov tudi natančen vir, kjer je mogoče, tudi URL.

In kako je z osebnimi podatki v Korpusu bibliotekarstva? Ta zajema izključno strokovna in znanstvena besedila s področja bibliotekarstva, v katerih se, hvala bogu, pojavlja kaj malo oseb, tu in tam kak in memoriam ali visok jubilej, pa še teh je komaj kaj, sicer pa samo avtorji prispevkov (Vključena besedila). Seznami literature, ki spremljajo analizirana dela, pa ne pridejo v korpus.


Vir: design mind

Ni komentarjev:

Objavite komentar

Opomba: Komentarje lahko objavljajo le člani tega spletnega dnevnika.