ponedeljek, avgust 06, 2012

Beseda k Novi besedi

V zadnjih dneh se je na twitterju sprožila razprava (>1, >2) o bazi jezikovnega korpusa Nova beseda. Zapis kolege Kaniča na FB pa me je opozoril, da je ta razprava pravzaprav prisotna že tudi v javnih medijih. Iz zapisa prof. Hladnika v časniku Delo bo bralec lahko razbral za kakšno zgodbo gre in v povezavi je tudi mogoče prebrati odgovor informacijske pooblaščenke g. Musarjeve.  Kaničevemu zapisu sem dodal komentar, ki ga tukaj ponavljam:
Verjamem, da bi bila družbena (družabna) omrežja primeren prostor, kjer bi ta spor v kulturnem dialogu lahko pojasnili in si izmenjali argumente: pravniki z jezikoslovci, (upravičeno) zaskrbljeni jezikoslovci s pravniki. In pridobili bi tudi ljubitelji, ki nam na eni strani ni vseeno, ne za jezik in ne za zavarovanje pravic posameznika. Pismo prof. Hladnika je dobrodošlo, dobrodošel je tudi odgovor informacijske pooblaščenke (IP). Na nek način so najbrž bile koristne tudi iskrice na twitterju. Za nadaljevanje pa bi si želel, da se iz razprave umakne vsakršna žolčnost, prizadetost in da slišimo profesionalne argumente obeh strani, ki naj pripeljejo do za vse sprejemljivih rešitev. Rad bi npr. slišal, kakšni so bili prvi ukrepi ZRC SAZU in kakšni so/bodo tisti, ki naj bi zmanjšali sprva povzročeno škodo zaradi upoštevanja odločbe IP in za katere naj bi se obe vpleteni strani baje v nadaljevanju že dogovorili. Seveda predvsem upam, da ne bi iskanje rešitve zašlo v slepo ulico in bi se zgodila nakazana možnost zapiranja baze uporabnikom (tistim profesionalnim pa tudi, nam, manj profesionalnim).
Namen tega zapisa na blogu ste bralci najbrž razbrali: rad bi sprožil razpravo.  

2 komentarja:

  1. Vsekakor izjemen prispevek k tej temi je zapis na blogu Bibliotekarska terminologija. Vredno pa je prebrati tudi članek novinarja Kučića v Delovi Sobotni prilogi (04. 08. 2012).

    OdgovoriIzbriši
  2. Nekaj več o tem, vključno z ilustativnimi prikazi iz spodaj omenjenih korpusov navajam v objavi na blogu Bibliotekarska terminologija. Kolega Franc, mojo objavo ste opazili nekaj minut prezgodaj, ko sem še oblikoval besedilo tega komentarja, pa ga bom vseeno objavil tudi tu pri vas!

    Nikakor ne oporekam prizadevanjem za varovanje in zaščito osebnih podatkov v kiberprostoru, saj se problema in posledic vse premalo zavedamo in prepogosto prihaja do nezaželenih presenečenj, kdo ve, kakšna nas še (že) čakajo! Celo zagovarjam in podpiram ohranjanje in varovanje zasebnosti. Pustimo ob strani izobraževalni in raziskovalni namen, ki je gotovo najpomembnejši in ga vsi najbolj občutimo, vendar se zato še ni mogoče izogniti zakonu, in se posvetimo vsebini. Pomembno je to, da omenjeni korpus ne zbira in ne obdeluje osebnih podatkov, pač pa že objavljena (t.i. ponovna raba ali reuse) in javno dostopna besedila, pretežno vzeta celo iz javnih občil, katerih namen je obveščanje in informiranje, objavljena v tiskani in elektronski obliki. Največja v korpusu zajeta celota so tri povedi (nikoli večji del besedila). Da pa " . . . se lahko vsakdo, brez sorazmerno velikega napora, vloženega časa in brez stroškov, seznani s celotno vsebino članka . . . ", je danes irelevantno, saj so vsa ta besedila (članki) na dosegu klika, če ne enega pa treh!

    Že pred časom sem hotel spoznati tudi to dimenzijo gradnje korpusov in s tem povezanih rešitev drugod, ob teh zapletih sem poskusil znova, vendar nisem nikjer zasledil ničesar podobnega. Osebne podatke in njihovo varstvo se večkrat omenja in celo izpostavlja kot zelo pomembno vprašanje, vendar samo v povezavi z avtorji, bodisi kot varstvo avtorskih pravic, pravic do zasebnosti za psevdonimom skritega avtorja in predvsem pri govornih korpusih pravica "avtorja", to je govorca, do zasebnosti oz. neodkrivanja njegove identitete. O osebah, ki se pojavljajo v objavljenih besedilih, nisem zasledil ničesar, poseben problem so seveda nekatera specifična besedila (npr. pravna, medicinska, ponovna uporaba osebnih podatkov v informacijah javnega sektorja ipd.). Nekateri korpusi niso povsem javno dostopni in zahtevajo pisno izjavo uporabnika o njegovem statusu in namenu uporabe, take so npr. International Corpus of English-Ireland, The English-Norwegian Parallel Corpus, francoski Base textuelle FRANTEXT in nemški NEGRA Korpus. The British National Corpus omogoča iskanje po osebnih imenih in tudi lokacijo v besedilu podaja natančno, res pa je, da strani v dokumentu zelo pogosto ne navaja. Vzporedni večjezični Linguistic Corpus of the University of Vigo, ki vsebuje ločene segmente za besedila s področja prava, znanosti in tehnologije, računalniška, literature, turizma in varstva potrošnikov, omogoča iskanje po osebnih imenih in tudi prikaz vira, ki je lahko zelo natančen (tudi v pravnem segmentu) ali pa bolj splošen. Švedski Korp, ki združuje iskanje po 85 manjših korpusih in obsega skoraj milijardo besed, je glede prikaza precej podoben našemu, omogoča iskanje po osebnih imenih in prikaže poleg osnovnih slovničnih podatkov tudi natančen vir, kjer je mogoče, tudi URL.

    In kako je z osebnimi podatki v slovenskem Korpusu bibliotekarstva? Ta zajema izključno strokovna in znanstvena besedila s področja bibliotekarstva, v katerih se, hvala bogu, pojavlja kaj malo oseb, tu in tam kak in memoriam ali visok jubilej, pa še teh je komaj kaj, sicer pa samo avtorji prispevkov. Seznami literature, ki spremljajo analizirana dela, pa ne pridejo v korpus.

    OdgovoriIzbriši