Odpiranje virov bo po navedbah predstojnika Inštituta za slovenski jezik Frana Ramovša ZRC SAZU Marka Snoja koristilo jezikovnim tehnologom, saj bodo slovarske baze, ki so za navadne uporabnike popolnoma neuporabne, lahko obdelali s svojimi programi. Foto: mladinska.com
Odpiranje virov bo po navedbah predstojnika Inštituta za slovenski jezik Frana Ramovša ZRC SAZU Marka Snoja koristilo jezikovnim tehnologom, saj bodo slovarske baze, ki so za navadne uporabnike popolnoma neuporabne, lahko obdelali s svojimi programi. Foto: mladinska.com

Slovenščina je tako raziskana, imamo te baze podatkov, dajemo jih v javnost zastonj in brez kakršnikoli obveznosti, zdaj pa naj jezikovni tehnologi iz tega naredijo, kar pravijo, da znajo narediti.

Predstojnik inštituta za slovenski jezik Marko Snoj
Googlov prevajalnik
Inštitut za slovenski jezik je začel odpirati večino jezikovnih virov za jezikovnotehnološke namene od 16. do 21. stoletja, s čimer želijo jezikovnim tehnologom omogočiti, da slovarske baze obdelajo s svojimi programi in izboljšajo na primer tudi Googlov prevajalnik. Foto: google.si

S tem želijo jezikovnim tehnologom omogočiti, da slovarske baze obdelajo s svojimi programi in izboljšajo na primer Googlov prevajalnik. Tako so naredili prvi korak k celovitejši digitalizaciji slovenskega jezika skladno z dogovorom, ki so ga sprejeli udeleženci razprave o jezikovnih virih in tehnologijah pod pokroviteljstvom ministrstva za kulturo.

Glede na ugotovitve te razprave, ki je potekala januarja, je vlada nedavno ustanovila svet za spremljanje razvoja jezikovnih virov in tehnologij, ki bo kot koordinacijsko telo skrbel za podporo celovitim rešitvam na področju digitalizacije slovenščine.

Prvi po prosti dostopnosti slovarjev
Pred letom in pol je inštitut vzpostavil slovarski portal Fran in s tem med evropskimi inštituti za jezik zavzel prvo mesto v prosti dostopnosti temeljnih in tem podobnih slovarjev, tudi jezikovne vire za jezikovnotehnološke namene so dali v odprti dostop kot prvi v Evropi oziroma na svetu. Ali so naredili prav ali ne, bo pokazal čas, je povedal predstojnik inštituta Marko Snoj.

Po novem bo odprti dostop imelo 16 virov. Med njimi so: Slovensko-nemški slovar Maksa Pleteršnika, Slovenski lingvistični atlas 1 in 2, Besedišče slovenskega jezika, Baza opisov slovnic in pravopisov, Vezljivostni slovar slovenskih glagolov Andreje Žele, Besedje slovenskega knjižnega jezika 16. stoletja, Slovar slovenskih frazemov Janeza Kebra in Slovenski pravopis iz leta 2001.

Na inštitutu načrtujejo odpiranje še več drugih virov, med njimi je Slovar slovenskega knjižnega jezika, za katere pa morajo pridobiti soglasja lastnikov materialnih avtorskih pravic oziroma njihovih dedičev. "To pa je vedno težava. Poglejte npr. Enciklopedijo Slovenije: država jo je financirala leta in leta, a ne bo nikoli druge izdaje, ker ne morejo pridobiti soglasja vseh avtorjev. Upam, da pri nas ne bo tako črno," je pojasnil predstojnik inštituta.

Odpiranje virov bo po njegovih navedbah koristilo jezikovnim tehnologom, saj bodo slovarske baze, ki so za navadne uporabnike popolnoma neuporabne, lahko obdelali s svojimi programi in izboljšali na primer že prej omenjeni Googlov prevajalnik. Lahko bodo naredili svoje prevajalnike, razne vmesnike za pametne naprave, pregibnike, da bodo programi pravilno delili besede, da bodo našli pravilno obliko besede ipd.

Z malo domišljije je mogoče marsikaj
Na ta način bodo jezikovni tehnologi – tisti, ki so hkrati jezikoslovci in računalniško zelo izobraženi ter se spoznajo na podatkovne zbirke – lahko izboljšali uporabniške izkušnje, ne nazadnje za ljudi s posebnimi potrebami. "Marsikaj je mogoče iz tega narediti," pravi Snoj. Z malo domišljije za prihodnost bi se po njegovih besedah znalo zgoditi, da bi tudi digitalna asistentka Siri nekoč spregovorila v slovenščini. "Slovenščina je tako raziskana, imamo te baze podatkov, dajemo jih v javnost zastonj in brez kakršnih koli obveznosti, zdaj pa naj jezikovni tehnologi iz tega naredijo, kar pravijo, da znajo narediti," je še dejal predstojnik inštituta.

Slovenščina je tako raziskana, imamo te baze podatkov, dajemo jih v javnost zastonj in brez kakršnikoli obveznosti, zdaj pa naj jezikovni tehnologi iz tega naredijo, kar pravijo, da znajo narediti.

Predstojnik inštituta za slovenski jezik Marko Snoj