2015-11-08

Lietuvių kalba įsitvirtina elektroninėje erdvėje

Laiku nesukūrus tinkamų rašytinės lietuvių kalbos saugojimo ir apdorojimo technologijų, jos vartojimas informacinėse technologijose gerokai sumažėtų. O laikui bėgant, mokslininkų nuomone, net ir išnyktų, mat ją nukonkuruotų kitoms kalboms pritaikytos technologijos. Mokslo ir verslo bendradarbiavimas užbėgo šiems įvykiams už akių.

Globalizacija, informacinių ir ryšių technologijų pažanga, augantis tekstinės informacijos kiekis pasauliniame saityne ir nauji bendravimo būdai lemia didėjantį poreikį kurti naujus, su lietuvių rašytine kalba susijusius sprendimus ir elektronines paslaugas, sugebėsiančias apdoroti kalbą. Tai ne tik padarytų virtualią erdvę prieinamą didesniam asmenų skaičiui, bet padėtų išsaugoti gimtąją kalbą. Dėl šių priežasčių Vytauto Didžiojo universiteto (VDU) ir Kauno technologijos universiteto (KTU) mokslininkų komandos apjungė jėgas ir sukūrė lietuvių kalbos sintaksinės-semantinės analizės informacinę sistemą (LKSSAIS). Kuriant projektą prisijungė ir kompetentinga bei patyrusi Atea komanda su partneriais.

Jei kalba neįsitvirtina elektroninėje erdvėje, ji pasmerkta išnykti – įsitikinęs šio projekto vadovas, VDU Informatikos fakulteto ir Kompiuterinės lingvistikos centro doc. dr. Darius Amilevičius.

„Lietuvių kalbos atveju paminėtina ir tai, kad esame maža tauta, turinti labai sudėtingą kalbą, kuri gimininga tik latvių kalbai. Esame mažutė rinka, kalbos technologijų raida mūsų kalbai yra brangi, todėl komerciškai nepatraukli iš verslo pozicijos“, – teigia docentas.

Informacijos kiekis internete per 2 metus padvigubėja. 95 proc. visos informacijos į elektroninę erdvę patenka teksto forma. Įmonėse ir organizacijose informacijos kiekis gausėja eksponentine tvarka. Turint tokius informacijos masyvus, žmogus paprasčiausiai nepajėgus efektyviai visko išanalizuoti, todėl mieliau šią užduotį perduotų kompiuteriui ir automatizuotiems procesams.

Panaudojama ne tik teoriškai

Sukurtos LKSSAIS paskirtis – užtikrinti lietuvių rašytinės kalbos sintaksinės ir
rinkos semantinės analizės paslaugų teikimą, kaupti ir tvarkyti lietuvių kalbos lingvistinius ir semantinius išteklius.

Išskiriamos dvi esminės LKSSAIS dalys ir jų panaudojimo būdai. Pirma dalis – tai modulinė bazinių kalbos technologijų infrastruktūra. Jos paskirtis parengti kokybišką medžiagą aukštesniu lygiu specializuotai kompiuterinei analizei. Antroji dalis – keli pavyzdiniai bazinės infrastruktūros rezultatų panaudojimo atvejai (viešosios paslaugos).

Doc. dr. Darius Amilevičius atkreipia dėmesį, kad LKSSAIS teikiamos viešosios paslaugos visų pirma orientuotos į lietuvių kalbos puoselėjimą ir išsaugojimą elektroninėje erdvėje.

Kalbant apie praktinį sistemos teikiamų viešųjų paslaugų taikymą, galima paminėti kelis pavyzdžius. Ši sistema artimesnė žiniasklaidos monitoringo ir lingvistinės-semantinės analizės sistemoms. Jau beveik du metus sistemos robotai, gavus reikiamus leidimus, „siurbia“ straipsnius iš 25 populiariausių lietuviškų interneto portalų. Tokiu būdu jau yra sukauptas virš milijardo žodžių turintis interneto žiniasklaidos tekstynas. Sistemos vartotojai gali šiame ir kituose tekstynuose atlikti tiek turinio, tiek lingvistinę analizę. Ši sistema ne tik ištaiso vartotojo įvesto teksto rašybos ir gramatikos klaidas, bet gali tą tekstą anotuoti bei analizuoti.

Nauda ir verslui

Sukurta informacinė sistema ir kalbos technologijų sprendimai naudingi ir verslui. Pasaulinės kalbos technologijų rinkos plėtros 2013-2018 m. tyrimo rezultatai rodo, kad kalbos technologijų rinka pasaulyje sparčiai auga. Įmonės ir organizacijos jau suprato, informacinėje ir WEB 3.0 (semantinis internetas) eroje kalbos technologijos yra būtinos. Jų sprendimai leidžia efektyviau naudoti vieną brangiausių įmonių išteklių – informaciją. Be to, kalbos technologijų sprendimai leidžia veiklą plėtoti įvairiapusiškiau (pavyzdžiui, ligos istorijų, chirurginių operacijų automatinė transkripcija) ir įdiegti naujas informacines paslaugas bei produktus.

„Verslui pridėtinę vertę gali kurti mūsų sistemos nemokamai teikiama paslauga interneto žiniasklaidos analizei, kuri įmonėms leidžia stebėti, kaip populiariausia lietuviška interneto žiniasklaida pristato konkrečią įmonę bei jos produktus ir paslaugas. Įdiegta tekstų anotavimo paslauga įmonėms leidžia pasiruošti „žaliavą“ semantinei paieškai įmonės dokumentų valdymo sistemose“, – sako doc. dr. Darius Amilevičius.

VDU Informatikos fakulteto ir Kompiuterinės lingvistikos centro doc. dr. Darius Amilevičius

VDU Informatikos fakulteto ir Kompiuterinės lingvistikos centro doc. dr. Darius Amilevičius

ES vidurkį pavijo per 36 mėn.

Dirbant prie projekto, kuris užtruko net trejus metus, neišvengta ir sunkumų. Pagrindinis – laiko ir kvalifikuoto personalo trūkumas.

„Žinant, kad Lietuva kalbos technologijų srityje buvo atsilikusi 8–9 metais nuo ES vidurkio, šį didelį atotrūkį panaikinome per beprotiškai trumpą laiką“, – sako doc. dr. Darius Amilevičius.

Projekte mokslininkų komanda kūrė algoritmus ir technologijas, o juos įgyvendino gausi Atea programuotojų komanda. Atea su partneriais padėjo rasti ir įgyvendinti geriausius praktinius inžinerinius sprendimus, nes šis projektas buvo ne mokslinis, o investicinis.

„Nors įmonė turėjo tam tikrą įdirbį kalbos technologijų srityje, bet projekto vykdymo metu jau teko skubiai daug ko papildomai išmokti, įsisavinti. Su užduotimis įmonė ne tik puikiai susidorojo, bet patarė, kokius praktinius inžinerinius sprendimus taikyti, atsižvelgiant į praktinį projekto rezultatų pobūdį“, – pasakoja pašnekovas. Pagyrų docentas negailėjo ir Ernestui Vyšniauskui, Atea Programavimo padalinio vadovo pavaduotojui.

„Projekto vadovas, kalbantis mokslo ir verslo kabomis, ypač palengvino mokslo ir verslo pasaulių komunikaciją ir savalaikių sprendimų priėmimą“, – tikina VDU Informatikos fakulteto ir Kompiuterinės lingvistikos centro doc. dr. Darius Amilevičius.

Sklandžiai vykusiu bendradarbiavimu ir pasiektais rezultatais patenkintas ir Ernestas Vyšniauskas.

„Nors darbai vyko labai įtemptu grafiku, o projekto komanda plušo spaudžiama terminų, galutiniu rezultatu esame labai patenkinti. Darbą palengvino tai, kad užsakovai buvo mokslininkai, kurie turėjo patirtį vykdant didelius projektus, suprato ne tik veiklą, bet ir sistemos architektūrą bei atskirų jos komponentų logiką. Esame dėkingi ir už jų atsakingą požiūrį, neformalų bendravimą bei atsidavimą projektui, neskaičiuojant savo asmeninio laiko“ – kalbėjo Ernestas Vyšniauskas.

Semantika.lt – tai projektas, kurio biudžetas beveik 3,18 mln. EUR, buvo įgyvendintas per 36 mėnesius. Projektas finansuotas Europos Regioninės plėtros fondo ir Lietuvos Respublikos valstybės biudžeto lėšomis. Projekto rezultatai skelbiami projekto portale www.semantika.lt, lietuvių kalbos elektroniniuose vartuose www.raštija.lt ir elektroniniuose valdžios vartuose www.epaslaugos.lt.

Norite sužinoti daugiau apie IT?