Skip to main content

Kalbų įsitvirtinimas skaitmeninėje erdvėje – sudėtingas ir daugeliui jų grėsmę prarasti savo aktualumą keliantis procesas. Kol anglų kalbai kuriami tokie kalbos technologijų sprendimai, kaip pasaulyje gerai žinomas „Grammarly“, mažiau paplitusios kalbos (tarp jų – ir lietuvių) skaitmeninėje erdvėje sutinkamos vis rečiau. Siekdami spręsti šią problemą, Vytauto Didžiojo universiteto (VDU) mokslininkai įgyvendino „Semantikos“ projektus, o ATEA Programavimo sprendimų grupės komanda tapo šių informacinių sistemų kūrimo partneriais.  

Proveržis lietuvių kalbos technologijų srityje

Lietuvių kalbos sintaksinės ir semantinės analizės informacinės sistemos pradėtos kurti dar 2014-aisiais, įgyvendinant pirmąją valstybinę lietuvių kalbos technologijų programą. Pirmiausia, VDU mokslininkai, kartu su kolegomis iš Kauno technologijos universiteto (KTU) bei partneriais sukūrė „Semantika-1“ sistemą. Tęsdami sėkmingai pradėtus darbus, kalbos technologijų mokslininkai šią sistemą tobulino ir pristatė šiandien Lietuvoje plačiai naudojamą „Semantika-2“ informacinę sistemą.

„„Semantika-2“ vartotojams teikia modernizuotas kalbos technologijų paslaugas: lietuviškų garso įrašų transkribavimą (užrašymą tekstu), automatinį rašybos klaidų taisymą, automatinę socialinės žiniasklaidos tekstuose išreikštos nuomonės analizę, taip pat automatinį neapykantos (įžeidžios) kalbos atpažintuvą, automatinį ilgų dokumentų santraukų sudarymą. Sistemoje taip pat galima atlikti lingvistinę ir statistinę  tekstų analizę“, – apie sistemos funkcijas pasakoja vienas jos kūrėjų, VDU Informatikos fakulteto docentas dr. Darius Amilevičius.

Kalbėdamas apie sistemos teikiamas naudas, dr. D. Amilevičius akcentuoja laiką ir resursus, kuriuos vartotojams leidžia sutaupyti kalbos technologijos.

„Mūsų sukurti sprendimai įmonėms, organizacijoms ir fiziniams asmenims leidžia efektyvinti savo darbą. Pavyzdžiui, 1 valandos trukmės interviu garso įrašo perrašymas rankiniu būdu užtrunka beveik 3 valandas. Mūsų sukurtas transkribatorius tai atlieka per 15 minučių, pateikdamas geros kokybės tekstą, tad žmogui telieka jį tik šiek tiek paredaguoti ir rengti straipsnį ar, pavyzdžiui, posėdžio protokolą“, – sako VDU docentas.

ATEA Programavimo sprendimų padalinio vadovas dr. Ernestas Vyšniauskas pripažįsta, kad „Semantika-2“ – kone sudėtingiausias ir inovatyviausias komandos įgyvendintas projektas. Ši sistema išsiskiria pažangia architektūra ir buvo programuojama naudojantis tuo metu naujausiomis technologijomis.

„Pagrindinis ir svarbiausias projekto iššūkis – sukurti „cloud ready“ sistemą. Ją kūrėme su .NET Core, panaudodami „Kubernetes“ klasterį. Tokios technologijos naudojamos visame pasaulyje, tačiau tuo metu, kai kūrėme sistemą, „Semantika-2“ buvo pirmoji Lietuvoje valstybinė informacinė sistema, kuriai sukurti buvo pasitelkti tokie pažangūs sprendimai“, – atskleidžia dr. E. Vyšniauskas.

Sistema – ne mažiau kokybiška nei analogiški komerciniai projektai

Dr. D. Amilevičius pripažįsta, kad Lietuvoje kurti kokybiškus kalbos technologijų sprendimus išties sudėtinga. Tai lemia patyrusių specialistų trūkumas, didelių investicijų poreikis ir aibė kitų, su kalbos ištekliais susijusių veiksnių. Tačiau „Semantikos“ sistemas kūrusiai tarpdisciplininei komandai, kurią sudarė aukščiausio lygio IT specialistai, kalbininkai, kalbos technologijų specialistai ir teisininkai ne tik pavyko įveikti šiuos iššūkius, bet ir sukurti kokybe analogiškiems komerciniams sprendimams nenusileidžiančią, o kai kur juos net pralenkiančią, sistemą.

„Siekėme, kad sistema būtų „cloud ready“, tačiau šioje vietoje mums tikrai trūko žinių ir patirties. ATEA Programavimo sprendimų grupės kolegos padarė fantastišką darbą ir drąsiai drįsčiau teigti, kad „Semantika-2“ tapo viena pažangiausių „cloud ready“ informacinių sistemų Lietuvoje“, – teigia dr. D. Amilevičius.

Mokslininkas priduria, kad dar vienas ne mažiau svarbus iššūkis, su kuriuo teko susidurti kuriant kalbos technologijų projektus – kalbos duomenų išteklių (tekstynų) kaupimas.

„Rengiant neapykantos (įžeidžios) kalbos socialinėje žiniasklaidoje analizatorių, turėjome sukaupti didelį tekstyną, kuriame atsispindėtų visas „spalvingas“ socialinių medijų vartotojų žodynas (keiksmažodžiai, žargonas ir t.t), kurio pagrindu parengėme specialųjį įterptinių vektorių kalbos modelį. Jo dėka mašina pradėjo „suprasti“ vulgarybes ir pati atsekti jų sinoniminius ryšius, tokiu būdu identifikuodama įžeidžios kalbos apraiškas tekste“, – pasakoja VDU docentas.

Kūrė lietuviškąjį „Google“

Kalbėdamas apie technologinius informacinės sistemos niuansus, dr. E. Vyšniauskas pasakoja, kad „Semantika-2“ sudaro daug nepriklausomai veikiančių programų, atliekančių tam tikras, joms numatytas funkcijas. Šios programos, kitaip sakant komponentai, buvo įdiegti skirtinguose „Kubernetes“ valdomuose serveriuose, kurie veikė viename galingame klasteryje. Toks technologinis sprendimas sistemai suteikia lankstumo – pritrūkus našumo, tam tikro virtualaus serverio parametrus galima paprasčiausiai padidinti.

Be sudėtingų technologinių sprendimų taikymo ATEA Programavimo sprendimų grupės specialistų laukė ne mažiau svarbus iššūkis – ištobulinti savo lietuvių kalbos žinias.

„Tam, kad galėtume įgyvendinti projektą, turėjome tapti kone lietuvių kalbos mokslininkais. Kurdami „Semantika-1“ sistemą gilinome žinias apie tai, kas yra morfologija, semantika, sintaksė, todėl antrą kartą buvo kiek lengviau. Darbas ATEA išsiskiria tuo, kad kiekvieną sritį, kurioje vykdome projektą, turime išmanyti taip gerai, kaip joje ne vienerius metus praleidę darbuotojai. O kartais net geriau, nes turime suprasti visus įstaigos specialistus, kurie naudosis būsima sistema: ką jie daro ir kokias funkcijas atlieka. Tai ypatingai svarbu sistemų analitiko ir projektų vadovo darbe“, – teigia ATEA Programavimo sprendimų padalinio vadovas dr. E. Vyšniauskas.

Dar vienas projekto išskirtinumas – glaudus įstaigų ir įmonių, kurios buvo atsakingos už skirtingų komponentų kūrimą, bendradarbiavimas. Pavyzdžiui, garso įrašų transkribavimo paslaugą kūrė VDU mokslininkai, kurie tam pasitelkė dirbtinį intelektą – jo mokymas užtruko net keletą mėnesių. ATEA Programavimo sprendimų grupės komanda sistemos kūrimo projektui vadovavo – visų jo dalyvių sukurtus komponentus jungė į bendrą, sklandžiai veikiančią grandinę.

„Tai, ką mato vartotojai, yra ledkalnio viršūnė. Sistemos viduje nuolat vyksta nagrinėjimai ir skaičiavimai, o dirbtinis intelektas priima sprendimus. Iš tiesų, šis projektas padėjo dar geriau suprasti, kokį sudėtingą darbą atlieka „Google“. Kurdami „Semantikos“ informacines sistemas darėme tai, kas pasaulyje jau yra, tačiau lietuvių kalbai tokie sprendimai niekada anksčiau nebuvo taikyti. Kartais sakau, kad mes kūrėme lietuviškąjį „Google“, – teigia dr. E. Vyšniauskas.

Išmėginti ATEA Programavimo sprendimų grupės kartu su partneriais sukurtą informacinę sistemą galite: https://semantika.lt/