Latviešu valoda attīstās līdzi laikam un digitalizējas – aktīvi norit darbs arī pie mākslīgā intelekta. Cik svarīgi ir lietot "Google" latviski? Kā veidojas automatizētie latviešu valodas procesi? Un kāpēc tas ir būtiski? Raidierakstā "Valis" Eva Johansone par to runā ar uzņēmuma "Tilde" biznesa attīstības vadītāju, mākslīgā intelekta tehnoloģiju entuziastu Kasparu Kauliņu.
PIETURAS PUNKTI:
- Rūpēties par valodu ikdienā īpaši svarīgi ir nelielām nācijām.
- Latviešu valodā runājošo cilvēku skaits nepārsniedz divus miljonus.
- Runas sintēzes tehnoloģiju veido īpaši dziļās mašīnmācīšanās procesā tapuši, neirontīklu tehnoloģijās veidoti algoritmi.
- Mākslīgais intelekts un tā valodas prasmes jāņem vērā arī krāpniecības kontekstā.
- Latviešu valoda ir viena no Eiropas morfoloģiski daudzveidīgākajām valodām – tas uzliek īpašu slodzi arī tehnoloģiju veidotājiem, jo strādāt ar sarežģītu valodu ir grūtāk.
- Būtiskās tehnoloģijas latviešu valodai šobrīd ir pieejamas, tapšanas procesā – lielie valodas modeļi.
- Jaunās tehnoloģijas varētu palīdzēt mākslīgajam intelektam runāt arvien dabīgāk.
- Latvija ir Eiropas līdere valodas tehnoloģiju izmantošanā publiskajā telpā.
- Valoda ir daļa no mūsu katra individuālā tēla.
- Nedēļas vārds – uzvedne.
Ienāc "LSMnīcā"!
Raidieraksta "LSMnīca" ciklā "Valis" žurnāliste Eva Johansone kopā ar zinošiem sarunu biedriem mēģina uzzināt vairāk par mūsu valodu.
"LSMnīca" ir jauna vieta jautājumiem, viedokļiem un sarunām. Raidierakstu iespējams dzirdēt lielākajās straumēšanas vietnēs – "Spotify" un "Apple Podcasts", kā arī portālā LSM.lv.
Eva Johansone: Kaspar, kādēļ tevi interesē latviešu valoda un kādēļ rūp, lai to prastu arī mākslīgais intelekts?
Kaspars Kauliņš: Manuprāt, valoda ir daļa no ikviena cilvēka identitātes, tā ir daļa no mūsu kultūras. Valoda ir veids, kā mēs saņemam un nododam tālāk mums svarīgos vēstījumus, mūsu pieredzi. Valoda ir līdzeklis, kas ļauj mums sazināties, veidot un pārtraukt attiecības. Taču valodas diemžēl mēdz arī iznīkt, tāpēc rūpēties par valodu ikdienā īpaši būtiski ir nelielām nācijām, nelielām valodu lietotāju kopienām. Un, lai mūsdienu pasaulē valoda varētu pastāvēt, ir nepieciešams rūpēties arī par to, lai valodai būtu digitālie rīki, lai būtu tehnoloģijas – kur notiek daļa no mūsu saziņas –, kurās šī valoda dzīvo. Tāpēc latviešu valoda man īpaši rūp.
Pats esmu somugru valodnieks, jau kopš jaunības mana darbošanās ir bijusi saistīta ar valodu kopumā – esmu strādājis kā redaktors laikrakstā, darbojies televīzijā. Valoda ir veids, kā vēstījumu nodot sabiedrībai, auditorijai. Tā ir tāda kā kaislība un savā ziņā pat cīņa, ņemot vērā to, cik ļoti – it īpaši tehnoloģiju, mārketinga, tirgzinības pasaulē – latviešu valodas lietojums sāk padoties dažādu anglicismu ienākšanai. Kādreiz drauds bija rusicismi, šobrīd tie ir anglicismi. Valoda ir dzīva, valodai ir jāļauj attīstīties un tai skaitā arī uzņemt šos svešvārdus dabīgā procesā, bet, lai mēs valodu bagātinātu, ir jācenšas pēc iespējas iedzīvināt arī jaunus latviešu vārdus. Savā ziņā tā ir kaisle un cīņa, bet vienlaikus arī prieks.
Ja cilvēkam ir laba valoda, tad manās acīs šī cilvēka vērtība noteikti pieaug.
Runājot par tehnoloģijām – vai ir svarīgi gūglēt latviešu valodā?
Jāsaprot, ka viedās tehnoloģijas un tas, ko mēs saucam par mākslīgo intelektu, tiek veidots, izmantojot cilvēka radītus datus, tai skaitā gan rakstītās, gan runātās valodas datus. Latviešu valodā šo datu ir ļoti maz, jo lietotāju un runātāju skaits ir mazs. Latviešu valodā runājošo cilvēku skaits nepārsniedz divus miljonus, pat ja mēs pieskaitām arī visus japāņus, kas ir apguvuši latviešu valodu, intereses vadīti. Un, lai radītu tādu jēgpilnu datu apjomu, mums šie dati ir jāveido, proti, jāsazinās, jārunā ar virtuālajiem asistentiem, jāveic vaicājumi lielajiem valodas modeļiem. Cilvēkiem jāsaprot, ka tas, ko jūs pavaicājat, nekur nepazūd, tas paliek – un mēs redzam, ka lielie valodas modeļi, piemēram, "ChatGPT", ar katru nākamo versiju kļūst arvien labāki arī latviešu valodas lietojumā. Tas notiek, pateicoties tam, ka cilvēki izmanto tos un veido datus. Arī tā ir daļa no mūsu atbildības un rūpēm par valodu.
Kā veidojas automatizētie latviešu valodas procesi? Piemēram, kā tehnoloģijas ierunā filmas vai atdarina latviešu balsis?
Tās ir dažādas valodas tehnoloģijas. Piemēram, viena no tehnoloģijām, kas šobrīd tiek ļoti plaši lietota, ir runas atpazīšanas tehnoloģija – tā pārvērš runātu saturu tekstā, teiksim, veidojot subtitrus. Un ir arī pretēja tehnoloģija, kas spēj tekstu izrunāt kāda cilvēka balsī – tā ir balss vai runas sintēzes tehnoloģija. Tie ir īpaši dziļās mašīnmācīšanās procesā tapuši, neirontīklu tehnoloģijās veidoti algoritmi, kuri spēj atdarināt attiecīgā cilvēka balsi. Piemēram, [dzejnieka Imanta] Ziedoņa balss, ko mēs kopā ar fondu "Viegli", Ziedoņa muzeju un Ziedoņa mantiniekiem izveidojām dzejnieka 90. jubilejas gadā. Stāsts ir ļoti interesants. Imants Ziedonis sapņoja kļūt par dārznieku un vairākkārt mēģināja iestāties Bulduru sovhoztehnikumā, bet tas viņam neizdevās. Tad nu mēs nolēmām, ka pēc aiziešanas ļausim dzejniekam mācīties Bulduros, apgūt dārzkopību. Un tā nu tagad Murjāņos, Ziedoņa muzejā, ir iespēja atveidotā Ziedoņa balsī klausīties Ziedoņa stāstus par dažādiem augiem un kokiem.
Esot ārzemēs, latviešu valoda šķiet gandrīz kā slepenā koda valoda. Arī saņemot starptautisku krāpnieku ziņas e-pastā vai sociālajos tīklos, līdz šim valodas kļūdu dēļ ļoti viegli bija atšifrēt, ka tie ir tulkojumi, piemēram, pēc nepareizām vārdu galotnēm. Cik droši varam būt šodien? Vai krāpnieki apguvuši latviešu valodas tehnoloģijas? Vaicāju kiberdrošības entuziastam Elvisam Strazdiņam.
Elviss Strazdiņš: Mākslīgā intelekta tehnoloģija šobrīd attīstās ļoti strauji. Vieniem krāpniekiem varbūt ir pieejamas vecākas, ne tik modernas tehnoloģijas, otriem varbūt ir tik modernas, ka vispār nevar atšķirt no īstenības, bet tas nav pareizais virziens, kurā domāt par drošību. Cilvēkiem vienmēr būtu jāuzskata, ka viltojumu no īstā nevarēs atpazīt, jābūt kritiskiem un jāuzmanās ar informāciju, ar kuru viņi dalās internetā. Es bieži esmu runājis par mākslīgā intelekta radītajiem draudiem mūsu drošībai, bet tam nevajadzētu būt par iemeslu, lai mēs apstādinātu mākslīgā intelekta attīstību. Mākslīgo intelektu var izmantot arī daudz dažādiem labiem mērķiem. Es varu minēt dažādus piemērus no savas pieredzes. Viens varētu būt teātra izrāde "Artūrs Skrastiņš nedrīkst būt noguris". Kādu dienu ar mani sazinājās Jānis Šipkēvics un teica, ka grib sagādāt pārsteigumu Artūram Skrastiņam. Mēs ierakstījām Skrastiņa balsi, apmācījām mākslīgo intelektu, un pēc tam Jānis Šipkēvics ierakstīja dziesmas viņa balsī. Visas dziesmas izrādei iedziedāja Šipkēvics, bet mēs tās pārveidojām tā, lai izklausītos, ka tās dzied Skrastiņš. Un neviens cilvēks auditorijā pat nepateica, ka tās ir mākslīgā intelekts ģenerētas. Arī pašam Artūram tas bija liels pārsteigums. Bet kopumā, manuprāt, par mākslīgā intelekta bīstamību mums ir jārunā. Cilvēkiem ir jāsaprot fakts, ka jebkas, kas notiek digitālajā vidē, var nebūt īsts.
Eva Johansone: Kaspar, Tu strādā valodu tehnoloģiju uzņēmumā. Varbūt ir kādi secinājumi, ar ko latviešu valoda ir īpaša? Vai ir kas specifisks, interesants? Varbūt kādi dati, kas parāda ko īpatnēju?
Kaspars Kauliņš: Latviešu valoda ir viena no Eiropas morfoloģiski daudzveidīgākajām valodām. Tā ir fleksīva valoda, kurā ir dzimtes, skaitļi un locījumi, kas padara to morfoloģiski ļoti bagātu. Latviešu valodā ir vairāk nekā 22 miljoni dažādu vārdformu.
Nav tā, ka mēs esam paši bagātākie; igauņi, somi un ungāri, iespējams, ir vēl bagātāki – tieši daudzveidības ziņā –, bet tas neapšaubāmi uzliek īpašu slodzi arī tehnoloģiju veidotājiem, jo strādāt ar sarežģītu valodu ir grūtāk.
Tāpēc nereti ir tā, ka kaut kas, kas ir pieejams angļu, vācu, franču, spāņu, iespējams, mandarīnu valodā, nav pieejams šo nelielo kopienu valodās – tīri tā iemesla dēļ, ka tehnoloģijas nav viegli pielāgojamas. Angļu valodā, teiksim, lietvārdiem nav dzimtes vai locījumu (ir daži izņēmumi), un tajā ir apmēram pusmiljons vārdformu – salīdzinājumam. Tā ir milzīga atšķirība. Latviešu valoda ir ļoti, ļoti interesanta valoda. Tāpat ir interesanti salīdzināt – ar ko latviešu valoda atšķiras no lietuviešu valodas. Man ir bijusi iespēja mācīties lietuviešu valodu, kas savā ziņā vairāk ir saglabājusi savu agrīno formu. Tur ir daudz vairāk tādu vārdu, ko mēs vairs nelietojam, bet kas latviešu valodā ir bijuši savulaik.
Runājot par latviešu valodas digitalizāciju – kas varētu būt nākamās desmitgades vai divdesmitgades izaicinājums? Cik tālu mēs esam šobrīd? Vai mums veicas labi?
Būtiskās tehnoloģijas latviešu valodai šobrīd ir pieejamas. Tapšanas procesā vēl ir lielie valodas modeļi tieši latviešu valodai – tas drīzāk ir divu, trīs, varbūt piecu gadu jautājums. Un, protams, šo modeļu lietojums vēl līdz galam nav skaidrs. Tas gan nav stāsts tikai par latviešu valodu. Taču šo nākotni mēs piedzīvosim. Tie, visticamāk, būs atvasinājumi no risinājumiem un modeļiem, kas ir pieejami jau šobrīd, vēl būs lietojumi šaurākās jomās... Cilvēka un ierīces saziņa, kur ierīce palīdz cilvēkam un mēs varam ar to cilvēku valodā sazināties, lai šo atbalstu gūtu, droši vien vēl attīstīsies līdz kaut kādam noteiktam līmenim. Smejoties saku, ka mums būs iespēja sarunāties ar gludekli, putekļusūcēju vai ledusskapi arī latviski. Tas ir viens virziens – dažādu šo palīgrīku, sistēmu, ierīču izmantošana un balss saziņa.
Tam līdzās – es domāju, ka milzīgu lēcienu visas šīs tehnoloģijas piedzīvos brīdī, kad mēs patiešām varēsim izmantot kvantu datorus.
Mēs arī "Tildē" strādājam vairākos uz nākotni vērstos projektos, kur pētām iespējamo teorētisko kvantu datoru lietojumu tieši valodas tehnoloģiju kontekstā. Tas daudzas lietas strauji uzlabos.
Kā? Vai vari nosaukt kādu futūristisku fantāziju?
Piemēram, es domāju, ka mēs varēsim katrs runāt savā valodā un ar kādu nelielu ierīci ausī – vai kā savādāk – vienkārši dzirdēt otru reālā laikā savā sev saprotamā veidā. Cits piemērs – mēs veidojam tādu jaunu tehnoloģiju kā telefonijas botus. Viņi palīdzētu klientu atbalstā, lai vairs nebūtu šī "visi operatori ir aizņemti" problēma. Šobrīd notiek pirmie soļi tajā virzienā. Jāsaprot, ka tur ir iesaistītas ļoti daudz tehnoloģijas, sākot ar to, ka ir šī sintezētā balss, kura mums atbild; otra tehnoloģija ir runas atpazīšana, kas saprot, ko tai sakām mēs; un tad ir tā gudrība sameklēt īstās atbildes. Pagaidām šīs sarunas vēl ir tādas mazliet nedabīgas, jo tehnoloģiju aizture pat tad, ja tās ir dažas milisekundes, nenodrošina dabīgu plūdumu. Ja šīs tehnoloģijas strādātu ar daudz jaudīgākiem algoritmiem, plūdums būtu tāds kā dzīvā sarunā. Proti, ja tehnoloģija jau no pirmajiem vārdiem vai pusteikuma saprastu, kas sekos, un sāktu meklēt atbildi, pirms mēs esam pabeiguši teikumu. Tas ir viens virziens, kur es noteikti redzu to, kā šīs jaunās tehnoloģijas varētu palīdzēt. Varbūt tur pat nevajadzēs kvantu datorus, varētu būt, ka mēs vēl tuvākajā laikā piedzīvosim to, ka šie lielie valodas modeļi spēs to apstrādāt pietiekami ātri.
Kas notiktu, ja mēs nedigitalizētu latviešu valodu?
Es baidos, ka tā izzustu agrāk vai vēlāk – un drīzāk agrāk nekā vēlāk. Ja mēs skatāmies tīri proporcionāli uz to, cik daudz mēs veidojam saziņu fiziskā vidē un cik daudz mēs saziņā izmantojam tīmekli vai digitālo vidi, tad baidos, ka tā otrā ir daudz intensīvāka un apjomīgāka. Ja mums pazustu vai mazinātos iespējas lietot to otro, tad nenovēršami mēs tur sāktu izmantot citu valodu. Tālāk vai nu nepieciešamība pēc latviešu valodas vienkārši izzustu – un to jau var vērot, klausoties mūsu bērnu valodā...
Bērni uzaug, izmantojot sociālās saziņas vietnes angļu valodā, kur viss saturs ir angliski, – protams, ka viņu latviešu valoda ir visai nabadzīga. Un tad ir jautājums – kā parūpēties par to, lai viņiem tomēr būtu iespēja izmantot digitālo saturu arī latviešu valodā?
Viņi nenovēršami dzīvo šajā vidē, tas ir veids, kā jaunā paaudze sazinās. Un, ja digitālajā vidē nebūs rīku un risinājumu, tad viņiem nebūs iespēju smelties latviešu valodu.
Kas tevi paši satrauc un kas iepriecina, redzot latviešu valodas attīstību?
Latvija ir Eiropas līdere valodas tehnoloģiju izmantošanā publiskajā telpā. Kad pirms vairākiem gadiem Latvijā tika ieviesta nacionālā valodas tehnoloģiju platforma "Hugo", mēs bijām pirmā vieta pasaulē, kur publiskam lietojumam tika nodotas vairākas valodas tehnoloģijas "vienvietas". Vēl viens plašs lietojums ir virtuāli asistenti valsts pārvaldē. Vairāk nekā simts dažādu valsts pārvaldes un pašvaldību institūciju Latvijā izmanto virtuālus asistentu saziņā ar ar iedzīvotājiem. Šajā ziņā mēs esam priekšā Somijai un Igaunijai – igauņi joprojām nav spējuši ieviest savu virtuālu asistentu programmu. Somijā ir programma "Auror", bet mēs esam daudz tālāk par viņiem. Un daļa no "Auror" ir "Tildes" veidotās mašīntulkošanas sistēmas, ko lieto gan Somijas valdība, gan Somijas parlaments. Tādā ziņā mēs palīdzam Eiropai. Un tā ir "Tildes" misija – rūpēties par nelielo valodu kopienām, ne tikai latviešu valodu, bet arī igauņu, lietuviešu, somu, arī poļu valodu.
Kā, tavuprāt, valoda bagātina cilvēku? Minēji, ka tev ir labs viedoklis par cilvēkiem, kuriem ir laba latviešu valoda. Kāpēc?
Pirmkārt, valoda ir arī daļa no mūsu katra individuālā tēla. Tas ir veids, kā mēs sevi pasniedzam, un tas nosaka arī to, kā cilvēki mūs uztver.
Lai tava valoda būtu izkopta, par to ir jārūpējas. Līdzīgi kā jāiet uz sporta zāli vai jāskrien pa mežu, lai tavs ķermenis būtu labā stāvoklī, arī valoda ir jākopj.
Un cilvēku spēja kopt valodu, gatavība tam veltīt laiku un piepūli, manuprāt, ir augsti vērtējama, ņemot vērā to, cik liela, kā es sākumā teicu, ir valodas nozīme mūsu ne tikai personīgās identitātes, bet arī mūsu nācijas identitātes kontekstā.
Ja tev būtu jāizvēlas nedēļas vārds, kāds tas būtu?
Manuprāt, labs vārds ir "uzvedne", angliski "promt". Tad, kad mēs vaicājam kaut ko kādam no lielajiem valodas modeļiem un formulējam šo vaicājumu, tad mēs rakstām uzvedni.
Paldies, Kaspar!
Raidieraksta "LSMnīca" cikls "Valis" tapis sadarbībā ar valodu tehnoloģiju uzņēmumu "Tilde".
Raidierakstu "LSMnīca" ir iespējams dzirdēt lielākajās straumēšanas vietnēs – "Spotify" un "Apple Podcasts", kā arī portālā LSM.lv. To veido sabiedrisko mediju portāla LSM.lv redakcija.