Radeits muoksleiguo intelekta reiks latgalīšu volūdys runys atpazeišonai i transkribiešonai

Radeits muoksleiguo intelekta reiks latgalīšu volūdys runys atpazeišonai i transkribiešonai

Rokstu sagataveja: Edeite Laime, portals lakuga.lv

Pietnīki nu Latvejis Universitatis Matematikys i informatikys instituta (LU MII) Muoksleiguo intelekta laboratorejis ir apvuicejuši pyrmū muoksleiguo intelekta (MI) modeli latgalīšu volūdys runys atpazeišonai i iz juo bāzis sataisejuši praktiski lītojamu latgalīšu volūdys runys transkribiešonys reiku. Jaunais MI modeļs i reiks ir breivi daīmami kai gola lītuotuojim, tai volūdys tehnologeju rysynuojumu izstruoduotuojim, informej LU Matematikys i informatikys instituta puorstuovi.

“Latgalīšu volūda ir naatjamama Latvejis volūdys i kulturys montuojuma daļa, partū ir svareigi nūdrūsynuot latgalīšu volūdys pylnvierteigu pastuoviešonu i atteisteibu ari digitalajā telpā,” nūruoda LU MII Muoksleiguo intelekta laboratorejis vadeituojs Normunds Grūzītis. “Asam prīceigi, ka kūpā ar partnerim ir īsadevs sataiseit pyrmū praktiski lītojamū MI modeli, kas var saprast i puorraksteit runuotū latgalīšu volūdu. Itaidi rysynuojumi latvīšu volūdai ir daīmami jau vaira nakai desmit godu, pyrma sataiseit MI modeli latgalīšu volūdai, mes pa prīšku sataisejom taidu modeli latvīšu literarajai volūdai, kam jam ir daīmams daudzi vaira datu. Piečuok turpynuojom apvuiceit sataiseitū latvīšu volūdys modeli ar latgalīšu volūdys datim i niu runys tehnologeju nūdrūsynuošona latgalīšu volūdai tyvojās leimiņam, kaids tys ir latvīšu volūdai,” pībiļst N. Grūzītis.

Jaunuo MI modeļa mašynu apvuiceišona latgalīšu runys atpazeišonai tyka pabeigta mieneša laikā, sagatavejūt vairuoku godu laikā dabuotūs volūdys datu paraugus modeļu apvuiceišonai i izmontojūt LU MII muoksleiguo intelekta skaitļuošonys infrastrukturu. Kab dabuotu apvuiceišonai vajadzeigūs datus, nu 2022. gods Vaļsts pietnīceibys programā “Letonika” ir taiseiti runys korpusi latvīšu i latgalīšu volūdai – vysaidi runys datu paraugi ar jūs transkripcejom i lingvistiskū markiejumu, kūpā vairuoku symtu stuņžu lelumā. Jimā ir ari latvīšu i latgalīšu runys paraugi, kas savuokti sabīdryskūs iniciativu “Balsu talka” i “Bolsu tolka” laikā.

Paraugūt praksē jaunū reiku, kas varātu iz prīšku nūderēt ari portala lakuga.lv kasdīnys dorbā seviški pi interveju šifriešonys, sacynojams, ka cikom jis vēļ nav piļneigi precizs, bet tai kai modeļs audio īrokstu transkribiešonā izmontoj teksta paruodeišonu myusu dīnu raksteibys nūsacejumim atbiļstūšā latgalīšu rokstu volūdā, rezultats portala viertejumā ir cīši lobs. Vīns nu testa veidu, puorbaudūt reika spākus, beja grupys “Borowa Mc” jaunuo dzīsme “Mīļoj”, kurys tekstu reiks atšifrēja eistyn labi. Leluokī izaicynuojumi roduos ar dzīsmis repa daļu, kur žanra specifikys deļ – daudzi teksta dreizā tempā – gryušuok dabuot ari teiruoku vuordu izrunuošonu. Bet, drupeit pīprecizejūt napareizi transkribātūs vuordus, dabuotais materials ārtai varātum byut izmontojams dzīsmis teksta video taiseišonā.

Karteņā: grupys “Borowa Mc” dzīsmis “Mīļoj” atšifriejums MI reika izpiļdejumā, ekranuzjāmums

Vīna lela daļa latgalīšu kulturys ziņu portala komandys kasdīnys dorbā ir dzeivūs runuotuoju saceituo transkribiešona – intervejom, komentarim, ziņu informacejai. Da ituo beja vairuoki reiki, kas paleidz intervejis šifrēt latvīšu literarajā volūdā, bet latgaliski tys cīši napaleidzēja, niu jaunais reiks var atvīgluot portala i cytu medeju žurnalistu dorbu ari itaidā veidā. Kab puorsalīcynuotu, voi eistyn tai tys varātu byut, reikam dorbam tyka īdūts telefonintervejis fragments – dzeivuo runa ar vysu jai rakstureigū: na cik loba skaņa, na cik leidzons dūmu ritiejums, kai ari izlūksnis sovpateibys. Rezultats – atšifrāts teksts, bet pi kuruo vēļ vysā daudzi juopīstruodoj, kab dabuotu taida materiala, kas byutu atbiļstūšs portala roksta kvalitatis kriterejim latgalīšu rokstu volūdys aspektā, bet sevkurā gadīnī dabuotais rezultats jau ir cīši lobs pamats tuoļuokai teksta apstruodei, ītaupūt laiku iz piļneigi vysa teksta transkribiešonu eipaši gadīnī, kod vajadzeigs kaids konkrets sarunys fragments, komentars voi saceituo vyspuoreigais saturs. Saīt, ka lela nūzeime atšifriejuma precizitatei ir ari īroksta satura kvalitatei – kū lobuoka skaņa, dikceja, tū lobuoks byus gola teksta variants.

Karteņā: transkribātys telefonintervejis portalam lakuga.lv paraugs, ekranuzjāmums

Apvuiceitais MI modeļs ir daīmams ar attaiseituo pyrmkoda licenci, kū var izmontuot ari komercialom vajadzeibom. LATE platforma, kurā ir jaunais reiks, dūd vysaidys vareibys, kurūs vydā teksta diktiešona, audio i video īrokstu atšifriešona, subtitru taiseišona, kai ari latgalīšu rokstu volūdys vuiceišonuos.

Kab lītuotu izstruoduotū reiku, kas ir daīmams bez kaidys moksys kotram grybātuojam saitē https://ltg.late.ailab.lv/, navajag taiseit nikaida lītuotuoja konta. Taipat juoatguodoj, ka itūšaļt atšifrēt reizē var da 20 minutu garu audio i dorba materials nateik nazkur nūglobuots – jis daīmams tik atteiceiguos dorba sesejis laikā, ka viņ pats lītuotuojs naizalosa saglobuot i kūpeiguot konkretū audio īrokstu i juo atšifriejumu. Dabuotū teksta atšifriejumu var tīpat par reizi lobuot, nūkopēt kai tekstu, kai ari saglobuot titru likšonai iz video dereigā formatā.


Komentari