Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Sanna er Zohran Mamdani Reykjavíkur Alfreð Sturla Böðvarsson Skoðun Halldór 02.05.2026 Halldór Tekjutengjum frístundastyrkinn Sandra Hlín Guðmundsdóttir, Þorvaldur Davíð Kristjánsson Skoðun Eru hagsmunir Vestmannaeyja einskins virði? Daði Pálsson Skoðun Hvar á láglaunafólk að búa í Reykjavík? Ari Edwald Skoðun Eldri borgarar í Hveragerði eiga meira skilið Ingibjörg Sigmundsdóttir ,Þorsteinn Hjartarson Skoðun Alþjóðadagur hryggbólgusjúkdóma: Ekki bara bakverkir Jóhann Pétur Guðvarðarson Skoðun Loftslagsmál snúast um jöfnuð og lífsgæði Skúli Helgason Skoðun Ef við stöndum upp er leikurinn búinn! Geirdís Hanna Kristjánsdóttir Skoðun Við klippum ekki borða! Davíð Már Sigurðsson Skoðun Skoðun Skoðun Að lifa, þrátt fyrir brotna odda Sigurður Árni Reynisson skrifar Skoðun Hvar á láglaunafólk að búa í Reykjavík? Ari Edwald skrifar Skoðun Við klippum ekki borða! Davíð Már Sigurðsson skrifar Skoðun Eldri borgarar í Hveragerði eiga meira skilið Ingibjörg Sigmundsdóttir ,Þorsteinn Hjartarson skrifar Skoðun Tekjutengjum frístundastyrkinn Sandra Hlín Guðmundsdóttir, Þorvaldur Davíð Kristjánsson skrifar Skoðun Alþjóðadagur hryggbólgusjúkdóma: Ekki bara bakverkir Jóhann Pétur Guðvarðarson skrifar Skoðun Loftslagsmál snúast um jöfnuð og lífsgæði Skúli Helgason skrifar Skoðun Sanna er Zohran Mamdani Reykjavíkur Alfreð Sturla Böðvarsson skrifar Skoðun Eru hagsmunir Vestmannaeyja einskins virði? Daði Pálsson skrifar Skoðun Langt frá hátekjulistanum Sanna Magdalena Mörtudóttir skrifar Skoðun Hugum að lífsgæðum - höfnum ofurþéttingu skrifar Skoðun Borgin sem hætti að hlusta skrifar Skoðun Virðing, virkni og góð lífsgæði alla ævi Ellý Tómasdóttir,Ólafía Ingólfsdóttir skrifar Skoðun 414 ástæður til að gera betur Anna Sigríður Hafliðadóttir skrifar Skoðun Barátta sem skiptir sköpum Svanfríður Bergvinsdóttir skrifar Skoðun Verkalýðsbarátta okkar daga Jónas Már Torfason skrifar Skoðun 1. maí: Sóknarfæri í jafnrétti eða skref aftur á bak? Kolbrún Halldórsdóttir skrifar Skoðun Styrkur okkar er velferð allra Finnbjörn A. Hermannsson skrifar Skoðun Barnamenning - Mikilvægt samkenndarafl Halldóra Rut Baldursdóttir,Lína Björg Tryggvadóttir skrifar Skoðun Leyfist Íslendingum að stjórna sínum eigin málum? Arnar Þór Jónsson skrifar Skoðun Fjörður fyrir fólk Árni Stefán Guðjónson skrifar Skoðun Óhagkvæmar stórframkvæmdir eru ávísun á efnahagslega afturför Þórarinn Hjaltason,Þorkell Sigurlaugsson skrifar Skoðun Ef við stöndum upp er leikurinn búinn! Geirdís Hanna Kristjánsdóttir skrifar Skoðun Tækifæri á vinnumarkaði Anna Margrét Bjarnadóttir skrifar Skoðun Hugleiðing á 1. maí. Steinar Harðarson skrifar Skoðun Virðum vinnu listafólks Jóna Hlíf Halldórsdóttir skrifar Skoðun Vilja stjórnvöld halda Grímsey í byggð? Ásthildur Sturludóttir skrifar Skoðun Hvers vegna eru vextirnir lágir, Dagur? Hjörtur J. Guðmundsson skrifar Skoðun Sjúkdómsgreining stjórnsýslunnar: Þegar valdafíkn tæmir ríkiskassann Sigurður Sigurðsson skrifar Skoðun Bestum borgina fyrir skynsegið fólk! Olga Margrét Cilia skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Eldri borgarar í Hveragerði eiga meira skilið Ingibjörg Sigmundsdóttir ,Þorsteinn Hjartarson skrifar
Skoðun Tekjutengjum frístundastyrkinn Sandra Hlín Guðmundsdóttir, Þorvaldur Davíð Kristjánsson skrifar
Skoðun Barnamenning - Mikilvægt samkenndarafl Halldóra Rut Baldursdóttir,Lína Björg Tryggvadóttir skrifar
Skoðun Óhagkvæmar stórframkvæmdir eru ávísun á efnahagslega afturför Þórarinn Hjaltason,Þorkell Sigurlaugsson skrifar
Skoðun Sjúkdómsgreining stjórnsýslunnar: Þegar valdafíkn tæmir ríkiskassann Sigurður Sigurðsson skrifar