Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Þúsund milljarða högg á ríkissjóð – svartasta sviðsmyndin á Nýjum Landspítala Sigurður Sigurðsson Skoðun Af hverju fjölgar öryrkjum? Svarið er ekki það sem þú heldur Sisa Berglind Kristjánsdóttir Skoðun Um rektor tala ég ekki Óttar Kolbeinsson Proppé Skoðun Sykursýki 2 orðin að heimsfaraldri Anna Lind Fells Skoðun Þegar Bítlakynslóðin verður gömul Gunnar Salvarsson Skoðun Íslenskt rafmagn á alþjóðlegum markaði Tinna Traustadóttir Skoðun Þar sem er reykur, þar er eldur Helgi Áss Grétarsson Skoðun Með sniglaslím í andlitinu Karl Pétur Jónsson Skoðun Sterkara Austurland – saman, ekki sitt í hvoru lagi Erlendur Magnús Jóhannsson Skoðun Hvað á unga fólkið að kjósa? Daníel Þröstur Pálsson Skoðun Skoðun Skoðun Hvað á unga fólkið að kjósa? Daníel Þröstur Pálsson skrifar Skoðun Með sniglaslím í andlitinu Karl Pétur Jónsson skrifar Skoðun Þegar Bítlakynslóðin verður gömul Gunnar Salvarsson skrifar Skoðun Hagkvæmt húsnæði á hagkvæmum kjörum Jónas Yngvi Ásgrímsson skrifar Skoðun Úkraína - 24. febrúar 1956 og 2022 Erlingur Hansson skrifar Skoðun Aðgerðir gegn ofbeldi meðal barna Eygló Harðardóttir skrifar Skoðun Þar sem er reykur, þar er eldur Helgi Áss Grétarsson skrifar Skoðun Sterkara Austurland – saman, ekki sitt í hvoru lagi Erlendur Magnús Jóhannsson skrifar Skoðun Latína er list mæt Arnar Freyr Sigurðsson skrifar Skoðun Af hverju fjölgar öryrkjum? Svarið er ekki það sem þú heldur Sisa Berglind Kristjánsdóttir skrifar Skoðun Sykursýki 2 orðin að heimsfaraldri Anna Lind Fells skrifar Skoðun Sannleikur óskast! Ágústa Árnadóttir skrifar Skoðun Mun vinnumarkaðurinn ná að halda í við gervigreindina? Kristinn Bjarnason skrifar Skoðun Neyðarástand í málefnum aldraðra – hvar er forgangsröðunin? Baldvin Björgvinsson skrifar Skoðun Um rektor tala ég ekki Óttar Kolbeinsson Proppé skrifar Skoðun Þýska stjórnarskráin krefst loftslagsaðgerða af stjórnvöldum Eyþór Eðvarðsson skrifar Skoðun Íslenskt rafmagn á alþjóðlegum markaði Tinna Traustadóttir skrifar Skoðun Þúsund milljarða högg á ríkissjóð – svartasta sviðsmyndin á Nýjum Landspítala Sigurður Sigurðsson skrifar Skoðun Flugfarþegar í hrakningum Hafsteinn Karlsson skrifar Skoðun Íslenskt rafmagn á alþjóðlegum markaði Tinna Traustadóttir skrifar Skoðun Er uppruni orðinn að saknæmi? Jasmina Vajzović Crnac skrifar Skoðun Framúrskarandi skóli án hugsunar? Perla Hafþórsdóttir skrifar Skoðun Samfélag ótta eða hugrekkis Sigurður Árni Reynisson skrifar Skoðun Síðustu vígi vísdómsins Sigurður Ingvarsson skrifar Skoðun „Leigupennar“ eða einfaldlega fólk sem vill ræða málið? Daði Freyr Ólafsson skrifar Skoðun Beljan og Bertolli Árni Stefán Árnason skrifar Skoðun Er gott að búa í Kópavogi? Sigurður Kári Harðarson skrifar Skoðun Þunginn af áherslu heilbrigðisyfirvalda á líkamsþyngd Berglind Soffía Blöndal,Vilborg Kolbrún Vilmundardóttir skrifar Skoðun Gagnrýnda kynslóðin og glötuðu kennararnir Álfhildur Leifsdóttir skrifar Skoðun Hrós er ekki bara fyrir byrjendur Ingrid Kuhlman skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Þúsund milljarða högg á ríkissjóð – svartasta sviðsmyndin á Nýjum Landspítala Sigurður Sigurðsson Skoðun
Skoðun Af hverju fjölgar öryrkjum? Svarið er ekki það sem þú heldur Sisa Berglind Kristjánsdóttir skrifar
Skoðun Þúsund milljarða högg á ríkissjóð – svartasta sviðsmyndin á Nýjum Landspítala Sigurður Sigurðsson skrifar
Skoðun Þunginn af áherslu heilbrigðisyfirvalda á líkamsþyngd Berglind Soffía Blöndal,Vilborg Kolbrún Vilmundardóttir skrifar
Þúsund milljarða högg á ríkissjóð – svartasta sviðsmyndin á Nýjum Landspítala Sigurður Sigurðsson Skoðun