Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Þegar sölumaður áfengis fræðir okkur um lýðheilsu Lára G. Sigurðardóttir Skoðun Þegar enginn lætur vita - ofbeiting laga og kerfisblinda Lára Herborg Ólafsdóttir Skoðun Næsti formaður elsta stjórnmálaflokks Íslands – Framsóknarflokksins Þorvaldur Daníelsson Skoðun Næsti formaður Framsóknar Salvör Sól Jóhannsdóttir Skoðun Sveitarstjórnarkosningar 2026 – hvað gera Vinir Kópavogs? Ólafur Björnsson Skoðun Takk fyrir traustið! Hörður Arnarson Skoðun Má bjóða þér meiri forræðishyggju, Lára? Elías Blöndal Guðjónsson Skoðun Bréf til Láru Elías Blöndal Guðjónsson Skoðun Karlmenn sem ógna landi og þjóð Steinunn Ólína Þorsteinsdóttir Skoðun Er gervigreind verkfæri kommúnistans eða kapítalistans? Ásgeir Jónsson Skoðun Skoðun Skoðun Stöðluð meðalmennska og einkunnir án aðgreiningar Hlédís Maren Guðmundsdóttir skrifar Skoðun Sveitarstjórnarkosningar 2026 – hvað gera Vinir Kópavogs? Ólafur Björnsson skrifar Skoðun Bréf til Láru Elías Blöndal Guðjónsson skrifar Skoðun Heilbrigðiskerfi sem treystir á seiglu Sandra B. Franks skrifar Skoðun Er gervigreind verkfæri kommúnistans eða kapítalistans? Ásgeir Jónsson skrifar Skoðun Takk fyrir traustið! Hörður Arnarson skrifar Skoðun Laxeldisumræðan er lýðræðisumræða Gylfi Ólafsson skrifar Skoðun Endurvekjum hvata til fjárfestinga Hildur Eiríksdóttir skrifar Skoðun Næsti formaður elsta stjórnmálaflokks Íslands – Framsóknarflokksins Þorvaldur Daníelsson skrifar Skoðun Flott framtak Reykjavíkurráðs ungmenna Helgi Áss Grétarsson skrifar Skoðun Næsti formaður Framsóknar Salvör Sól Jóhannsdóttir skrifar Skoðun Er smá Insta á skólatíma best? Ása Lind Finnbogadóttir skrifar Skoðun Þegar sölumaður áfengis fræðir okkur um lýðheilsu Lára G. Sigurðardóttir skrifar Skoðun Borgarlínuþrengingar Elías B. Elíasson,Ragnar Árnason,Þórarinn Hjaltason skrifar Skoðun Lagareldi til framtíðar – ábyrgur rammi fyrir atvinnulíf, umhverfi og samfélög Gerđur B. Sveinsdóttir,Sigríđur Júlía Brynleifsdóttir,Bragi Þór Thorodssen,Þorgeir Pálsson,Jóna Árný Þórđardóttir,Dagmar Ýr Stefánsdóttir,Jón Páll Hreinsson skrifar Skoðun Norska konungdæmið Ingibjörg Kristín Jónsdóttir skrifar Skoðun Vangaveltur um „fólkið sem hvarf“ Skírnir Garðarsson skrifar Skoðun Karlmenn sem ógna landi og þjóð Steinunn Ólína Þorsteinsdóttir skrifar Skoðun Að verða læs fyrir lífið Rúnar Sigþórsson skrifar Skoðun Grunnþjónusta fyrst og svo allt hitt……er flotgufa forgangsmál? Katrín Magnúsdóttir skrifar Skoðun Jafnrétti er ekki „aukaverkefni“ Arnar Gíslason,Joanna Marcinkowska,Sveinn Guðmundsson skrifar Skoðun Samgöngur þurfa jafnvægi, ekki skotgrafir Þórir Garðarsson skrifar Skoðun U-beygja í öldrunarþjónustu er ekki lausn Björn Bjarki Þorsteinsson skrifar Skoðun Hvenær er komið nóg? Vilhelm Jónsson skrifar Skoðun Evrópusambandið og öryggi Íslendinga Haraldur Ólafsson skrifar Skoðun Reykjanesundrið Gunnar Salvarsson skrifar Skoðun Einfaldar leiðir til að efla hlutabréfamarkaðinn Gústaf Steingrímsson skrifar Skoðun Erum við komin þangað að fyrirtækin hugsa um börnin okkar? Halldóra Björk Þórarinsdóttir ,Freydís Aðalbjörnsdóttir skrifar Skoðun Viljum við flókið kerfi milliliða eða einfaldari leið að grunnþjónustu? Sanna Magdalena Mörtudóttir skrifar Skoðun Börnunum verður að bjarga Unnur Hrefna Jóhannsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Næsti formaður elsta stjórnmálaflokks Íslands – Framsóknarflokksins Þorvaldur Daníelsson skrifar
Skoðun Lagareldi til framtíðar – ábyrgur rammi fyrir atvinnulíf, umhverfi og samfélög Gerđur B. Sveinsdóttir,Sigríđur Júlía Brynleifsdóttir,Bragi Þór Thorodssen,Þorgeir Pálsson,Jóna Árný Þórđardóttir,Dagmar Ýr Stefánsdóttir,Jón Páll Hreinsson skrifar
Skoðun Jafnrétti er ekki „aukaverkefni“ Arnar Gíslason,Joanna Marcinkowska,Sveinn Guðmundsson skrifar
Skoðun Erum við komin þangað að fyrirtækin hugsa um börnin okkar? Halldóra Björk Þórarinsdóttir ,Freydís Aðalbjörnsdóttir skrifar
Skoðun Viljum við flókið kerfi milliliða eða einfaldari leið að grunnþjónustu? Sanna Magdalena Mörtudóttir skrifar