Natural Language Processing - NLP

Sprog forstået af maskiner: Udfordringer ved NLP i Dansk

2024/02/01 at 8:00 am Mark Sinclair Fleeton2024/02/01

Læsetid 13 minutter

Array

Dette er tredje del af serien ”NLP – Sprog forstået af maskiner”, der ser nærmere på Naturlig Sprogforståelse – NLP – som en af de afgørende forudsætninger for den moderne AI-revolution. Artiklen er skrevet i samarbejde med ChatGPT. Du kan læse anden del her.

NLP på dansk er udfordret af begrænset træningsdata og komplekse grammatiske strukturer som køn og verbale bøjninger.
Specifikke sproglige træk såsom stød, vokallyde og idiomer kræver avancerede algoritmer for korrekt forståelse og anvendelse.
Crowdsourcing og offentlige databaser foreslås som metoder til at udvide de sproglige ressourcer tilgængelige for NLP på dansk.
Fremtidig forskning kan inkludere udvikling af multilinguale modeller og selvovervågende læringsteknikker for at forbedre NLP-teknologiens håndtering af dansk.

Natural Language Processing (NLP) er en gren af kunstig intelligens (AI), der beskæftiger sig med interaktionen mellem computere og menneskeligt sprog. Målet er at få computere til at forstå, fortolke og reagere på menneskeligt sprog på en måde, der er både meningsfuld og nyttig. NLP anvendes i en række teknologier og applikationer, der spænder fra tekstgenkendelse i dokumenter til sprogforståelse i chatbots og digitale assistenter. Den bruges også til sentimentanalyse på sociale medier, automatisk oversættelse mellem sprog og til at trække relevant information fra store datasæt.

Udfordringen ved at anvende NLP på dansk opstår fra flere unikke sprogkarakteristika. Dansk, som et mindre udbredt sprog sammenlignet med engelsk, har begrænsede sprogdata tilgængelige for træning af NLP-modeller. Dette reducerer kvaliteten og præcisionen af NLP-applikationer. Desuden har dansk en kompleks grammatisk struktur med mange undtagelser og specielle regler, herunder kønsbaserede substantiver og et righoldigt sæt af stød og vokallyde, som kan være svære for NLP-systemer at identificere og korrekt anvende. Disse faktorer, sammen med den rige brug af idiomer og faste udtryk, øger kompleksiteten af opgaven for NLP-teknologier og kræver mere avancerede og specialiserede algoritmer til effektivt at håndtere det danske sprog.

Komplekse grammatiske strukturer

Når vi dykker ned i de grammatiske nuancer af det danske sprog, støder vi på flere særtræk, der udgør særlige udfordringer for NLP. Dansk skelner mellem to grammatiske køn: fælleskøn (kommunekøn) og intetkøn. Fælleskøn anvendes for de fleste substantiver og markeres ofte med artiklen ‘en’ (for eksempel ‘en stol’), mens intetkøn markeres med artiklen ‘et’ (for eksempel ‘et bord’). Denne skelnen er ikke altid intuitiv og kan ikke let forudsiges, hvilket betyder at NLP-systemer skal have adgang til omfattende leksikale databaser eller anvende komplekse algoritmer for at bestemme det korrekte køn for hvert substantiv.

Dansk har et system af stærke og svage verber. Stærke verber danner deres forskellige tider gennem vokalændringer (for eksempel ‘at synge’ – ‘sang’ – ‘har sunget’), mens svage verber typisk danner fortid med et tilføjet suffiks (for eksempel ‘at arbejde’ – ‘arbejdede’ – ‘har arbejdet’). Denne variation i verbernes bøjning kan være vanskelig for NLP-systemer at navigere i, især når det kommer til at generere sprog eller forstå sammenhænge i tid.

Dansk bruger også partikler, små ord som kan ændre betydningen af et verbum radikalt (for eksempel ‘at slå op’ i modsætning til ‘at slå’). Partikler kan være udfordrende for NLP, da de ofte kræver kontekstuel forståelse for at fortolke betydningen korrekt.

Eksempler på Udfordringer for NLP

Indenfor maskinoversættelse:

– Køn: Oversættere kan fejle ved at tildele det forkerte køn til substantiver, hvilket fører til grammatisk inkorrekte sætninger.

– Stærke/Svage Verber: Uregelmæssige bøjninger kan resultere i fejl i tidsaspekter eller helt misforståede verbale betydninger.

– Partikler: Uden korrekt forståelse af partiklernes betydning kan oversættelsen miste nuancer eller blive direkte forkert.

Indenfor sentimentanalyse:

– Køn: Fejlagtig kønsbøjning kan forstyrre analyser ved at skabe forvirring om referencer, hvilket kan forvride sentimentet.

– Stærke/Svage Verber: Fejltolkning af tidsaspekter kan lede til misforståelser af hændelsers aktualitet eller sentiment.

– Partikler: Sentimentanalyse kan blive misledende hvis partikler misforstås, da de kan ændre en sætnings sentiment betydeligt.

Indenfor tekstforståelse:

– Køn: Korrekt køn på substantiver er afgørende for præcis anaphora resolution (henvisning tilbage til tidligere nævnte enheder i teksten).

– Stærke/Svage Verber: Misforståelse af verbernes bøjning kan føre til fejl i forståelsen af handlingsforløb og tidsrelationer i teksten.

– Partikler: Fejlagtig fortolkning af partikler kan føre til misforståelser af de grundlæggende handlinger eller hensigter udtrykt i teksten.

Disse udfordringer understreger behovet for omhyggeligt designet og veltrænet NLP-software, der kan håndtere de specifikke krav, det danske sprog stiller. Det kræver ofte en kombination af avanceret maskinlæring, dybe lingvistiske databaser og en forståelse af den kulturelle og kontekstuelle brug af sproget.

Mindre tilgængelige sprogdata

Tilgængeligheden af træningsdata er en fundamental faktor for udviklingen af NLP-modeller. Dette gælder især for mindre sprog som dansk, hvor flere begrænsninger kan hæmme udviklingen af effektive NLP-systemer. Dansk har betydeligt færre talere end verdenssprog som engelsk, hvilket resulterer i mindre tilgængelige tekst- og talekorpusser til træning af NLP-modeller. Danmark har en rigdom af dialekter med egne særlige udtryk og grammatiske strukturer. Mangel på bredt dækkende data kan føre til NLP-modeller, der ikke håndterer dialektiske variationer effektivt. Specialiseret vokabular inden for tekniske, juridiske, medicinske eller andre professionelle domæner er ofte utilstrækkeligt repræsenteret i eksisterende datasæt. Sprog udvikler sig kontinuerligt, og mange træningsdatasæt indeholder ikke samtidsrelateret slang, ny terminologi eller aktuelle referencer.

Der er en række løsninger, der kan være med til at udvide mængden og diversiteten af træningsdata tilgængelig for dansk og dermed forbedre præcisionen og relevansen af NLP-modeller på dansk. Ved at anvende disse tilgange kan forskere og teknologivirksomheder overvinde nogle af de væsentlige udfordringer forbundet med NLP på mindre sprog.

Crowdsourcing: Ved at udnytte kraften i mængden kan man samle et bredt udvalg af sproglige data. Projekter som Wikipedia eller sprogindlæringstjenester som Duolingo, hvor brugere bidrager med indhold, kan danne grundlag for datasæt.

Offentlige Initiativer: Regeringer og uddannelsesinstitutioner kan tage initiativ til at udvikle og frigive store sprogkorpusser. I Danmark kan dette indebære støtte fra Det Danske Sprog- og Litteraturselskab eller universiteter.

Partnerskaber med Teknologivirksomheder: Samarbejde med teknologigiganter, der har adgang til store mængder sproglige data, kan være en vej frem. Disse virksomheder kan have interesse i at forbedre deres egen teknologi og dermed være åbne for at dele data.

Brug af Social Media og Online Platforme: Data kan indsamles fra sociale medier og online platforme, hvor dagligdags dansk talesprog og skrift findes i stor stil.

Generering af Syntetiske Data: Maskinlæringsteknikker som GANs (Generative Adversarial Networks) kan bruges til at generere nye tekstdata, der efterligner menneskelig sprogbrug.

Adgang til Offentlige Datakilder: Offentlige databaser, parlamentariske referater og andre offentlige dokumenter kan være en værdifuld kilde til træningsdata.

Licensering og Data Deling: Skabe rammer, hvor virksomheder og forskere kan licensere og dele deres data på en sikker og privatlivsbeskyttende måde.

Internationale Samarbejder: At arbejde sammen med internationale forskningsprojekter kan hjælpe med at udvikle multilingvale NLP-modeller, hvor dansk er inkluderet som en del af en større sprogmodel.

Sprogteknologiske ressourcer på dansk

Dern er allerede i dag en række eksisterende Ressourcer. Det Danske Sprog- og Litteraturselskab (DSL) tilbyder adgang til en række ressourcer, herunder ordbøger, korpora og andre sproglige databaser, der er nyttige til NLP. Disse ressourcer er grundlaget for mange NLP-applikationer på dansk.

DanNet er det danske WordNet, en leksikal database over det danske sprog, der organiserer ord i synsets og tilbyder information om ordforbindelser, hvilket er særligt nyttigt for semantisk analyse.

KorpusDK er et omfattende tekstkorpus, der indeholder en bred vifte af danske tekster, der kan anvendes til statistisk analyse og maskinlæring.

Danske Parlamenteringsdata er endnu en ressource. Offentligt tilgængelige referater fra Folketinget kan anvendes til at træne NLP-modeller til at genkende politisk sprogbrug og jargon.

Online danske ordbøger og termbaser, som f.eks. Ordnet.dk, giver adgang til definitioner, anvendelseseksempler og bøjningsformer.

Selvom disse ressourcer udgør en solid grundstamme for dansk NLP, er der stadig et betydeligt behov for yderligere ressourcer. Der er et konstant behov for større og mere varierede tekstkorpusser, der dækker flere domæner, dialekter og samtidsbrug af sproget. Der er mangel på offentligt tilgængelige danske taledata, som er kritiske for at forbedre talegenkendelse og genereringssystemer. For at forbedre maskinoversættelse er der brug for flere parallelle korpusser, hvor dansk tekst er direkte oversat til og fra andre sprog. Annoterede datasæt, hvor menneskelige sprogbrugere har mærket tekster for sentiment, grammatik, syntaks og semantik, er afgørende for træning og evaluering af NLP-modeller.

Ved at investere i en række områder og fremme samarbejde inden for det danske AI-fællesskab, kan vi forbedre de eksisterende ressourcer og overkomme nogle af de største udfordringer inden for NLP på dansk. En vej er akademiske og industrielle partnerskaber. Gennem at skabe samarbejder mellem universiteter, virksomheder og offentlige institutioner for at generere og dele sprogdata. En anden vej er offentlige finansieringsprogrammer. Organisering af crowdsourcing-projekter, hvor frivillige bidrager med tekst og taledata. Samtidigt kan man fremme en kultur af open source udvikling, hvor værktøjer og ressourcer deles frit mellem forskere og udviklere og støtte små sprog gennem internationalt fokus på små sprog kan øges gennem konferencer og workshops, hvilket kan tiltrække opmærksomhed og ressourcer til dansk NLP.

Fremtidige tendenser og forskning inden for NLP på dansk

De nyeste fremskridt inden for NLP-teknologi omfatter forbedringer i sprogmodeller baseret på transformer-arkitekturen, såsom BERT (Bidirectional Encoder Representations from Transformers), GPT (Generative Pretrained Transformer), og T5 (Text-to-Text Transfer Transformer). Disse modeller har sat nye standarder for en række NLP-opgaver og kan have en betydelig indvirkning på behandlingen af dansk sprog.

Modeller som BERT, der forstår konteksten af ord baseret på deres omgivelser i en sætning, kan bidrage til bedre forståelse af de komplekse grammatiske strukturer i dansk, som køn og stærke/svage verber. Disse modeller kan fintunes med et specifikt dansk korpus for at forbedre deres præstation på opgaver som maskinoversættelse, tekstklassifikation og spørgsmål-svar-systemer. Nye teknikker inden for maskinlæring, som Zero-shot og Few-shot Learning der kræver færre data for at træne effektive modeller, kan være særligt nyttige for sprog med begrænsede ressourcer som dansk.

Der forskes i udviklingen af store multilinguale modeller, der kan forstå og generere tekst på tværs af flere sprog, herunder dansk. Dette kan potentielt mindske behovet for store mængder af sprogspecifikke data. Teknikker, hvor modeller lærer af deres egne forudsigelser og justerer sig selv uden menneskelig intervention, kunne yderligere forbedre NLP-modellers ydeevne på dansk. Fremtidig forskning kan omfatte udviklingen af NLP-systemer, der mere direkte inkorporerer viden fra lingvistik, hvilket kan hjælpe systemerne med at forstå og generere dansk mere naturligt. Arbejde på at standardisere NLP-praksis for mindre udbredte sprog, som inkluderer dansk, kunne bidrage til mere systematisk forskning og udvikling.

Forskning i generering af syntetiske sprogdata kan levere de nødvendige ressourcer for at træne robuste NLP-modeller på dansk. Udvikling af bedre evalueringsteknikker, der kan måle en NLP-models forståelse og generering af dansk præcist og retfærdigt, vil være afgørende for fremgang.

Disse fremskridt og forskningsperspektiver kan hjælpe med at mindske klæften mellem dansk og mere udbredte sprog inden for NLP ved at forbedre kvaliteten af sprogteknologiske applikationer og gøre dem mere tilgængelige for alle danskere.