PROSA holder lukket i dagene mellem jul og nytår
Har du spørgsmål til juridisk medlemsservice, kan du sende en mail til faglig@sikker.prosa.dk
Vi besvarer indkomne mails den 27. og den 30. december, ml. kl. 9-15.
Har du spørgsmål af hastende karakter, kan du kontakte os telefonisk på 33 364141 (+ tryk 1) i samme tidsrum.

It og samfund, Software

Lost in translation

Maskinoversættelse er en af programmeringskunstens klassikere, og nu sker der fremskridt på grundlag af nye forskningsresultater og hurtigere hardware. Men det er stadig uvist, om computere en dag kommer til at oversætte med samme sikkerhed som mennesker.

Vil computere en dag kunne oversætte næsten hvad som helst imellem to sprog, så meningen bevares i oversættelsen? Det er der uenighed om blandt forskere i maskinoversættelse. Måske er oversættelse så svært, at alle problemer inden for kunstig intelligens skal løses, før målet kan nås, eller måske er det slet ikke så kompliceret, og software vil snart kunne levere fornuftige oversættelser af faktuelle tekster som manualer og patenter.

Maskinoversættelse kommer overordnet set i to aftapninger. Den ene fremgangsmåde kaldes for statistisk oversættelse, hvor fraser, der skal oversættes, findes i et stort tekstmateriale, som allerede er oversat af mennesker. Hvis to fraser i de to sprog ofte findes i nærheden af hinanden, er der en given sandsynlighed for, at de dækker samme mening.

Den anden fremgangsmåde kaldes regelbaseret oversættelse, og her formuleres et stort antal grammatiske regler, som benyttes til at analysere fraserne og oversætte dem ord for ord.

Domænespecifik oversættelse

Den statistiske oversættelse, som kendes fra Google Translate, kan oversætte næsten hvad som helst, men der er ingen garanti for, at resultatet bliver i flydende sprog. Den regelbaserede metode kan give grammatisk korrekte resultater. For begge metoder gælder det, at kvaliteten går op, når man indskrænker det område, teksten berører. Det er for eksempel allerede muligt at foretage maskinoversættelse af patenter, som giver resultater, der kun kræver en lille smule efterredigering af teksten.

Den danske sprogforsker Anders Søgaard ved Center For Sprogteknologi (CST) på Københavns Universitet har givet et væsentligt bidrag til at forbedre statistisk oversættelse. Når der ledes efter de matchende ord og fraser ved den statistiske fremgangsmåde, gælder det om at have en god søgemetode.

– Når man skaber en søgealgoritme, er det relevant, om søgerummet effektivt kan gennemsøges. Man forsøger at begrænse søgerummet, så man kan søge effektivt. Mit arbejde er gået ud på at estimere konsekvenserne af begrænsninger i søgerummet. Er der mønstre, der forekommer naturligt blandt mennesker, som algoritmerne smider ud med badevandet?

Et resultat af Anders Søgaards forskning er, at systemer som Google Translate kan blive bedre til at bytte om på ord, så systemet kan levere en korrekt oversættelse, selv om en bestemt frase ikke findes helt magen til i databasen over fraser og ord.

På Gøteborg Universitet forsker finske Aarne Ranta i regelbaseret oversættelse. Det foregår i EU-projektet Moltos regi, hvor målet er at skabe et software-rammeværk, som kan benyttes til at oversætte tekster inden for helt specifikke områder.

– I mit projekt arbejder vi på en bestemt slags regelbaseret oversættelse, hvor vi har en semantisk model af indholdet samt regler, som udtrykker semantikken i matematiske formler. Hvis man har den semantiske model, kan man få meget gode oversættelser, som kan benyttes til eksempelvis publicering. Det svære er, at man har brug for den semantiske model og reglerne, og jeg kan ikke se, hvordan man kan generalisere det til alle sprog.

Langt til perfektion

Derudover mener Aarne Ranta, at der måske er en slags naturlig grænse for, hvor gode oversættelser computerne kan levere.

– Mit synspunkt er, at den måde, som f.eks. Google benytter statistisk oversættelse på, bliver bedre og bedre, men de ved godt selv, at de ikke kan gøre det vilkårligt meget bedre. Det vil altid på en eller anden måde være upålideligt og ikke give høj kvalitet, mens vi tilnærmer os problemet fra den anden side. Vi skaber systemer af god kvalitet, men vil aldrig nå en fuld dækning, så vi kan gøre det samme som Google. Det er en afvejning mellem dækning og kvalitet. Problemet er bare for indviklet. Du skulle løse alle problemer i kunstig intelligens for at gøre maskinoversættelse perfekt.

Men Anders Søgaard er ikke enig i Aarne Rantas formodning om, at maskinoversættelse i sidste ende vil kræve, at alle AI-problemer er løst.

– Oversættelse har på nogen punkter vist sig, ifølge den forskning jeg har set, at være en simplere proces end tidligere antaget. Og computere har den fordel, at de har mere hukommelse end mennesker og kan søge langt hurtigere. Så der er måske nogle ting, man kan simplificere væsentligt.