DEBATINDLÆG
Af Belangela Tarazona
For lidt over måned siden læste jeg Politikens artikel “Danske oversættere får tilbud om at arbejde med robottekst” (4/10/2023), som handler om, at flere og flere forlag eksperimenterer med maskinoversættelser for at spare penge.
Kun tre dage senere kom Weekendavisen med en artikel “AI med lange fingre”, der fortæller om et online bibliotek (Books3), som er blevet anvendt af Meta (Facebook og Instagram) til at træne og optimere sprogmodellen LlaMA, uden fornøden tilladelse. Her begyndte jeg at mærke koldsveden. På trods af at denne artikel handler om noget andet, nemlig generative AI-værktøjer som ChatGPT, kan jeg drage parallel til en Computer Assisted Translation, eller CAT-Tool, som det hedder i folkemunde.
Juliane Wammen, som er oversætter og formand for Dansk Oversætterforbund siger i artiklen fra Politiken:
“Det skal vi bare sige nej til. Man skal ikke bare nikke ja til et dårligt betalt arbejde, som også er utilfredsstillende. Vi kan noget mere end maskinerne, og det bliver vi nødt til at forklare dem, der ikke ved det”. De er det, hun opfordrer oversættere til at sige, hvis et forlag tilbyder en postredigeringsopgave.
Problemet med Julianes udtalelse er, at hun overser universitetspraktikanterne, som i øjeblikket nogle steder bliver brugt som gratis arbejdskraft til at håndtere maskinoversatte tekster. Men lad os allerførst sætte os ind i, hvad maskinoversættelse er for en størrelse.
Hvad er maskinoversættelse?
Maskinoversættelse består af to processer, nemlig først oversættelsen (det kunne være fra et program som DeepL, eller lignende): Man angiver filen, der skal oversættes, vælger sproget, den skal oversættes til, og vupti, her har vi en oversættelse. Og dog, fordi den tekst kræver et par professionelle menneskeøjne.
Det næste trin er, at man aligner den oversatte fil ved hjælp af et værktøj, som for eksempel MateCat (open source), Trados eller Phrase. Det er disse programmer, man kalder CAT-Tools.
Konkret sker der det, at man sætter filerne ved siden af hinanden i et Excel-arklignende miljø, så det oprindelige dokument (source) og det oversatte dokument (target) muliggør opdelingen i segmenter. Når source– og targetfil er aligned skal disse tilbage til en CAT-Tool. Projektlederen opretter opgaven, og det er dén, en professionel oversætter eller en universitetspraktikant “godkender”.
Jeg skriver “godkender” i gåseøjne, fordi som Juliane Wammen udtrykker det over for Politiken, betyder efterredigeringsprocessen, at et menneske nøje skal gennemgå hele filen for at sikre tekstens kvalitet.
Hver gang man “godkender” et segment, lagres den information i noget som hedder Translation Memory – TM, så algoritmen kan huske det, næste gang et lignende udtryk dukker op i en tekst, faktisk i en hvilken som helst tekst, men ekstremt relevant for tekster som er skrevet af samme forfatter. Et subprodukt af vores kunnen som oversættere er altså TM, som udgør en uvurderlig funktionalitet til serier, fx litterære serier og især krimier, fordi politijargon og andre udtryk skal være konsistente hele vejen igennem.
Et konkret eksempel kunne være Helle Helles de fra (2018). Vi giver den en tur med CAT-Tools. Det vil generere en Translation Memory. Den TM vil gøre det nemmere for oversætteren, den dag vedkommende skal arbejde med BOB (2021), fordi den vil tilbyde et forlæg for kendte udtryk, men samtidigt vil samle ny information fra den igangværende tekst, hvilket vil gøre det endnu nemmere, når det er Hafni fortæller’s (2023) tur. TM har en kumulativ effekt. Den vokser. Gør algoritmen klogere.
Guldminen kommer til at hedde TM, mark my words. For hvem beholder den TM, når man har afleveret oversættelsen?
Det gør forlaget.
Kan forlagene finde på at sælge en TM til en techvirksomhed som Meta? Det ved jeg ikke, men risikoen for at det sker, er der.
Pas på med terminologien
Jeg har selv været med til at vurdere og implementere et sådant værktøj hos et forlag, så jeg er selv en del af processen, men netop takket være den erfaring kan jeg fortælle, at den tekst, der spyttes ud af maskinoversættelsesprocessen, kræver så omfattende arbejde, at jeg i dag væmmes, hver gang jeg hører udtrykkene post-oversættelse og post-redigering. Jeg har desværre mistanke om, at det er en terminologi, der anvendes nogle steder til at presse oversætterens honorarer ned.
Det kan umuligt hedde post-oversættelse/post-redigering, når man, segment efter segment, bliver nødt til at omformulere hele sætningskonstruktionen, vælge andre grammatiske kategorier, skrive nye sætninger eller slette passager. Dette endda uden at medtage andre finesser som fx subtekst og allitterationer, hvilket i sidste ende er det, der puster liv i en ekspressiv tekst.
Det eneste udtryk, den tekst, jeg skulle “post-redigere”, havde oversat rigtigt var: (han/hun nikkede). Alt andet skulle omformuleres eller erstattes med det passende udtryk.
Jeg er blevet så interesseret i fænomenet, at jeg har testet brugsanvisninger, avisartikler, madopskrifter, essays og gamle romaner og digte, og jeg kan se, at resultatets kvalitet afhænger af den type tekst, man har med at gøre. Det er min erfaring, at essays, romaner og digte kræver en meget voldsom indgriben fra oversætterens side sammenlignet med andre ikke-ekspressive tekster. I de tilfælde, hvor jeg sendte den allerede redigerede tekst gennem maskinen igen, kunne algoritmen finde ud af på grund af TM.
Der er dog visse gevinster ved CAT-Tools: tastetid, at man sikrer en konsistent anvendelse af bestemte udtryk gennem hele teksten, og at man ikke glemmer dele af teksten uden at oversætte, givet at værktøjet ikke leverer den endelige tekst indtil man har godkendt hvert eneste segment. Bortset fra tastetiden er gevinsten marginal, fordi resten kan fanges, når oversætteren tjekker teksten i en anden runde.
Hvordan ser fremtiden ud for professionelle oversættere?
Det ser ikke særlig godt ud, det må jeg indrømme, fordi forlagene er sat i verden for at sælge bøger, producere dem på den billigste måde. Så det er ikke kun CAT-Tools, der truer branchen. Universitetspraktikanterne anvendes mere og mere til denne type opgaver til nul kr., så det gør ondt værre.
Hvis vi vælger at spille med (det kan vi blive tvunget til, hvis flere forlag er med på ideen), bliver vi nødt til at forhandle i kontrakten, at forlaget skal betale ekstra for den TM, der bliver skabt efter endt oversættelse, og at den pågældende TM ikke må sælges/lånes/overføres til tredjepart uden vores tilladelse. Hvis den sælges/lånes/overføres, skal vi også honoreres. Det er vores kunnen, der forstærker algoritmen, og det leverer vi gratis, hver gang vi trykker på send knappen fra en CAT-Tool.
Det ser kulsort ud for os professionelle oversættere, så længe forlagene bliver ved med at anvende post-oversættelse/post-redigering-terminologien. For hvis en tekst er post-oversat, kan det se ud, som om det ikke er oversætteren, der har gjort arbejdet, men et computerprogram som DeepL eller lignende værktøjer, dermed underforstået, at den professionelle oversætter løber risikoen for hverken at blive ordentligt betalt, eller i værste fald heller ikke krediteret for arbejdet. Den terminologi er farlig, da den kan medføre tabt bibliotekspenge.
Universiteterne skal hjælpe til med at stoppe udviklingen
Jeg frygter desuden, at de menneskelige øjne, der stadig er nødvendige for at tjekke forlagenes maskingenererede tekster, ikke længere bliver de professionelle oversættere. Den opgave vil i højere grad blive varetaget af universitetspraktikanter til nul kr.
Desværre er det derfor ikke nok med Juliane Wammens opfordring om bare at sige nej. Vi bliver nødt til at blive skarpere på flere fronter:
- At forhandle kontrakten således, at vi ikke kun honoreres for selve den tekst, der skal behandles, men også for subproduktet, nemlig TM.
- At vi får en kopi af TM efter vi har afleveret oversættelsen.
- TM må ikke videresælges uden tilladelse og honorering.
- Det skal hedde sig oversættelse og vores navne skal fremgå i udgivelsen.
- Universiteterne skal også være med til at stoppe denne udvikling ved at gøre praktikanterne opmærksomme på, hvad der kan være på færde, hvis de bliver bedt om at “hjælpe til” med en maskinoversættelse.
Belangela Tarazona er bachelor i dansk og cand.mag. i spansk (oversættelse) fra Københavns Universitet med et diplom i skrivekunst fra SDU.
Privat foto.