Opdagelser og overvejelser fra en praktikers skrivebord, del 2
I forsommeren lavede oversætter og Babelfiskredaktør Signe Lyng sin egen praksisbaserede undersøgelse af forholdet mellem generativ kunstig intelligens og litterær oversættelse. Undervejs lagde hun sine opdagelser og overvejelser af fænomenet ud på Facebook, og Babelfisken har samlet opslagene. Vi er nået til anden del (læs første del her).
25. juni 2023
6. Børnebøger? Barnemad!
Børnelitteratur regnes ikke for den store kunst, hverken at skrive eller oversætte. Bevares, der er måske sjove navne eller ordspil eller mærkelige væsener, men altså, det er jo for børn! Hvor svært kan det være? Børn ved jo ikke så meget endnu, så stilen er enkel uden svære ord og begreber. Så kan man vel godt spare en oversætter?
Her er starten på Thomas Taylors lille hyggegyser Malamander:
You’ve probably been to Eerie-on-Sea, without ever knowing it.
When you came, it would have been summer. There would have been ice cream and deckchairs and a seagull that pinched your chips. You probably poked about in the rock pools with your mum, while your dad found that funny shell. Remember? And I bet, when you got in the car to drive home, you looked up at the words CHEERIE-on-SEA – written in light-bulb letters over the pier – and got ready to forget all about your day at the seaside.
It’s that kind of place.
Malamander er skrevet til tiårige, og starten spiller på alt det, børn ved om sommerferie. Engelske børn, vel at mærke. For selv om danske børn – og børn i danske bøger og på dansk tv – tager på sommerferie ved stranden, er deres univers ikke helt det samme. Danske badebyer ender ikke på -on-Sea, men hedder noget med -leje, -vig eller slet og ret -strand. Pomfritter er ikke en selvfølge i det danske sommerland. Små pytter mellem klipperne har vi ingen af, for vi har ingen klipper (beklager, Bornholm). Og frem for alt har vi ikke sommertivolier eller teatre, der er bygget for enden af en lang, høj bro ud i havet.
Men sproget er såmænd enkelt nok. Tonen er talesprogspræget, men dagligdags, og sætningerne er korte og ligefremme. Vi sætter ChatGPT på sagen:
Du har sandsynligvis været i Eerie-on-Sea uden nogensinde at vide det. Da du kom, var det sandsynligvis sommer. Der var nok is, liggestole og en måge, der stjal dine pommes frites. Du pokede sandsynligvis rundt i klippepølerne med din mor, mens din far fandt den sjove skal. Husker du det? Og jeg satser på, at da du satte dig ind i bilen for at køre hjem, kiggede du op på ordene CHEERIE-on-SEA – skrevet med lyspære-bogstaver over pieren – og gjorde dig klar til at glemme alt om din dag ved havet.
Det er den slags sted.
Der er nok at grine ad her, men lad os ignorere det åbenlyse. Der er ord, AI’en ikke kender, fordi de er sjældne – det vil ændre sig. Og læg mærke til, at den klarer den indviklede tid there would have been med løsninger som der var sandsynligvis og der var nok. Og at den korrekt oversætter pinched til stjal og ikke nev eller kneb. Den har fodfæste nok til at vurdere, at det er det sandsynlige valg, når der er tale om måger og fritter.
Sprogmodeller som ChatGPT er statistiske vidundere. De fungerer efter samme principper som f.eks. den sms-funktion, der foreslår os ord, imens vi skriver. De kan ikke tænke, men de har et gigantisk lager af tekster, hvis strukturer og sammensætning de kan analysere. Ud fra den database kan de beregne sandsynligheden for, at bestemte ord optræder i en bestemt sammenhæng.
Sådan gør menneskelige oversættere faktisk også – vi er bare ikke nær så gode til det. Vi glemmer ord og vendinger konstant. Vi oversætter noget og går rundt resten af eftermiddagen med en nagende følelse af, at det dér ord, vi brugte, var helt forkert, men kan alligevel ikke komme på det rigtige, hvis der da overhovedet findes et rigtigt. Vi kommer i skyndingen til at skrive oversætte i stedet for ansætte (det skete for mig i forrige opslag), fordi vi har hovedet fuldt af oversættelse, og hvis redaktøren og korrekturlæseren er søvnige bliver det aldrig opdaget, for stavekontrollen protesterer ikke.
Den slags gør maskinen aldrig. Den har altid svar på rede hånd – baseret på sandsynlighed – og hvis man er utilfreds, kan den levere en række alternative forslag uden tøven.
Men sprogmodeller er ikke børn, og deres eneste erfaring med England og Danmark er to sæt symboler med et bestemt indbyrdes forhold. De har aldrig spist is eller fanget hundestejler eller haft forældre. De har aldrig fået fortalt en historie. Så deres eneste redskab til at vælge deres ord er sandsynlighed, og i eksemplet her har ChatGPT ikke materiale nok at arbejde med.
Så:
Du har sikkert besøgt Undervig engang uden at vide af det.
Det var sikkert sommer, da du var der. Der var sikkert isvafler og liggestole og en måge, der huggede dine pomfritter. Du snusede sikkert omkring blandt de små pytter havvand mellem klipperne med din mor, og din far fandt den der sjove muslingeskal …
Her har været en menneskeoversætter (mig) på teksten. Det er ikke den “rigtige” løsning – der findes ingen rigtige løsninger, kun en hel masse mere eller mindre diskutable – men den tager højde for sin læser, for barnet, og det, barnet forventer af en historie som Malamander. Jeg sørger for gentagelse – sikkert, sikkert, sikkert – og jeg ved, at ice cream i reglen er isvafler, at klippepytter nok lige skal forklares første gang, at pomfritter er folkeligt, mens pommes frites er fisefornemt, og at den shell, der bliver nævnt, er en musling. Og selv om stjal er en korrekt oversættelse af pinched, savner den kulør, så huggede er bedre.
ChatGPT træffer med andre ord en masse valg, der formelt set er helt korrekte, men alligevel falder igennem. Den vil blive bedre til det – meget bedre – jo flere tekster, den får adgang til. Men skævhederne bliver svære at komme af med. For en fortælling er så meget mere end ord. Den skal kunne mærkes og lugtes og smages – og den skal kunne spille på den uventede, det skæve, det sjove.
Den slags er AI’er eminent elendige til, og det er heller ikke rimeligt at forvente andet. Men det, der bekymrer mig, er alle de næsten korrekte valg, de træffer. Der er ikke noget decideret galt med det var sandsynligvis sommer, bortset fra at sandsynligvis ikke er videre børnevenligt. Der er ikke noget galt med stjæle frem for hugge, men det gør teksten bleg. Og det er måske fint nok, at It’s that kind of place oversættes til Det er den slags sted og ikke Det er et af den slags steder, men helt dansk er det ikke.
Det er med andre ord ikke de åbenlyse brølere, men derimod de halvgode løsninger, der er problemet. Vilkårligheden i valgene. Bliver de haltende løsninger fanget, eller slipper de igennem? Vil de blive set som umagen værd at rette?
Lige siden vi holdt op med at ville betale for f.eks. nyheder, har vi lige så stille vænnet os til tekster, der åbenlyst er oversat af maskiner med fortravlede menneskeassistenter. Vi har vænnet os til, at indholdet er det eneste, der tæller. Hvordan det pakkes ind er kun vigtigt, når det er gjort så elendigt, at vi ingenting forstår. Resten af tiden gør vi selv arbejdet med at få enkeltdelene til at hænge sammen.
Den tilgang vil jeg nødig have ind i litteraturen, hvor indpakningen, uanset genre, er det halve af fornøjelsen.
P.S. Resten af eksemplet kan I selv oversætte. Eller sætte jeres yndlings-AI til det, og se, hvad der sker. Men husk, at piers i Danmark gerne har med tankskibe at gøre, og at englændere tager til havet, mens danskere tager til stranden.
P.P.S. Børnelitteratur er lige så svært eller nemt at oversætte som al anden litteratur.
P.P.P.S. Malamander er udgivet på Alvilda i 2021.
27. juni 2023
7. Men så den kommercielle litteratur da!
En stor, tyk, kærlighedsroman. Ren underholdning, lige ud ad landevejen, en god historie uden falbelader. En kvinde i knibe, en kølig bankmand – mon ikke han viser sig at være knap så usympatisk som først antaget? – og ChatGPT som oversætter, denne gang fra svensk:
En kølig grå blik fangede pludseligt hendes opmærksomhed. Det var ham der manden. Kate vidste ikke, hvad han hed, men hun havde set ham i banken før. Var han ikke chefen her? Han havde konstant en rynket pande, som om han bar verdens aktiemarkedets kriser på sine skuldre, altid bøjet over noget, der så ud til at give ham hovedpine. Hun kendte ham ikke, de havde aldrig talt sammen, men hun kunne ikke lide ham. Uden nogen særlig grund. Bortset fra at hver gang hun kom herhen – hun havde nok set ham to eller tre gange – så så han på hende som om han undrede sig over, hvorfor de lod hende komme ind. Normalt ville hun ignorere ham, men dette var ikke en normal situation. Hun var vant til at vurdere folks status, og den strenge mand havde magten over pengene i banken. Han var hendes nye mål.
Jeg er faktisk imponeret over, at det ikke er værre. For ChatGPT oversætter ikke nødvendigvis fra svensk til dansk – den oversætter ofte fra svensk til engelsk til dansk. Sådan er systemet indrettet, og alle, der har leget hviskeleg i skolen ved, at jo flere børn en historie skal igennem, jo mere forvansket bliver den. Men jeg har med vilje valgt en lidt sprogligt upåfaldende passage – det er jo dem, AI menes at kunne oversætte for os.
Hvordan kan man se, at vi har været en tur omkring USA på vej fra Sverige til Danmark? Der er i hvert fald ét sted: Svensk og dansk har det tilfælles, at vi kan angive cirkamængder alene med to tal: två tre gånger, to-tre gange. På engelsk sætter de et “eller” ind: two or three times. Og det eller er dukket op i oversættelsen. Omvendt tyder “En kølig grå blik” (svensk: en kylig grå blik) på, at andre dele kalkeres direkte.
Er det så vigtigt? Man kan jo sagtens forstå “to eller tre”. Nej, måske ikke som enkeltstående tilfælde – menneskelige oversættere laver også den slags småskævheder – men bliver der for mange, begynder teksten at gøre modstand:
Var han ikke chefen her? Han havde konstant en rynket pande, som om han bar verdens aktiemarkedets kriser på sine skuldre, altid bøjet over noget, der så ud til at give ham hovedpine.
chefen her; konstant en rynket pande; verdens, ikke alverdens – der er meget, man hænger en lille smule fast i, allerede inden man når til det underlige aktiemarked.
Og så en interessant detalje, for her er den svenske original:
Visst var han chef här? Ständigt rynkad panna, som om han bar världens börskrascher på sina axlar, alltid böjd över något som såg ut att ge honom huvudvärk.
Altså: “Var han ikke chef her? Konstant rynket pande, som om han bar alverdens børskrak på sine skuldre, altid bøjet over noget, der så ud til at give ham hovedpine.”
Her redigerer ChatGPT faktisk. Den har måske en indprogrammeret regel om, at alle sætninger skal have en hovedsætning med subjekt og verbum i, så da den når til den løsrevne, konstant rynkede pande, indsætter den rask et han havde. Desværre kommer det til at lyde, som om det er den rynkede pande, der altid er bøjet over noget, der ser ud til at give dens ejer hovedpine.
For retfærdighedens skyld: ChatGPT er ikke noget specifikt oversættelsesværktøj. Men den bliver brugt til det, og de maskinoversættelsesværktøjer, der findes, er i øvrigt som udgangspunkt endnu mere primitive i deres opbygning. Tanken bag dem, og bag ChatGPT, er, at deres database løbende forfines af deres (menneskelige) brugere. Hvilket ville være fint, hvis ikke det var, fordi alle vi brugere, der skal forfine dem, ikke lønnes for vores arbejde – og ofte er for urutinerede eller søvnige eller slet og ret inkompetente til at være forfinere, men snarere ender som forurenere.
Det er i og for sig meget demokratisk. Alle kan i princippet bidrage på lige fod. Jeg er spændt på, og nervøs for, hvilken rolle sagkundskaben kommer til at spille, eller ikke spille, i den videre AI-udvikling. Vil nogle bidrag veje tungere? Og hvem skal bestemme hvilke? Især når nu ikke engang sagkundskaben er enig med sagkundskaben.
Her er hele originalen til de interesserede – et uddrag fra Simona Ahrnstedts Nattens drottning, udgivet som Nattens dronning på Gutkind i 2022 i min oversættelse. Sæt evt. i boks
En kylig grå blick fångade plötsligt hennes. Det var den där mannen. Kate visste inte vad han hette, men hon hade sett honom på banken förut. Visst var han chef här? Ständigt rynkad panna, som om han bar världens börskrascher på sina axlar, alltid böjd över något som såg ut att ge honom huvudvärk. Hon kände honom inte, de hade aldrig pratat, men hon gillade honom inte. Av ingen särskild anledning. Annat än att varje gång hon kom hit – hon hade väl sett honom två tre gånger – så tittade han på henne som om han undrade varför de släppt in henne. I vanliga fall skulle hon struntat I honom, men detta var inte i vanliga fall. Hon var van vid att bedöma folks status och den stränga mannen hade makten över pengarna i banken. Han var hennes nya mål.
29. juni 2023
8. Svinkeærinde: The Robo Alive Junior Baby Shark Sing Swim Bath Toy
Sidste weekend stod der på DR, at et legetøjsfirma tilbagekalder en lille badefisk, fordi en del børn har stukket sig på den. Tingesten hedder Robo Alive Junior Baby Shark Sing Swim Bath Toy. “Det må være noget kinesisk,” sagde min gamle far, og det har han i og for sig ret i, men det omstændelige navn har intet med Kina at gøre. Det er et resultat af søgemaskineoptimering (såkaldt SEO), der skal gøre produkter – eller firmaer eller mennesker – nemme at finde for især Googles brugere.
Hvis vi googler noget – altså bruger søgemaskinen Google til at lede efter noget – er det resultat, vi får op, naturligvis kurateret. En søgning på badefisk giver 88.000 hits, så der er kunder at hente ved at ligge øverst på listen. Det kan man komme til på to måder: enten betaler man Google for det ved simpelthen at købe reklameplads, eller også søgemaskineoptimerer man. Det handler meget groft sagt om på sin hjemmeside at bruge så mange relevante ord som muligt om den vare, man gerne vil sælge, så dem, der søger, nemt kan finde frem til den. Man gætter så at sige på, hvilke søgeord folk vil bruge, og skriver dem.
Men at finde på og skrive de ord er et kæmpearbejde, særligt hvis man f.eks. har en netbutik, der sælger tusindvis af varer. Derfor er det oplagt at sætte en AI til det, så man ikke skal have en ansat til at skrive endeløse, monotone ordlister over produktegenskaber. Det endeløse, monotone arbejde er jo maskinens spidskompetence.
Søgeordene behøver ikke at være synlige for den, der søger – de indbygges gerne skjult – men de bliver det mere og mere, som komikeren Ryan George så smukt illustrerer her …
Og hvis du tror, han overdriver, så slå endelig et smut forbi Amazon og søg på “gaming chair”.
Og hvad har det så med oversættelse at gøre? Egentlig ingenting, men det er et godt eksempel på, hvordan vi som læsere tilpasser os de sproglige forhold i vores iver efter at kommunikere. Det sker selvfølgelig først og fremmest i situationer, hvor vi ikke rigtig har noget valg. Hvis vi vil have en billig gamerstol fra Amazon, må vi leve med at skulle pløje os igennem en grød af løsrevne ord og gentagelser.
Det samme gælder faktisk, når vi læser oversat litteratur (okay, indrømmet, det spring var langt, men bær over med mig her på barrikaden). For i de fleste tilfælde er der ikke to konkurrerende oversættelser på markedet, og selv hvis der er – når der er tale om gamle klassikere for eksempel – kan vi sjældent vurdere kvaliteten på forhånd, hvis vi overhovedet bliver gjort opmærksom på, at vi har et valg. Hvis vi vil læse Lauren Groffs nyeste roman på dansk, må vi bare håbe på, at oversætteren leverer varen. Men selv, hvis hun ikke gør, kan vi ikke klage og få leveret en ny og bedre udgave eller få pengene tilbage. Og oversættelser anmeldes jo sjældent – det sker stort set kun, når de er så sløsede, at anmelderen ikke kan se originalværket for bare fejl.
Oversættelser SKAL heller ikke anmeldes – en oversat roman skal naturligvis vurderes nøjagtig som en dansk roman, og når jeg læser anmeldelser af værker, jeg har oversat, er det, jeg hæfter mig ved, om forfatteren roses for sit sprog. For det er jo mit sprog – mig, der har lagt forfatteren de ord i munden på dansk. Og det er nok for mig.
Men der er én hage ved det system, nemlig at læserne sjældent tænker over, at de sidder med en bog, der egentlig er skrevet på et fremmed sprog. At der er sat et ekstra led ind i den kunstneriske proces, og at det led kan være svagt. En dårlig læseoplevelse med en god bog kan være oversætterens skyld – og en god (eller i hvert fald bedre) læseoplevelse med en dårlig bog kan såmænd også være oversætterens fortjeneste. Vi redder faktisk ofte selv de bedste forfattere fra sig selv.
Men oversættere hyres bestemt ikke altid, fordi de er gode. En del vælges, fordi de er billige, og her kommer AI’erne ind igen. For de er, indtil videre, meget billige. Og som sagt, vi læsere tænker ikke på oversættelsen, når vi køber en bog – det er jo en bog, ikke? Vi stoler blindt på kvaliteten, så snart noget har en forside, en forfatter og et forlag, for der må da stå kompetente personer bag? Men det er ikke nogen selvfølge. Selv personerne er ikke længere nogen selvfølge. Det burde vi måske lære at være mere kritiske over for – eller at klage mere over, når vi køber katten i sækken. Så vi ikke ender med at tilpasse os ringere læseoplevelser, fordi vi ikke har andet valg.
5. juli 2023
9. Hvem ejer egentlig teksterne?
Som oversætter snylter jeg konstant på andres hårde arbejde. Min browser åbner automatisk seks netordbøger, når jeg starter den – ordbøger, der for de flestes vedkommende stilles til rådighed uden direkte betaling. Jeg bruger avisernes netudgaver, jeg tjekker Lex og Wikipedia, jeg søger i Google Books for at se, om bestemte vendinger er almindelige eller bare brugt før. Jeg googler og googler og googler, artikler om lægeplanter, astrofysik, mode, våben, historie, hønsehold …
Internettet har gjort alverdens tekster tilgængelige for os alle, og langt de fleste tjenester er “gratis” – dvs. finansieret enten via skatten (Den Danske Ordbog, Lex), reklamer eller dataindsamling, ofte begge sidstnævnte på en gang (The Free Dictionary, Google Books, Google i det hele taget). Enkelte er finansieret helt eller delvis af frivillige bidrag (The Guardian, Wikipedia), men kan også bruges “gratis”, hvis man ikke føler sig rig nok til at støtte.
Grænserne for, hvornår tekster frit kan benyttes, er med andre ord blevet slørede, og den egentlige pris for brugen af dem er helt uigennemskuelig. Vi møder kun ophavsretten for alvor, når vi rammer en betalingsmur, men lægger ellers ikke længere så meget mærke til, at tekster har en ejer, der skal have løn for sit arbejde. Sådan har det efterhånden været længe, og det er selvfølgelig både godt og skidt. Som oversætter vil jeg f.eks. gerne anerkendes og betales rimeligt for mine tekster – men samtidig vil jeg allerhelst have stillet alle andres tekster gratis til rådighed. I kunstens tjeneste, naturligvis. Dobbeltmoralsk? Ja!
Nu har vi så fået et nyt redskab, der principielt(!) kan rumme alverdens tekster. Hvilke regler bør vi opstille for sådan et?
Dagens afsnit er lutter spørgsmål, for gennemsigtigheden er begrænset, hvad angår det materiale, AI’er udvikles på, og det samme gælder den fremtidige udvikling af tjenesterne. For det meste af vores sprog er jo ikke vandmærket – dets fornemste opgave er netop at være tilgængeligt for alle. Men af og til, når vi falder over noget usædvanligt, får vi måske et glimt af, hvad der kan være puttet i gryden: Som en læser bemærkede under afsnittet Bro it to the max for et par uger siden, kan ChatGPT’s slang være hentet fra wikien TV Tropes.org. Wikier er kollektivt fremstillede non-profit-opslagsværker, der frit kan benyttes og redigeres af alle. AI’er derimod … Nu gætter jeg, men jeg er ret sikker på, at mange af dem har en forretningsmodel, der sigter efter solid fortjeneste engang i fremtiden.
Så her er seks store spørgsmål til AI-fremtiden, og til jer:
1. Hvem ejer de tekster, der puttes ind i maskinen, og bør ejerne kompenseres for brugen? Hvad er i så fald et rimeligt vederlag? Og hvem skal tjekke, at der ikke foregår teksttyveri?
2. Er der nogle tekster, der frit bør kunne puttes ind, fordi de ingen tydelig ejer har, og hvor går grænsen? Ved salgstekster? Bagsidetekster fra bøger? Resuméer? Wikier som TV Tropes eller Wikipedia? Alle tekster, der dukker tilgængeligt op, når vi googler?
3. Er der nogle tekster, der absolut ikke bør kunne puttes ind uden kompensation, og hvor går grænsen? Ved avisartikler? Forskningsartikler? Blogs? Romaner? Facebookopslag?
4. Hvordan sikrer vi kvaliteten? Usikre sprogbrugere skriver usikre tekster. Usikre sprogbrugere, der har en maskine til hjælp, kan ikke nødvendigvis redigere deres tekster. Hvem vurderer, hvad der puttes ind i vores AI’er? Er det såkaldt sikre sprogbrugere eller IT-folk? Bliver der puttet tekster i, der er helt eller delvis AI-forfattede? VED man i det hele taget, om de er AI-forfattede?
5. Bør AI-forfattet tekst mærkes som AI-forfattet tekst? Hvad med delvis AI-forfattet tekst?
6. Hvem ejer den AI-forfattede tekst?