Snylteri. Kunstigt intelligente sprogmodeller træner på stakkevis af litterære værker uden tilladelse. Forfattere, forlag og interesseorganisationer efterlyser mere åbenhed og strammere regulering.

AI med lange fingre

»Jeg er dybt forundret og stadig i chok. Det er jo en grov udnyttelse af mit arbejde; at bruge mit sprog, mit materiale og mit kunstneriske virke til at skabe en maskine, der undergraver mit erhverv. Altså, det er jo det, der er sket.«

Ordene står i kø, da Weekendavisen taler med journalist og forfatter Lone Theils mandag aften i denne uge. Hun er få timer tidligere blevet ringet op af Claus Ankersen, forperson i foreningen Danske Skønlitterære Forfattere, der kunne fortælle, at hendes kriminalroman Fatal Crossing (den engelske oversættelse af Pigerne fra Englandsbåden, red.) optræder i et ulovligt datasæt på internettet. Et datasæt, der er brugt til at træne og udvikle store techvirksomheders kunstigt intelligente sprogmodeller designet til at efterligne menneskeskabt tekst og generere nyt og originalt indhold.

»Jeg og mange andre er ufrivilligt blevet en del af de her store, elektroniske hjerner, der ultimativt truer forfatteres arbejde og eksistensgrundlag,« siger Lone Theils.

Hun er én blandt tusindvis af forfattere, der på det seneste er dukket op i det vældige datasæt Books3; et piratkopieret onlinebibliotek med knap 200.000 litterære værker i e-bogsform. Her findes titler af døde og levende legender fra Shakespeare og Agatha Christie til Stephen King og Margaret Atwood, ligesom en lang række danske forfattere er repræsenteret.

I sommer kunne Jyllands-Posten afsløre en stribe hjemlige navne, blandt andre Jens Smærup Sørensen, Peter Øvig Knudsen og Annette Herzog. Senest har det amerikanske magasin The Atlantic kulegravet det kontroversielle kartotek og på baggrund af ISBN-numre identificeret 183.000 af de involverede værker. På magasinets hjemmeside findes nu en søgefunktion, hvor alle interesserede kan slå forfattere op. En hurtig søgning kaster stribevis af danske navne af sig.

I flæng kan nævnes: Peter Høeg, Kim Leine, Naja Marie Aidt, Sidsel Jo-Gazan, Weekendavisens egen Lone Frank og altså Lone Theils. Forfatterne optræder med et eller flere værker, typisk på engelsk, men dansksprogede titler findes også.

SAGEN HAR RUMSTERET siden foråret, hvor forlægger og blogger Peter Schoppert beskrev, hvordan techvirksomheden Meta, der står bag Facebook og Instagram, har brugt Books3-datasættet til at træne og optimere sprogmodellen LlaMA. Også Bloomberg og græsrodsgruppen EleutherAI har haft fingrene i den ulovlige digitale kagedåse i forbindelse med udviklingen af hver sin avancerede sprogmodel.

Afsløringerne har vakt opsigt og behørig harme. I USA har navne som Sarah Silverman, Michael Chabon og Paul Tremblay igangsat hvert sit søgsmål mod Meta, som anklages for brud på ophavsretten.

Samtidig organiserer The Authors Guild, den ældste og største interesseorganisation for forfattere i USA, et åbent brev til techvirksomheder, der udvikler sprogmodeller. Her lyder det blandt andet:

»Det er kun rimeligt, at I kompenserer os for at bruge vores tekster, uden hvilke AI (kunstig intelligens, red.) ville være banal og ekstremt begrænset.«

Brevet er i skrivende stund underskrevet af flere end 10.000 forfattere.

Også herhjemme sker der ting og sager. Foreningen RettighedsAlliancen har på vegne af Dansk Forfatterforening, Danske Skønlitterære Forfattere og Udvalget til Beskyttelse af Videnskabeligt Arbejde (UBVA) knoklet for at forhindre adgangen til Books3. Det lykkedes i midten af august og trak internationale overskrifter.

»Det betyder ikke, at datasættet nu er slettet permanent fra internettet, men vi har haft held til at få de webhoteller, der har hostet Books3, til at fjerne links til samlingen. Vi holder fortsat øje med, om det dukker op rundtomkring, men foreløbig er den offentlige adgang til databasen væk,« siger Maria Fredenslund, direktør i RettighedsAlliancen.

HISTORIEN OM BOOKS3 begynder med amerikaneren Shawn Presser, en selverklæret digital frihedskæmper, der i sommeren 2020 begejstres vildt og helhjertet af sprogmodellen GPT-3, en forløber til ChatGPT. Shawn Presser mener, at alle skal have mulighed for at træne deres egen kunstige intelligens, og samler derfor en database af digitale udgaver af skøn- og faglitterære værker fra de mere skyggefulde dele af internettet. Resultatet bliver Books3 med omkring 196.000 forskellige titler. Fra oktober 2020 vinder datasættet hurtigt udbredelse og finder flere digitale hjem hos hostingsites som The Eye og Hugging Face, hvorfra det indtil for nylig kunne downloades. Ikke mindst af techvirksomheder på udkig efter tekster af høj kvalitet, som kan fodres til kunstigt intelligente sprogmodeller, der lærer at skrive som mennesker.

Hvad Shawn Presser opfatter som en demokratisering af indhold, er for mange andre selve kernen i alt, hvad der er galt med kunstig intelligens.

»Det, som nogen forsøger at sovse ind i open source-lingo, er ikke andet end simpelt tyveri. Og vi taler endda om dobbelt tyveri – eller hæleri – når techgiganterne stjæler værkerne igen og bruger dem til at træne deres algoritmer,« siger Jacob Søndergaard, administrerende direktør for Gutkind Forlag. Han følger udviklingen inden for kunstig intelligens tæt og betegner sig selv som »bruger med moralske skrupler«.

»Jeg er dybt fascineret af generel AI, som jeg tror kan blive en gevinst på mange samfundsområder, hvor man har brug for at analysere og bearbejde store datamængder, for eksempel inden for retssystemet eller sundhedsvæsenet. Men den her form for organiseret tyveri af ophavsretligt beskyttet materiale med henblik på at træne de store sprogmodeller må standses resolut, og jeg ser det som min og min branches fornemmeste opgave at værne om forfatternes rettigheder,« siger Jacob Søndergaard.

Den mission går igen hos RettighedsAlliancen, der fik The Eye og Hugging Face til at fjerne adgangen til Books3 ved at henvise til amerikansk ophavsretslovgivning – helt specifikt den såkaldte Digital Millennium Copyright Act.

Der er dog lang vej endnu, understreger Maria Fredenslund.

»Vi står over for det helt grundlæggende problem, at techvirksomheder typisk er meget lukkede omkring udviklingen af deres sprogmodeller. I mange tilfælde aner vi ikke, hvad det er for materiale, de er trænet på. Der findes helt sikkert andre ulovlige databaser, som endnu ikke er afsløret, og vi mangler først og fremmest langt mere åbenhed på det her felt.«

DEN KOMMER NÆPPE af sig selv. Derfor kigger mange mod EUs kommende forordning om kunstig intelligens, der forventes vedtaget sidst på året.

I sin nuværende form lader forordningen imidlertid meget tilbage at ønske, siger Maria Fredenslund:

»Vi savner først og fremmest, at EU stiller langt højere krav om transparens til techvirksomhederne. I dag er det sådan, at rettighedshavere i princippet kan frasige sig, at deres indhold bruges til såkaldt tekst- og dataminering, men i praksis kan det ikke kontrolleres, fordi udviklerne ikke er tvunget til at lægge oplysningerne frem. Den private ejendomsret er reelt sat ud af spil,« siger direktøren og fortsætter:

»Helt konkret er der behov for, at det i en kommende forordning mejsles fuldstændig ud, hvad det præcis er for oplysninger, techvirksomhederne skal dele med omverdenen, så det bliver muligt at identificere kunstneriske værker af enhver art, så rettighedshaverne kan sige enten ja eller nej til, at de bruges.«