Kunstig intelligens og klassiske medier i lyset af The New York Times' sagsanlæg mod Microsoft og OpenAI

The New York Times Company (NYT) indgav den 27. december 2023 stævning mod Microsoft og OpenAI for krænkelse af ophavsrettighederne til NYT indhold og artikler i forbindelse med træning af AI. Selvom retssagen udspiller sig på den anden side af Atlanten, er den symptomatisk for en global udvikling, hvor skabere af originalt indhold i stigende grad sættes under pres af techgiganterne. Her giver vi et indblik i sagens hovedproblemstillinger, og dens relevans i en dansk kontekst.

Favorisering af indhold fra NYT til træning af OpenAI’s modeller

Kernen i søgsmålet er de to sagsøgte virksomheders omfattende brug af artikler og andre beskyttede værker tilhørende The NYT til træning af deres AI-modeller, der med tillæg af en systemmæssig brugerflade kendes som tjenesterne Bing Chat (Nu Copilot), udviklet af Microsoft, og ChatGPT udviklet af OpenAI i samarbejde med Microsoft.

Begge AI-systemer er large-language models (“LLM”) og bygger teknisk på GPT’er (Generative pre-trained transformers). Systemernes underliggende model bygger forsimplet på en type algoritme, der er i stand til at forudsige næste ord i en tekststreng baseret på de milliarder af data, der er benyttet til at træne algoritmen. Derved sættes AI-systemet i stand til at generere et output baseret på brugerens prompt. Selvom Microsoft og OpenAI's modeller gør brug af materiale fra en lang række forskellige kilder, har de ifølge NYT bevidst prioriteret højkvalitetsindhold fra blandt andet NYT. Systemerne kan på grundlag af dataene fra NYT eksempelvis citere mediet ordret, udarbejde præcise referater, og efterligne de oprindelige artiklers litterære stil.

Snyltning og "fake news"

NYT har gjort gældende, at Microsoft og OpenAI's forretningsmodel er baseret på omfattende ophavsretskrænkelser i og med at indhold fra NYT kopieres og benyttes til træning af AI, uden at NYT har givet samtykke og kompenseres for brugen. Når det genererede output fra ChatGPT og Copilot efterfølgende stilles til rådighed for offentligheden, går NYT glip af de indtægter fra navnlig abonnenter, annoncører og samarbejdspartnere, der skal gøre det muligt for NYT fortsat at producere kvalitetsjournalistik. Omvendt har Microsoft og OpenAI's brug af det beskyttede indhold, ifølge NYT, tilført de to virksomheder væsentlig økonomisk værdi. Som følge heraf snylter virksomhederne ifølge NYT på den væsentlige investering i udarbejdelsen af de angiveligt flere millioner artikler fra NYT og mediets historiske arkiv, der er benyttet som grundlag for træning af AI-modellerne.

NYT hævder, at Microsoft og OpenAI skader deres renommé og udvander deres varemærkerettigheder, idet AI-modellerne til tider hallucinerer i forbindelse med levering af output. Dette indebærer fremstilling af indhold, som fejlagtigt præsenteres som om det kommer fra NYT, selvom det faktisk ikke er tilfældet. Eksempelvis har NYT påvist, at ChatGPT kan promptes til at præsentere en artikel om sammenhæng mellem appelsinjuice og lymfekræft, som robotten fejlagtigt hævder stammer fra NYT.

Udover at kræve et på nuværende tidspunkt uspecificeret beløb i erstatning og godtgørelse for de påståede krænkelser, har NYT nedlagt påstand om, at retten skal forbyde fremtidige krænkelser samt beordre destruktion af alle LLMs og træningsdatasæt, der inkorporerer værker tilhørende NYT.

OpenAI og Microsoft har afvist sagsanlægget som ugrundet, idet virksomhederne anser brug af offentlig tilgængelige data fra internettet som omfattet af den amerikanske ophavsretslovgivnings "fair use"-doktrin.

Sagens betydning i en dansk kontekst

Rammerne om sagen er selvsagt amerikansk ophavsret, der ikke én til én lader sig oversætte til en dansk kontekst. Eksempelvis har omtalte "fair-use"-doktrin ikke en direkte pendant i den danske ophavsretslov, som i stedet opererer med en række særlige undtagelser til ophavsretten suppleret af en ulovbestemt bagatelgrænse. Alligevel rejser sagen en række problemstillinger, der er yderst relevante i en dansk kontekst, hvor de ophavsretlige problemstillinger, der knytter sig til den eksplosive teknologiske udvikling inden for AI, også i høj grad er genstand for bevågenhed, herunder fra mediebranchen.

De påståede krænkelser beror på udnyttelse af de beskyttede værker gennem såkaldt tekst- og datamining. Vi har i IP-magasinet tidligere beskrevet hvordan udgangspunktet efter ophavsretslovens § 11 b, der blev indført i juni 2023, er, at rettighedshavere må tåle udnyttelse af deres offentligt tilgængelige værker gennem tekst- og datamining jf. bestemmelsens stk. 2, med mindre de "udtrykkeligt har forbeholdt sig anvendelsen af værket på passende vis." Det kan du læse mere om her.

Et sådant forbehold skal for at være gyldigt fremgå på en maskinlæsbar måde, herunder eksempelvis. i metadata eller i vilkår og betingelser for brug af et websted eller en tjeneste. Flere brancheforeninger, herunder Danske Forlag og Danske Medier anbefaler deres medlemmer at tage forbehold, og har udarbejdet standardformuleringer til formålet.

I en AI-kontekst er det værd at bemærke, at bestemmelsen er en direktivnær implementering af artikel 4 i Direktiv 2019/790/EU af 17. april 2019 ("DSM Direktivet"), som er udarbejdet flere år før ChatGPT så dagens lys. Selvom den sene danske implementering af bestemmelsen har medført, at den i lovforarbejderne blandt andet knyttes til træning af AI, har det næppe været denne specifikke form for udnyttelse, som undtagelsen om tekst- og datamining i DSM-direktivet primært har været tiltænkt.

EU-regulering af AI på vej

Når NYT tager kampen op mod to af de absolut største aktører inden for AI, kan det ikke undgå at give genlyd internationalt, men sagen er langt fra enestående. Flere steder i verden verserer netop nu sager som omhandler lignende problemstillinger, og i Danmark lykkedes det sidste år Rettighedsalliancen på vegne af Dansk Forfatterforening, Danske Forlag og UBVA, at få blokeret adgangen til Books3, et træningsdatasæt baseret på ulovlige kopier af blandt andre danske forfatteres bøger.

Regulering af AI har da også længe været på den politiske agenda, både i EU, og på nationalt plan. Den 2. februar 2024 blev EU's kommende forordning om kunstig intelligens ("AI Forordningen") stemt igennem af medlemslandene. Forud herfor var den endelige forordningstekst blevet lækket i slutningen af januar. AI-Forordningen indeholder blandt andet transparensforpligtelser, der indebærer, at udviklere af den type AI-model, som ChatGPT og Copilot er baseret på, bliver pålagt at offentliggøre detaljerede dataresumeer af det materiale, de benytter til træning af deres algoritmer. Hensigten er at give rettighedshaverne bedre mulighed for at kontrollere om og i hvilket omfang, deres værker benyttes i datasæt til træning af AI. Herudover forpligtes udviklerne til at etablere en politik for overholdelse af EU-ophavsretten, herunder de ovenfor beskrevne forbehold.

Aftalelicens som løsning

Aftalelicens er blevet fremhævet af Danske Medier som en potentiel løsning på konflikter om brugen af ophavsretligt beskyttede værker til træning af AI. Denne tilgang vil muliggøre anvendelse af AI som innovativt redskab, uden at underminere fundamentet for det ophavsretligt beskyttede, originale indhold, som også er en forudsætning for brugbar og troværdig AI.

I december 2023 blev et dansk forslag om ændring af ophavsretsloven sendt i høring med det formål at styrke mulighederne for licensbaserede løsninger. Dette sker gennem en udvidelse af adgangen efter ophavsretslovens § 52 til at anmode Kulturministeriet om mægling, når forhandlinger om aftalelicens ikke fører til enighed. Denne mulighed har hidtil kun været tilgængelig for ophavsretslovens specifikke aftalelicensområder, men kommer med lovforslaget til også at omfatte den generelle adgang til at indgå aftalelicenser på andre områder jf. § 50, stk. 2.

Hensigten er at forbedre muligheden for at indgå kollektive aftaler med aftalelicensvirkning på rimelige vilkår for rettighedshavere, også i de situationer hvor store techgiganter som Microsoft og OpenAI, der sidder på den anden side af forhandlingsbordet. Vedtages lovændringen er det planen, at den træder i kraft i juli 2024.

I en international kontekst er der allerede flere eksempler på licensaftaler, som da den tyske mediekoncern Axel Springer SE sidste år indgik en licensaftale med OpenAI, og det samme gjorde den amerikanske nyhedsorganisation Associated Press. Selvom de forhandlinger, der er gået forud for retssagen mellem NYT og Microsoft og Open AI, foreløbig ikke har resulteret i en aftale, er der formentlig stadig en mulighed for, at sagen kan afsluttes med et forlig om en licensbaseret løsning.

IP-magasin

Denne artikel er en del af vores IP-magasin fra marts 2024. Her kan du også læse om Irmapigen i nye ufrivillige klæder, den nye designreform der skal opdatere EU-designlovgivningen og seneste nyt på markedsføringsfronten set med Forbrugerombudsmandens briller.

Læs magasinet

Juridiske specialer