Voorlopig akkoord EU-eisen kunstmatige intelligentie

23-01-2024

Voorlopig akkoord EU-eisen kunstmatige intelligentie

Het huidige informatielandschap ondergaat ingrijpende veranderingen door de opmars van kunstmatige intelligentie (AI). Terwijl de ontwikkelingen in rap tempo plaatsvinden, poogt de Europese Unie (EU) vorm te geven aan doeltreffende wetgeving om deze evolutie in goede banen te leiden. In dit artikel verkennen we kort de actuele Europese ontwikkelingen op dit gebied, waarbij we specifiek aandacht geven aan de impact ervan op de Nederlandse auteurswet.

In december 2023 heeft de EU een voorlopig politiek akkoord bereikt over de AI Act (ook wel de AI-verordening), waarin eisen en richtlijnen voor kunstmatige intelligentie worden vastgesteld. Het doel, volgens de commissie, is het stimuleren van verantwoorde vooruitgang in de ontwikkeling van AI. Men streeft hierbij naar het stimuleren van zowel economische kansen als het beschermen van publieke waarden, aangezien beide van essentieel belang zijn.

Binnen het politiek akkoord zijn specifieke afspraken gemaakt met betrekking tot AI-systemen die mogelijk een negatieve invloed kunnen hebben op veiligheid of fundamentele rechten. Enerzijds zijn er verboden ingesteld voor onwenselijke AI-praktijken, zoals social scoring of emotieherkenning op de werkplek. Maar aan de andere kant worden er brede uitzonderingen gemaakt voor opsporingsdoeleinden. Zo blijft inzet van AI mogelijk als er sprake is van terroristische dreigingen, het opsporen van specifieke verdachten in het kader van ernstige misdaden of het toepassen van predictive policing.

Generatieve AI

Voor de zogenaamde generatieve AI, waaronder OpenAI’s ChatGPT of Google’s Bard, worden er regels van kracht die ook het Nederlandse auteursrecht dienen te versterken. Deze populairste manifestatie van de recente golf aan AI-systemen is in staat om nieuwe, originele content, zoals gesprekken, poëzie, kunst of foto’s te genereren. Dit op basis van de informatie waarmee ze zijn getraind.

De AI leert onder andere door patronen te identificeren in enorme hoeveelheden tekstdata, maar ook in kunst en foto’s. Deze datasets stellen het systeem in staat nieuwe teksten (maar ook foto’s en schilderkunst) te genereren, die qua stijl en inhoud sterk lijken op wat het heeft geleerd in het trainingsproces. Met andere woorden, de AI kan op meesterlijke wijze de Markthal interpreteren in de stijl van Rembrandt, enkel en alleen omdat het alle schilderijen en iedere penseelstreek van de grootmeester heeft kunnen doorgronden.

Auteurswet en AVG

Met betrekking tot de auteurswet en de AVG ontstaan al direct bij de training de eerste uitdagingen bij het gebruik van dergelijke AI. De datasets die deze AI-systemen voeden, bestaan uit tientallen terabytes aan tekst, oftewel tientallen tot honderden miljarden woorden. Deze teksten komen vanuit een verscheidenheid aan bronnen, variërend van boeken en artikelen tot internetfora. Het verzamelen van deze informatie gebeurt vaak door het kopiëren van internetcontent, ook wel datamining of scrapen genoemd. Dit dataminen geschiedt in de meeste gevallen zonder de uitdrukkelijke toestemming van de rechthebbende.

Uit onderzoek van De Groene Amsterdammer blijkt dat scraping enkele uitdagingen met betrekking tot auteursrecht (en de AVG) tot gevolg heeft. Een diepgaande analyse van de mC4-dataset die wordt gebruikt door Google en bestaat uit circa tweeënhalf miljoen Nederlandse websites, toont bijvoorbeeld aan dat Docplayer.nl een belangrijke bron is voor de dataset. Op deze site, die documenten van het internet dataminedt en beschikbaar stelt, blijken in het onderzoek veel documenten te staan die inbreuk maken op het auteursrecht en de AVG. De site bevat verschillende voorbeelden van datalekdocumenten, overheidsrapporten en documenten met privégegevens.

Gezien de problematische herkomst van veel van de inhoud van de site is het opvallend dat Docplayer.nl bovenaan de lijst als meest belangrijke informatieverstrekker staat met maar liefst 1,5 miljard woorden. In de rest van de top 200 staan websites als Nl.wikipedia.org (op nr. 7 met 200,3 miljoen  woorden), Stormfront.org (nr. 165 met 13,9 miljoen woorden), Elsevierweekblad.nl (nr. 175 met 13,1 miljoen woorden) en Stamboom.org (nr. 74 met 26,8 miljoen woorden) en alle Nederlandse dagbladen gebroederlijk naast elkaar, als hoofdleverancier van informatie. Zelfs DOCFactory is terug te vinden: DOCFactory.nl neemt positie 89.829 in met maar liefst 48.000 gescrapete woorden.

Het is zinvol om vragen te stellen over de mate van gewicht die wordt toegekend aan elke website met betrekking tot de kwaliteit of het waarheidsgehalte van de verstrekte informatie en wie bij machte is dat te bepalen. Bovendien lijkt het verstandig om op zijn minst te twijfelen aan het gebruik van een site als Docplayer.nl als belangrijke bron. Het ongeoorloofd verzamelen van artikelen vanaf de dagbladsites, is al problematisch genoeg. De situatie wordt nog complexer wanneer er gebruik wordt gemaakt van scrape- en verzamelwebsites, als Docplayer.nl, waardoor het steeds moeilijker wordt de oorsprong van de informatie te achterhalen.

Regels zijn regels?

Ook de overheid lijkt moeite te hebben met een eenduidige interpretatie van de auteurswet om te bepalen of de dataminingstrategie al dan niet is toegestaan. In januari 2023 kon het kabinet, bij monde van minister Adriaansens (EZ) nog melden dat het scrapen van auteursrechtelijk beschermd werk (door ChatGPT) niet is toegestaan.

Om in augustus 2023 via demissionair minister voor Rechtbescherming Weerwind te melden dat de uitzonderingsgrond voor tekst- en datamining (tdm) genoemd in de auteurswet (artikel 25a, artikel 15o) waarschijnlijk ook geldt voor het trainen van generatieve AI.  Terwijl de auteurswet duidelijk stelt dat op die gronden het mogelijk zou moeten zijn voor onderzoeksorganisaties en cultureel erfgoedinstellingen om met het oog op wetenschappelijk onderzoek tekst- en datamining te verrichten (auteurswet artikel 15n, 1).  

Minister Weerwind lijkt hiermee toch bewust ruimte te creëren voor grote tech-bedrijven om auteursrechtelijk beschermde werken op grote schaal te scrapen voor AI-trainingsdoeleinden.

Copyright shield

Voorlopig gaan AI-aanbieders door met hun scraping- en trainingsstrategie, al dan niet gesterkt door de verschillende auteurswet interpretaties die voorhanden zijn.

Inmiddels biedt OpenAI voor de algemeen beschikbare functies van de zakelijke versie van ChatGPT de dienst Copyright Shield aan. Deze service dekt de juridische kosten voor klanten die geconfronteerd worden met juridische claims met betrekking tot inbreuk op het auteursrecht bij het gebruik van ChatGPT.

AI-verordening

Met het voorlopige akkoord, dat bij goedkeuring gefaseerd in werking zal treden, lijkt het Europees Parlement de eerste allesomvattende AI-wetgeving te hebben gecreëerd. Als het gaat om het versterken van de auteurswet, worden de volgende regels van kracht:

  • Het wordt verplicht kenbaar te maken dat inhoud is gecreëerd met behulp van kunstmatige intelligentie, zoals bijvoorbeeld bij het genereren van kunst of foto’s;
  • Alle AI-systemen en de daaruit voortvloeiende content moeten voldoen aan het auteursrecht van de Europese Unie;
  • AI-systemen moeten uitgebreide overzichten publiceren van het materiaal dat is gebruikt tijdens hun training;
  • EU-burgers hebben het recht om klachten in te dienen ten aanzien van AI-systemen en relevante uitleg te ontvangen over beslissingen die zijn gebaseerd op systemen die hun rechten beïnvloeden.

Daarnaast moeten AI-systemen grondige evaluaties ondergaan voordat ze kunnen worden aangeboden aan de consument en wordt een meldplicht voor incidenten van kracht. Aanzienlijke boetes kunnen worden opgelegd voor het niet naleven van de regels, variërend van vaste geldboetes tot een aanzienlijk percentage van de wereldwijde bedrijfsomzet, afhankelijk van de aard van de overtreding en de omzet van het bedrijf.

Als het gaat om de gevolgen voor de Nederlandse auteurswet, dan zijn deze zeer behoudende eerste wetgevingsstappen vooral gericht op het bevorderen van transparantie vanuit de aanbieders van de verschillende AI- systemen. Voorlopig lijkt het erop dat de rechthebbenden nog steeds zelf verantwoordelijkheid zijn voor het actief bewaken en melden van het gebruik van auteursrechtelijk beschermd materiaal.

Het roept de vraag op of de volgende wetgevingsstap vanuit de EU niet iets meer kan bieden dan het onderstrepen van de huidige auteurswetgeving en het stimuleren van openheid. Een volgende cruciale vraag of discussie, zou kunnen zijn: hoe kan de huidige (nog goed te keuren) wetgeving evolueren om een evenwicht te vinden tussen betere bescherming van auteursrechten en het bevorderen van een meer open en rechtvaardigere digitale AI-omgeving.  DOCFactory ondersteunt organisaties actief bij het verkrijgen van meer grip op hun informatiebeheer, met inachtneming van relevante regelgeving, zoals de Archiefwet en de AVG.  Dit maakt effectieve inzet van informatie en kennis mogelijk voor verschillende doeleinden, terwijl juridische risico’s worden vermeden. Als gevolg hiervan wordt het bestaande archief in een goede, geordende en toegankelijke staat gebracht.

Mocht u vragen hebben, schroom dan niet om contact met ons op te nemen.