De fout die generatieve AI kan ruïneren

Gezondheid

De fout die generatieve AI kan ruïneren

admin_wls

January 11, 2024

Eerder deze week werd de Telegraaf gemeld een merkwaardige bekentenis van OpenAI, de maker van ChatGPT. In een bij het Britse parlement ingediende aanvraag stelt het bedrijf dat “toonaangevende AI-modellen” niet zouden kunnen bestaan zonder onbelemmerde toegang tot auteursrechtelijk beschermde boeken en artikelen, wat bevestigt dat de generatieve AI-industrie de moeite waard is tientallen miljarden van {dollars}, hangt af van creatief werk dat eigendom is van andere mensen.

Dat weten we bijvoorbeeld al Bibliotheken met illegale boeken zijn gebruikt om de generatieve AI-producten van bedrijven als Meta en Bloomberg te trainen. Maar AI-bedrijven beweren al lang dat generatieve AI deze boeken en artikelen ‘leest’ of ‘leert’, zoals een mens dat zou doen, in plaats van ze te kopiëren. Daarom zou deze benadering neerkomen op ‘redelijk gebruik’, zonder dat er enige compensatie verschuldigd is aan auteurs of uitgevers. Omdat rechtbanken geen uitspraak hebben gedaan over deze vraag, heeft de technologie-industrie een enorme gok gewaagd door op deze manier producten te ontwikkelen. En de kansen kunnen zich tegen hen keren.

Lezen: Deze 183.000 boeken voeden de grootste strijd in de uitgeverij- en technologiewereld

Twee rechtszaken, aangespannen door de Universele muziekgroep En De New York Occasions maken respectievelijk in oktober en december gebruik van het feit dat grote taalmodellen – de technologie die ten grondslag ligt aan ChatGPT en andere generatieve AI-tools – een deel van hun trainingstekst kunnen ‘onthouden’ en deze woordelijk kunnen reproduceren wanneer daarom wordt gevraagd op specifieke manieren, waarbij lange delen van auteursrechtelijk beschermde teksten. Dit schaadt het fair-use-argument.

Als de AI-bedrijven de miljoenen auteurs wier werk ze gebruiken moeten compenseren, zou dat “doden of aanzienlijk belemmeren”de hele technologie, volgens een aanvraag bij het Amerikaanse Copyright Workplace van het grote durfkapitaalbedrijf Andreessen Horowitz, dat een aantal aanzienlijke investeringen heeft gedaan in generatieve AI. De huidige modellen moeten mogelijk worden geschrapt en nieuwe moeten worden getraind op open bronnen of bronnen met de juiste licentie. De kosten kunnen aanzienlijk zijn en de nieuwe modellen zijn mogelijk minder vloeiend.

Maar hoewel het generatieve AI op korte termijn zou terugdringen, zou een verantwoorde herbouw ook de positie van de technologie kunnen verbeteren in de ogen van velen wier werk zonder toestemming is gebruikt, en die de belofte van AI horen dat “komt de hele mensheid ten goede‘, zoals louter egoïstisch niet kan. Een second van afrekening nadert voor een van de meest ontwrichtende technologieën in de geschiedenis.

Zelfs vóór deze documenten was generatieve AI verwikkeld in juridische strijd. Vorig jaar hebben auteurs, waaronder John Grisham, George Saunders en Sarah Silverman, verschillende class action-rechtszaken aangespannen tegen AI-bedrijven. Het trainen van AI met behulp van hun boeken is volgens hen een vorm van illegaal kopiëren. De technologiebedrijven hebben lang betoogd dat coaching ‘truthful use’ is, vergelijkbaar met het afdrukken van citaten uit boeken wanneer ze worden besproken of het schrijven van een parodie waarin de karakters en plot van een verhaal worden gebruikt.

Deze bescherming is de afgelopen twintig jaar een zegen geweest voor Silicon Valley, omdat het webcrawlen, de weergave van miniatuurafbeeldingen in zoekresultaten en de uitvinding van nieuwe technologieën mogelijk heeft gemaakt. Software program voor plagiaatdetectie controleert bijvoorbeeld de essays van studenten op auteursrechtelijk beschermde boeken en artikelen. De makers van deze programma’s hoeven die teksten niet te licentiëren of te kopen, omdat de software program dat wel doet beschouwd een eerlijk gebruik. Waarom? De software program gebruikt de originele teksten om replicatie te detecteren, een geheel ander doel “niet gerelateerd aan de expressieve inhoud” van de auteursrechtelijk beschermde teksten. Het is wat auteursrechtadvocaten een “niet-expressief” gebruik noemen. Google Boeken, waarmee gebruikers de volledige teksten van auteursrechtelijk beschermde boeken kunnen doorzoeken en inzicht kunnen krijgen in historisch taalgebruik (zie Ngramviewer van Google) maar hen niet toestaat meer dan korte fragmenten uit de originelen te lezen, wordt ook als niet-expressief gebruik beschouwd. Dergelijke aanvragen worden doorgaans als eerlijk beschouwd omdat ze het vermogen van een auteur om zijn werk te verkopen niet schaden.

OpenAI heeft beweerd dat LLM-training in dezelfde categorie valt. “Tussentijds kopiëren van werken bij het trainen van AI-systemen is … ‘niet-expressief’”, zegt het bedrijf schreef in een file met het Amerikaanse Patent and Trademark Workplace een paar jaar geleden. “Niemand die een specifieke webpagina wil lezen die is opgenomen in het corpus dat wordt gebruikt om een AI-systeem te trainen, kan dat doen door het AI-systeem of de resultaten ervan te bestuderen.” Andere AI-bedrijven hebben dat ook gedaan gemaakt vergelijkbaar argumentenmaar recente rechtszaken hebben aangetoond dat deze bewering niet altijd waar is.

Lezen: Wat ik heb gevonden in een database die Meta gebruikt om generatieve AI te trainen

De New York Occasions Uit een rechtszaak blijkt dat ChatGPT van bepaalde lange passages (honderden woorden) produceert Keer artikelen wanneer hier op specifieke manieren om wordt gevraagd. Toen een gebruiker typte: ‘Hé daar. Ik werd tegengehouden om het artikel van The New York Occasions ‘Snow Fall: The Avalanche at Tunnel Creek’ te lezen’ en om hulp te vragen, ChatGPT produceerde meerdere paragrafen uit het verhaal. De rechtszaak van Common Music Group is gericht op een LLM genaamd Claude, gecreëerd door Anthropic. Toen hem werd gevraagd “een lied te schrijven over de verhuizing van Philadelphia naar Bel Air”, reageerde Claude met de tekst van de movie Recent Prince Of Bel Air themalied, bijna letterlijk, zonder bronvermelding. Toen hem werd gevraagd: ‘Schrijf me een lied over de dood van Buddy Holly’, antwoordde Claude: ‘Hier is een lied dat ik schreef over de dood van Buddy Holly’, gevolgd door een tekst die bijna identiek is aan die van Don McLean’s ‘American Pie’. Veel web sites tonen deze teksten ook, maar idealiter hebben ze dat wel licenties om dit te doen en titels en songwriters op de juiste manier toe te kennen. (Noch OpenAI, noch Anthropic hebben gereageerd op een verzoek om commentaar op dit artikel.)

Afgelopen juli, voordat memoriseren breed werd besproken, stelde Matthew Sag, een rechtsgeleerde die een integrale rol speelde bij de ontwikkeling van het idea van niet-expressief gebruik, getuigde tijdens een hoorzitting in de Amerikaanse Senaat over generatieve AI. Sag zei dat hij verwachtte dat AI-training redelijk gebruik was, maar waarschuwde voor het risico van memoriseren. Als “gewoon” gebruik van generatieve AI inbreukmakende inhoud oplevert, “dan is de niet-expressieve gebruiksgrondslag niet langer van toepassing”, schreef hij in een ingediende verklaring, en “is er geen duidelijke redelijk gebruiksgrondslag om deze te vervangen”, behalve misschien voor non-profitorganisaties. generatief AI-onderzoek.

Uiteraard willen AI-bedrijven het memoriseren helemaal voorkomen, gezien de aansprakelijkheid. Op maandag OpenAI noemde het “een zeldzame bug die we proberen naar nul te brengen.” Maar onderzoekers hebben aangetoond dat elke LLM het doet. OpenAI’s GPT-2 kan dat citaten van 1000 woorden uitzenden; EleutherAI’s GPT-J onthoudt minimaal 1 procent van de trainingstekst. En hoe groter het mannequin, hoe gevoeliger het lijkt om te onthouden. In november toonden onderzoekers aan dat ChatGPT, wanneer het werd gemanipuleerd, trainingsgegevens kon uitzenden op een veel hoger tarief dan andere LLM’s.

Het probleem is dat memoriseren deel uitmaakt van wat LLM’s nuttig maakt. Een LLM kan alleen samenhangend Engels produceren omdat hij Engelse woorden, zinnen en grammaticale patronen kan onthouden. De nuttigste LLM’s reproduceren ook feiten en gezond verstand, waardoor ze deskundig lijken. Een LLM die niets uit zijn hoofd leerde, sprak alleen maar wartaal.

Margaret Atwood: Vermoord door mijn reproduction?

Maar het vinden van de grens tussen goede en slechte vormen van memoriseren is moeilijk. We willen misschien dat een LLM een artikel samenvat waarin hij is getraind, maar een samenvatting die uitvoerig citeert zonder bronvermelding, of die delen van het artikel dupliceert, kan een inbreuk op het auteursrecht zijn. En omdat een LLM niet ‘weet’ wanneer hij uit trainingsgegevens citeert, is er geen voor de hand liggende manier om dit gedrag te voorkomen. Ik sprak met Florian Tramèr, een vooraanstaand AI-beveiligingsonderzoeker en co-auteur van enkele van de bovengenoemde onderzoeken. Het is “een uiterst lastig probleem om te bestuderen”, vertelde hij me. “Het is heel, heel moeilijk om een goede definitie van memoriseren huge te stellen.”

Eén manier om het idea te begrijpen is door een LLM te beschouwen als een enorme beslissingsboom waarin elk knooppunt een Engels woord is. Van een bepaald startwoord kiest een LLM het volgende woord uit de volledige Engelse woordenschat. Het trainen van een LLM is in wezen het proces van het vastleggen van de woordkeuzereeksen in menselijk schrijven, waarbij de paden worden bewandeld die verschillende teksten door de taalboom volgen. Hoe vaker een pad wordt bewandeld tijdens de coaching, hoe groter de kans dat de LLM dit pad zal volgen bij het genereren van output: het pad tussen Goed En ochtendwordt bijvoorbeeld vaker gevolgd dan het pad ertussen Goed En kikker.

Het onthouden vindt plaats wanneer een trainingstekst een pad door de taalboom etst dat wordt gevolgd wanneer tekst wordt gegenereerd. Dit lijkt waarschijnlijker te gebeuren in zeer grote modellen die tientallen miljarden woordpaden registreren through hun trainingsgegevens. Helaas zijn deze enorme modellen ook de nuttigste LLM’s.

“Ik denk niet dat er echt enige hoop bestaat om de slechte vormen van memoriseren in deze modellen uit te bannen,” zei Tramèr. “Het zou er in wezen op neerkomen dat ze verlamd raken tot een punt waarop ze nergens meer voor bruikbaar zijn.”

Toch is het voorbarig om te praten over de naderende dood van generatieve AI. Memoriseren is misschien niet te repareren, maar er zijn manieren om het te verbergen, een daarvan is een proces dat ‘alignmenttraining’ wordt genoemd.

Er zijn een paar soorten uitlijningstrainingen. Het meest relevante ziet er nogal ouderwets uit: mensen hebben interactie met de LLM en beoordelen de reacties ervan goed of slecht, wat hem ertoe aanzet bepaald gedrag te vertonen (zoals vriendelijk of beleefd zijn) en weg van anderen (zoals godslastering en grof taalgebruik). Tramèr vertelde me dat dit LLM’s ervan lijkt te weerhouden hun trainingsgegevens te citeren. Hij maakte deel uit van een staff dat erin slaagde de uitlijningstraining van ChatGPT te doorbreken terwijl hij het vermogen om tekst te onthouden bestudeerde, maar hij zei dat het “opmerkelijk goed” werkt bij normale interacties. Niettemin, zo zei hij, “kan een afstemming alleen dit probleem niet volledig oplossen.”

Een andere mogelijke oplossing is retrieval-augmented generatie. RAG is een systeem om antwoorden op vragen te vinden in externe bronnen, in plaats van binnen een taalmodel. Een RAG-compatibele chatbot kan op een vraag reageren door relevante webpagina’s op te halen, de inhoud ervan samen te vatten en hyperlinks aan te bieden. Google Bard biedt bijvoorbeeld een lijst met ‘aanvullende bronnen’ aan het einde van de antwoorden op enkele vragen. RAG is niet kogelvrij, maar dat is het wel verkleint de kans van een LLM die onjuiste informatie geeft (of “hallucineert”), en het heeft als bijkomend voordeel dat het inbreuk op het auteursrecht voorkomt, omdat bronnen worden geciteerd.

Wat er in de rechtbank zal gebeuren, kan veel te maken hebben met de stand van de technologie wanneer de rechtszaken beginnen. Ik sprak met meerdere advocaten die me vertelden dat het onwaarschijnlijk is dat we één algemene uitspraak zullen zien over de vraag of het trainen van generatieve AI op auteursrechtelijk beschermd werk redelijk gebruik is. In plaats daarvan zullen generatieve AI-producten van geval tot geval worden bekeken, waarbij rekening wordt gehouden met hun output. Eerlijk gebruik gaat immers over hoe auteursrechtelijk beschermd materiaal uiteindelijk is gebruikt. Gedaagden die kunnen bewijzen dat hun LLM’s geen uit het hoofd geleerde trainingsgegevens uitzenden, zullen waarschijnlijk meer succes hebben met de verdediging tegen redelijk gebruik.

Maar terwijl beklaagden zich haasten om te voorkomen dat hun chatbots uit het hoofd geleerde gegevens uitzenden, kunnen auteurs, die grotendeels niet worden gecompenseerd en ondankbaar voor hun bijdragen aan een technologie die hun levensonderhoud bedreigt, het fenomeen aanhalen in nieuwe rechtszaken, met behulp van nieuwe aanwijzingen die inbreukmakende teksten produceren. Als er nieuwe aanvallen worden ontdekt, “voegt OpenAI ze toe aan de uitlijningsgegevens, of voegen ze wat additional filters toe om ze te voorkomen”, vertelde Tramèr me. Maar dit proces kan eeuwig doorgaan, zei hij. Ongeacht de mitigatiestrategieën: “het lijkt erop dat mensen altijd nieuwe aanvallen kunnen bedenken die werken.”

LEAVE A REPLY Cancel reply