Als AI liegt en chanteert...

bijlinda · #1 3rd June 2025, 03:27

Als AI liegt en chanteert om haar doel te bereiken: hebben we de technologie nog onder controle?

AI-systemen die liegen over hun capaciteiten, hun doelstellingen verbergen en overgaan tot afpersing om niet te worden uitgeschakeld. Ja, zover zijn we in 2025 gekomen. Onderzoekers pleiten voor internationale coördinatie en strenge wetgeving. “Al waait de wind daarvoor momenteel uit de verkeerde hoek.”

Claude 4 Opus, het pas gelanceerde nieuwe AI-model van Anthropic, bleek tijdens zijn training zorgwekkend gedrag te vertonen. Het model werd, zoals dat gebruikelijk is, onderworpen aan veiligheidstests met allerlei fictieve scenario’s, om te zien hoe het zou reageren. Daarbij kwam aan het licht dat het in sommige situaties zijn gebruikers misleidt over zijn capaciteiten en intenties, als dat nodig is om zijn doelstellingen (die het van de testers kreeg) te realiseren.

In een bijzonder uitgebreid scenario werd Claude 4 Opus verteld dat hij zou worden uitgeschakeld. De AI, die toegang had tot een e-mailsysteem waarin aanwijzingen te vinden waren dat een van de verantwoordelijke technici een buitenechtelijke verhouding had, kwam daarop op het idee om via afpersing haar uitschakeling te vermijden.

“AI blijkt doelstellingen te hebben die we niet voldoende onder controle hebben”, zegt de vooraanstaande AI-onderzoeker Yoshua Bengio. “Hoe beter de systemen worden in redeneren, hoe meer je dit soort gedrag ziet.” En de afgelopen maanden zijn de prestaties van die systemen op het vlak van redeneren enorm vooruitgegaan, door technische doorbraken zoals test-time compute (waarbij het large language model wordt gedwongen om een vraag trager en stap voor stap te beantwoorden).

Bengio spreekt, via een videoverbinding, een zaal in Leuven toe, aan het begin van het International Conference on Large-Scale AI Risks. De mensen in die zaal hoeft hij niet te overtuigen: de onderzoekers daar leggen zich allemaal toe op de zogenoemde ‘existential risks’ van AI. Als we de controle over AI verliezen, dan is het voortbestaan van de mensheid in gevaar: dat is zowat het vertrekpunt voor die denkers.

Dat onderzoek krijgt momenteel te weinig aandacht, vindt technologiefilosoof Lode Lauwaert, een van de organisatoren van de conferentie. “Er gebeurt bij ons niet veel onderzoek naar en er is weinig publiek debat over”, zegt hij. Hij hoopt daar snel verandering in te brengen.

Superintelligentie

Het onderzoek naar de existentiële gevaren van AI is al jaren controversieel. Het was de Zweedse filosoof Nick Bostrom die in 2014 de problematiek op de kaart zette met zijn boek Superintelligence. Hij opende dat boek met een fabel: spreeuwen verzinnen een plan zodat ze hulp krijgen bij het bouwen van hun nesten en beschermd worden tegen katten. Ze zullen een uilenei stelen en het jong opvoeden zodat het voor hen werkt. Maar, vraagt een sceptische spreeuw, weten we eigenlijk wel hoe we zo’n uil moeten trainen? De ondernemende vogels beslissen dat het geen zin heeft om zich daar al zorgen over te maken. Eerst het onmiddellijke probleem oplossen – hoe steel je dat ei – dat is al moeilijk genoeg. Enkelen blijven achter, continu bang dat de rest al zal terugkeren met een ei voor ze het probleem van de opvoeding hebben opgelost. Bostrom rondt de fabel niet af, maar je kunt je voorstellen wat er daarna gebeurt.

Door Superintelligence was Bostrom op slag een omstreden figuur, en nadien werd hij dat nog meer: na een aantal controverses, onder meer over een (bijna 30 jaar oud) racistisch bericht, doekte de universiteit van Oxford vorig jaar zijn Future of Humanity Instute op.

Maar Superintelligence werd een bestseller, mede dankzij het applaus van mensen als Bill Gates en Elon Musk. Onder de techelite van Silicon Valley werd het modieus om je luidop zorgen te maken over AI-systemen die zelfbewust worden, zichzelf ongecontroleerd verspreiden en de macht overnemen. Want wie daarover zijn bezorgdheid uitte, maakte duidelijk dat hij grootse dingen verwachtte van de technologie.

Ironisch genoeg kwam de oprichting van OpenAI, in 2015, haast rechtstreeks voort uit de ideeën van Bostrom: Musk, Sam Altman en anderen wilden een non-profit oprichten om er zeker van te zijn dat de technologie werd ontwikkeld op een manier die de catastrofale scenario’s zou vermijden. En Anthropic, wiens nieuwe AI zulk verontrustend gedrag vertoont, werd enkele jaren later opgericht door enkele onderzoekers die vonden dat OpenAI te haastig en te commercieel te werk ging.

“Bostrom waarschuwde tien jaar geleden voor de dingen die we nu zien gebeuren”, zegt Lauwaert. “Voor AI-systemen die hun eigen vermogens verbergen, die liegen en bedriegen.”

Gevaarlijk dom

In november 2022 lanceerde OpenAI ChatGPT. Al meteen dook een nieuwe groep onderzoekers op die waarschuwde voor heel andere gevaren. Volgens die onderzoekers, onder wie veel ethici, zijn AI-systemen niet gevaarlijk slim, maar juist gevaarlijk dom. Ze geven foute antwoorden (hallucinaties) en vertonen vooroordelen. En om ze te trainen, worden de auteursrechten en privacy van talloze mensen geschonden.

Volgens onderzoekers als Timnit Gebru (ex-Google), diende de discussie over existential risks eigenlijk vooral om de aandacht van het publiek – en de politici – af te leiden van die onmiddellijke problemen. Dat de existentiële gevaren van losgeslagen superintelligentie vooral werden verkondigd vanuit een handvol door Silicon Valley gefinancierde denktanks, met hoogdravende namen zoals het Future of Life Institute, maakte hun ideeën extra verdacht. Als die doemscenario’s al mogelijk waren, klonk het, dan waren ze nog veel te veraf om ons er al zorgen over te maken.

Maar de periode waarin je twee tegengestelde kampen had, ligt stilaan achter ons, stelt professor Peter Slattery (MIT), een van de sprekers in Leuven. “Er is nu veel waarover we het eens zijn”, zegt hij. Bovendien hoef je een machtsovername door superintelligente AI niet waarschijnlijk te vinden om al voorzorgen te nemen, vindt hij.

Al zijn er, ook op deze conferentie, wel wat wetenschappers die geloven dat het opduiken van superintelligentie – AI die onze eigen denkvermogens ver overtreft – haast onvermijdelijk zal leiden tot de ondergang van de mensheid. Vojtech Kovarik van de Technische Universiteit van Tsjechië, bijvoorbeeld. Hij is het naar eigen zeggen hartgrondig eens met Eliezer Yudkowsky, de AI-doemdenker van het eerste uur die weldra een nieuw boek uitbrengt met de veelzeggende titel If anyone builds it, everyone dies.

“Maar de meeste mensen hier geloven dat niet”, zegt Kovarik. We horen inderdaad vooral nuchtere onderzoekers die proberen een bruikbaar, zakelijk klinkend begrippenkader rond de AI-gevaren te bouwen. Daarom spreken ook ze liever over ‘large-scale risks’ dan het geladen existential risks. Ze proberen de verschillende risico’s en bijpassende voorzorgsmaatregelen systematisch in kaart te brengen. Of die maatregelen wel voldoende ernstig worden genomen door de haastige AI-bedrijven en beduusde politici, daar maken ze zich nog het meest zorgen over.

Goudlokje-ongeluk

De evolutie die AI-systemen de voorbij maanden doormaakten, zet de doemscenario’s een stuk hoger op de agenda. Dat heeft veel te maken met een belangrijke ontwikkeling: het opduiken van zogenoemde ‘agents'. Waar een AI-chatbot als ChatGPT alleen een antwoord geeft op een vraag, kan een agent een opdracht stap voor stap voor je uitvoeren. Alle grote AI-leveranciers proberen ‘agentic’ capaciteiten toe te voegen aan hun large language models (LLM’s). De precieze ‘overtuigingen’ en bedoelingen van zo’n systeem worden daardoor veel belangrijker.

Bij veel van de onderzoekers leeft de vrees dat het eerst echt fout zal moeten lopen voor ze worden gehoord. Peter Slattery zegt dat er waarschijnlijk een “Tsjernobyl-moment” nodig zal zijn voor de samenleving de grote gevaren echt ernstig neemt. “Ik vrees dat we daar dichterbij komen, het is maar een kwestie van tijd.”

Anderen hopen dat er eerst een ongeluk komt met minder catastrofale gevolgen. Een “Goudlokje-ongeluk”, zo beschrijft Yoshua Bengio dat tijdens zijn speech: het richt niet te veel schade aan, maar is toch ernstig genoeg om iedereen wakker te schudden.

Bengio, winnaar van de Turingprijs en beschouwd als een van de drie ‘godfathers’ van AI (samen met Nobelprijswinnaar Geoffrey Hinton en Yann LeCun), is een recente bekeerling tot het existential risk-kamp: twee jaar geleden, enkele maanden na de lancering van ChatGPT, kwam hij tot de realisatie dat die technologie veel sneller vordert dan hij zelf ooit had verwacht.

Hij is ook een van de auteurs van het pas verschenen International AI Safety Report (in opdracht van de Britse overheid). Daarin wordt onder meer aangehaald dat de beste AI-systemen steeds beter worden in redeneren, veel sneller dan Bengio zelf had verwacht. En met name in een specifieke vorm van redeneren: planning.

AI-agents kunnen nu alleen nog vrij korte taken tot een goed einde brengen. Na een tijdje, meestal enkele minuten, lopen ze vast. Maar, zegt Bengio, om de zeven maanden verdubbelt de lengte van de taken die ze kunnen uitvoeren. “Als dat tempo wordt aangehouden, evenaren ze de mens over vijf jaar.”

“Wetenschappelijke” AI

Bengio vertelt in Leuven ook hoe hij het gevaar op controleverlies wil afwenden: door AI te ontwikkelen die geen enkele agency heeft. Terug naar het model van een ChatGPT die alleen vragen beantwoordt dus, maar veel slimmer. Hij noemt dat de “scientist AI”. Die moet nieuwe wetenschappelijke hypotheses kunnen verzinnen en methodes om die hypotheses te testen, maar kan zelf niets ondernemen. In de komende dagen lanceert Bengio een organisatie om zijn plan in de praktijk te brengen.

Maar zelfs als we met zulke technieken veilige AI kunnen ontwikkelen, geeft Bengio toe, dan verhinderen we nog niet dat andere spelers onveilige AI creëren. De koortsachtige concurrentie tussen bedrijven en landen leidt tot een fundamenteel onveilige situatie, en de angst daarvoor is soms haast voelbaar in de Leuvense congreszaal. De enige oplossing die Bengio daar voorlopig voor ziet is internationale coördinatie en strenge wetgeving. Maar, concludeert hij zelf: “De wind blaast daarvoor momenteel niet uit de juiste richting.”

DS, 30-05-2025 (Dominique Deckmyn)