Waarom AI een hersenscan moet krijgen

Hersenscan voor AI: Anthropic-CEO wil AI-modellen begrijpen tegen 2027

De CEO van Anthropic trekt aan de alarmbel: AI-modellen zijn vandaag onvoldoende transparant. Ondanks de gevaren heerst er een tweestrijd tussen intelligentie en interpreteerbaarheid.

Dario Amodei, CEO van Anthropic, breekt in een uitgebreide blogpost een lans voor interpreteerbare generatieve AI-modellen. “Mensen buiten het onderzoeksveld zijn vaak verrast en gealarmeerd wanneer ze ontdekken dat wij niet begrijpen hoe onze eigen AI-creaties werken”, stelt hij vast.

Zwarte doos

Generatieve AI brengt zo een heel uniek probleem met zich mee: onderzoekers weten hoe ze modellen moeten maken en wat ze kunnen, maar wat er binnenin het neurale netwerk van een LLM gebeurt en waarom bepaalde input voor specifieke output zorgt, is een raadsel. Dat zogenaamde black box-effect brengt een gebrek aan transparantie met bijhorende risico’s met zich mee.

Mensen zijn verrast en gealarmeerd wanneer ze ontdekken dat wij niet begrijpen hoe onze eigen AI-creaties werken.

Dario Amodei, CEO Anthropic

Amodei: “Veel van de risico’s en zorgen die we associëren met generatieve AI zijn een gevolg van het gebrek aan transparantie.” Kwalijk gedrag zoals vooroordelen of ingebakken racisme valt zo moeilijk te voorspellen of te verhelpen.

Misleiding en macht

De CEO ziet nog verdere en grotere risico’s. “De manier waarop AI getraind wordt maakt het mogelijk dat AI-systemen een mogelijkheid zullen ontwikkelen om mensen te misleiden en macht te zoeken”, denkt hij. Dat is voor een stuk al waar: LLM’s zijn geneigd antwoorden te hallucineren die hun gebruikers tevredenstellen, los van eventuele onwaarheden.

Volgens Amordei zijn er wel degelijk technieken mogelijk die transparantie ten goede zouden komen. Hij stelt dat het wel mogelijk is om te ontcijferen wat er gebeurt binnen het denkproces van een LLM. Mechanistische interpreteerbaarheidstechnieken kunnen ervoor zorgen dat aan het licht komt hoe LLM-neuronen precies verbonden zijn, en wat de impact daarvan is op het denkproces, op een door mensen begrijpbare manier.

Hersenscan

Interpreteerbaarheid is volgens Amodei de sleutel tot veiligere, betere en meer betrouwbare modellen. “Onze ambitie op lange termijn is om een soort hersenscan te kunnen uitvoeren op hypermoderne modellen”, zegt hij. “Daarmee kunnen we dan problemen aan het licht brengen. Als we in modellen kunnen kijken, zullen we misschien ook alle vormen van jailbreaks kunnen blokkeren, en inschatten welke gevaarlijke kennis de modellen bezitten.”

Amodei wil het onderzoeksveld in actie laten schieten. “AI-onderzoekers in bedrijven, de academische wereld en nonprofits kunnen interpreteerbaarheid sneller werkelijkheid maken door er rechtstreeks op te werken. Overheden kunnen een rol spelen met beperkte regels die de ontwikkeling van interpreteerbaarheid een boost geven.”

Slim of interpreteerbaar?

Op dit moment boeken onderzoekers vooruitgang, maar is er een spanningsveld. Bedrijven geven voorrang aan de ontwikkeling van steeds intelligentere modellen, bovenop de transparantie van de modellen. Amodei ziet een race tussen interpreteerbaarheid enerzijds, en intelligentie anderzijds.

Anthropic brengt eerste Claude AI-model uit met ‘hybride denkproces’

Met Anthropic wil de CEO het goede voorbeeld geven. In 2027 al wil hij dat zijn bedrijf de meeste modelproblemen kan detecteren. Hij wil dat AI-systemen begrepen worden voor ze de samenleving echt gaan transformeren.

Dario Amodei neemt een redelijk unieke positie in, tenminste als CEO van een grote AI-speler. Anthropic is immers de poulain van AWS, dat er sterk in investeert om zo alternatieven voor de LLM’s van OpenAI te ontwikkelen. OpenAI, Meta en andere spelers hebben vandaag nog weinig oog voor de impact van hun LLM’s, en willen vooral groter en beter opleveren. Amodei pleit in essentie voor een verschuiving van de prioriteiten.

Het pleidooi kan verder helpen met de positionering van Anthropic en diens modellen zoals Claude. Als de CEO zijn bedrijf naar voren kan brengen als pionier in transparantie, ontstaat er een voordelige perceptie voor bedrijven die AI willen omarmen. Een eventuele functionele achterstand op een model van pakweg OpenAI valt immers te compenseren door de discussie breder te trekken, en een voorsprong inzake interpreteerbaarheid op gelijke hoogte te zetten.