Van junior naar senior: waarom je streng mag (en moét) zijn voor AI-agenten

Van junior naar senior: waarom je streng mag (en moét) zijn voor AI-agenten

AI-agenten kunnen complexere problemen oplossen, maar net dat maakt ze gevoeliger voor fouten. Hoe meer werk we aan AI-agenten toevertrouwen, hoe belangrijker menselijk toezicht wordt.

AI-agenten zijn tegenwoordig overal. Een AI-gerelateerde aankondiging is niet meer relevant als er niet ergens het woordje ‘agentic’ in staat. Deze nieuwe volgende grote stap voor kunstmatige intelligentie belooft veel moois, maar wat is een AI-agent nu precies en hoe zet je ze aan het werk in je bedrijf? Bert Vanhalst, research consultant voor Smals Research, bespreekt de mogelijkheden én de risico’s die AI-agenten introduceren.

Eerst denken, dan doen

AI-agenten zijn gebouwd op hetzelfde fundament als generatieve chatbots zoals ChatGPT en Copilot, namelijk LLM’s of large language models. Het verschil zit in hoe ze problemen aanpakken. Vanhalst: “We kennen allemaal ChatGPT dat bijvoorbeeld teksten kan genereren en samenvatten, maar dat is een one-shot operatie”.

“Met AI-agenten kunnen we in iteraties werken om grote problemen op te splitsen in deelstappen en de tussenliggende output te controleren. Eerst wordt geredeneerd over de volgende stap en dan wordt die pas uitgevoerd, in een continue loop”, legt Vanhalst uit. “Bij een klassieke chatbot doe je die iteraties zelf door bij te sturen in de output.

De ene AI-agent is daarom de andere niet. “Vandaag wordt al snel iets een AI-agent genoemd, omdat het nu eenmaal goed verkoopt”, merkt Vanhalst op. “Maar het is een heel spectrum van eenvoudige en complexe systemen. Een systeem hoeft niet altijd complex te zijn. Sommige problemen kan je met een eenvoudig taalmodel, of zelfs helemaal zonder AI oplossen. Ik raad altijd aan om eerst naar de meest eenvoudige oplossing te kijken”.

Sommige problemen kan je met een eenvoudig model, of zelfs helemaal zonder AI oplossen.

Bert Vanhalst, research consultant Smals Research

Het juiste gereedschap

AI-agenten hebben het vermogen zelf te denken, mits je ze duidelijke instructies geeft. Vanhalst: “Als gebruiker bepaal je een kader. Dat omvat criteria voor wat het doel is en wanneer het bereikt is, bijvoorbeeld de inhoud, lengte of stijl van een tekst. AI-agenten kunnen wel dynamisch zijn wat het einddoel betreft”.

De bouwer bepaalt welke middelen een AI-agent mag gebruiken om het doel te bereiken. “Welke tools gebruikt moeten worden en in welke volgorde, die beslissing wordt wel overgelaten aan het model. Modellen zijn in staat hier autonoom over te redeneren”, vult Vanhalst aan.

Dit proces heet in vakjargon tool calling. Hij legt het begrip uit: “Uiteindelijk komt het model tot een gestructureerde output met de naam van de tool en inputparameters. Modellen zijn ook in staat om die uit ongestructureerde input te halen. De outputis eigenlijk niet de uitvoering van de tool, maar het bepalen welke tool waarvoor wordt aangeroepen”.

“Zo kom je uiteindelijk tot een resultaat. Dat kan de finale output zijn, of een deelstap. Bij een deelstap komt dit terug tot bij het taalmodel, dat opnieuw redeneert of er nog tools moeten worden aangeroepen om tot het eindresultaat te komen”, zegt Vanhalst.

Niet blind vertrouwen

AI-modellen zijn vatbaar voor hallucinaties en dat is bij agenten niet anders, weet Vanhalst. “Het redeneren moet vaak gebeuren op onvolledige gegevens of een onzekere context. De kans op fouten is reëel, net omdat AI-agenten worden ingezet voor complexe problemen. Het is dus belangrijk om de kwaliteit van de output te monitoren”.

“Achterhalen waar het fout gaat en dit rechtzetten is een intensief proces”, zegt Vanhalst. Grote taalmodellen hebben een non-deterministisch karakter: een input kan verschillende outputs opleveren. Er zijn veel zaken waar het fout kan lopen. Vandaar de noodzaak om systemen grondig te evalueren en menselijk overzicht te houden eens het systeem in productie gaat”.

Volgens Vanhalst draagt iedere gebruiker daar verantwoordelijkheid in. “Blindelings beginnen vertrouwen op AI-systemen is zeker een risico, zelfs als je merkt dat het model goed presteert. Er zijn richtlijnen nodig om die menselijke validatie te blijven doen. Op een dag kunnen we misschien voldoende zeker zijn voor minder kritische zaken, maar dat zal nog niet morgen zijn”.

Vanhalst houdt zich liever ver van de discussie over ‘aanvaardbare’ foutenpercentages voor AI-agenten. “In bepaalde situaties is het minder erg als er een fout gemaakt wordt, als het om een suggestie gaat bijvoorbeeld. Maar heeft de beslissing van een AI-systeem impact op mensen, dan hangen er gevolgen aan vast. Wanneer is het ‘goed genoeg’? Daar moeten we mee leren omgaan”.

Blindelings vertrouwen op AI is een risico.

Bert Vanhalst, research consuiltant Smals Research

AI als junior

Mensen mogen fouten maken, sommigen zullen zelfs beweren dat dat af en toe eens moet. Waarom verwachten we dan wel de perfectie van kunstmatige intelligentie? Vanhalst zoekt naar een verklaring. “We zijn gewend van computers dat ze de juiste output geven. We programmeren ze zo, dus het moet juist zijn, ook al sluipen er evengoed fouten in”.

lees ook

Zijn AI-agenten je collega’s? Niet echt, maar toch een beetje, insinueert Workday

Hij omschrijft de huidige generatie AI-agenten als juniors. “In het begin ga je nieuwe werknemers ook van dichterbij opvolgen en begeleiden. Als we zien dat ze na verloop van tijd betrouwbaar werk leveren, laten we ze beetje bij beetje los. Ik denk dat we het ook zo met AI-agenten gaan zien gebeuren. Eerst moeten we zien of ze ‘goed genoeg’ werken, en ik zeg bewust niet ‘perfect’, voor we erop vertrouwen”.

Zullen we AI-agenten dan zien evolueren tot seniors, zoals OpenAI-topman Sam Altman voorspelt? Vanhalst is voorzichtiger: “Iedere vendor springt vandaag mee op de kar en er wordt veel beloofd. Leveranciers verbeteren dan wel hun modellen, maar je moet nog vaak zelf een mechanisme voor feedback inbouwen”.

Het werk begint pas

Vanhalst raadt aan om eerst voorzichtig te leren stappen met AI alvorens te lopen. “Je kan doorgaans snel iets opzetten met de technologie, maar de uitdaging zit in het monitoren van de kwaliteit. Een systeem ‘productieklaar’ krijgen, is een lange weg. Maar het werk begint eigenlijk pas eens het systeem in productie gaat, omdat je dan het effectieve gebruik door eindgebruikers krijgt. Dan moet je gaan evalueren”.

“De moeilijkheid is dat je met niet-deterministische output zit. Dat evalueren, vraagt vaak nog manueel werk”, waarschuwt Vanhalst. “Je moet output per output controleren of die correct was en waar nodig debuggen. We bekijken zelf een manier om dat evaluatieproces te automatiseren. Paradoxaal schakelen we daar terug taalmodellen voor in”.

Vanhalst wil bedrijven absoluut niet afschrikken om met AI-agenten aan de slag te gaan, maar met aandacht voor de risico’s. “Het is een boeiende wereld. Het is nuttig om naar cases te zoeken, zonder te verwachten dat AI-agenten plots alles gaan oplossen. Een goed kosten-baten-evenwicht is belangrijk”.

Deze redactionele bijdrage kwam tot stand in samenwerking met onze partner Smals.