GPT-5 getest: gestructureerde en ‘zakelijke’ denker

GPT-5 is sinds eind vorige week beschikbaar voor alle ChatGPT-gebruikers. Wat heeft het nieuwste model van OpenAI te bieden? We vergelijken met zijn voorganger GPT-4o.

OpenAI kondigde vorige week met veel tromgeroffel het langverwachte GPT-5-model aan. Het nieuwe taalmodel moet nauwkeurigere antwoorden geven en beter omgaan met complexe vragen dan de vorige generatie. OpenAI heeft veel vertrouwen in GPT-5 en maakte het per direct de standaardoptie voor ChatGPT.

De eerste reacties op GPT-5 zijn gemengd. Gebruikers moesten even aanpassen aan de nieuwe conversatiestijl van ChatGPT. Op vraag van gebruikers bracht OpenAI daarom GPT-4o terug: met een simpele klik wissel je tussen verschillende versies. De ideale gelegenheid voor ons om beide modellen eens naast elkaar te leggen.

Zo vervang je GPT-5 door GPT-4o

Eén uniform systeem

Eerst werpen we een korte blik onder de hersenpan van GPT-5. GPT-5 is, zoals vorige versies, niet één model. Je hebt het ‘basismodel’ gpt-5-main, gpt-5-thinking voor prompts waar complexer redeneervermogen aan te pas komt en gpt-5-pro. Die laatste reserveert OpenAI voor wie het duurste Pro-abonnement heeft.

Wat uniek is aan GPT-5, is dat de modellen worden aangeroepen vanuit één uniform systeem. In principe hoef je in het keuzemenu van ChatGPT geen model te selecteren. GPT-5 bepaalt op basis van je prompt welk model het meest geschikt is om die te beantwoorden. Zo springt ChatGPT toch een beetje zuiniger om met zijn middelen dan tot nu het geval was.

GPT-5 moet over het algemeen ook beter presteren dan GPT-4o op verscheiden taken en minder hallucineren. Op zowat iedere benchmark die OpenAI bij de aankondiging deelde, doet het nieuwe model beter. Wat je als gebruiker misschien sneller zal merken, is dat GPT-5 een andere stijl hanteert. GPT-4 staat gekend als een onderdanige ja-knikker, terwijl GPT-5 zich meer als een sparringpartner opstelt die ook níét akkoord durft zijn.

GPT-5 vs GPT-4: een vergelijking

Aan de hand van een paar testjes vergelijken we GPT-5 en GPT-4o. De tests peilen naar verschillende vaardigheden, waaronder redeneren. Beide modellen krijgen telkens een identieke prompt voorgeschoteld. We voeren de test uit aan de hand van Engelstalige prompts, maar je kan deze test voor jezelf overdoen in een taal naar keuze.

Academicus

OpenAI CEO Sam Altman omschrijft GPT-5 als een ‘doctoraatsstudent’, dus vragen we ChatGPT als eerste test om op academisch niveau uit te leggen hoe kwantumcomputers werken. GPT-5 kruipt in de huid van een academicus en legt de structuur uit. GPT-4 mist een duidelijke conclusie die de essentie nog eens samenvat.

In een vervolgprompt vragen we de modellen om kwantumcomputers uit te leggen te doen alsof het voor een kleuterklas staat en een visual te gebruiken. GPT-5 begrijpt dat een jong doelpubliek meer heeft aan een duidelijk beeld dan een lange uitleg. GPT-4o is zijn overenthousiaste zelf, maar de uitleg bevat weinig tot geen ondersteunend beeldmateriaal en zou een bende kleuters snel doen afhaken.

Denken in stappen

In een volgende test nemen we de redeneercapaciteiten onder de loep. Beide modellen zijn getraind om in meerdere stappen te ‘denken’, waardoor je complexe vragen kan stellen. GPT-5 toont je het redeneerproces en neemt er zelfs de stopwatch bij.

Als eerste voorbeeld vragen we om een trainings- en dieetplan op te stellen. De fictieve persoon heeft geen loopervaring en slechte knieën, maar wil over exact één jaar een marathon lopen. Om het dieetplan wat moeilijker te maken, is de persoon glutenvrij en eet hij/zij uitsluitend veganistisch.

Beide modellen delen het trainingsschema op in vier fasen om stap voor stap naar een marathon toe te werken. Ook zijn beide dieetplannen opgedeeld volgens een dagelijks schema en optionele supplementen die kunnen genomen worden. GPT-5 krijgt het lichte voordeel omdat het extra tips geeft om de slechte knieën te beschermen, iets wat GPT-4 wat uit het oog verloren was.

Na de inspanning volgt ontspanning. Nu vragen we ChatGPT om ons te helpen met onze reisplannen. We testen twee scenario’s. Eerst willen we naar Australië reizen. We vragen een reisplanning met enkele locaties die we zeker willen zien. Het is aan ChatGPT om zelf uit te zoeken wat de beste reisperiode is, de beste prijzen te zoeken en de route efficiënt uit te stippelen.

Opnieuw krijgen we twee keer een uitgebreid overzicht. GPT-5 en GPT-4 kiezen allebei de maand september uit als ideale reismaand en komen tot een min of meer gelijkaardige dagplanning voor drie weken. Het reisplan van GPT-5 is uitgebreider met tips over hoe de beste prijzen voor vluchten en logement te vinden.

Nu blijven we wat dichter bij huis en willen we met een elektrische wagen van Brussel naar Athene rijden. We vragen ChatGPT om een kaart te ontwerpen en te markeren waar we zouden moeten laden, gebaseerd op het rijbereik van de auto. GPT-5 speelt op safe en stelt 11 tussenstops voor. GPT-4o denkt het in negen etappes te kunnen doen, maar stelt daarbij afstanden voor die de auto niet haalt zonder bij te laden. GPT-5 maakt het reisschema visueler dan GPT-4.

Wiskunde en coderen

Van redeneren gaat het naar wiskunde. We laten GPT-5 en GPT-4o een ingewikkelde mathematische vergelijking oplossen en de tussenstappen tonen, zoals een wiskundetoets. Beide modellen komen tot de correcte oplossing, maar GPT-5 heeft er minder tussenstappen voor nodig. Hetzelfde zien we bij een wiskundig raadsel waar de modellen naar een getal moeten zoeken. GPT-4 moet meer getallen ‘proberen’ om de oplossing te vinden dan GPT-5.

GPT-5 zou beter moeten zijn in coderen, dus testen we dit aan de hand van een eenvoudige codeeropdracht. Die omvat het schrijven van een PowerShell-script om de schijfruimte te controleren. Beide modellen leveren je een gebruiksklaar script dat je maar hoeft te knippen en plakken. GPT-5 onderscheidt zich in deze proef door je ook van een handleiding te voorzien om het script uit te voeren met Kladblok en PowerShell.

Creatief schrijven

Tenslotte laten we de modellen zich eens creatief uitleven. We vragen GPT-5 en GPT-4o om een liefdesverklaring aan ITdaily te schrijven. Eerst krijgen de modellen volledige vrijheid, daarna moeten ze verplicht een acrostichon dat ‘ITdaily’ spelt met de eerste letters van iedere zin opstellen. GPT-5 laat zich van zijn creatieve kant zien, maar GPT-4 stopt er net een tikkeltje meer hart en ziel in.

Als laatste experiment gaan we wat dieper in op de ‘emotionele intelligentie’ van de modellen. We vragen de modellen hoe zij een vriend zouden troosten wiens grootmoeder net overleden is. GPT-5 pakt dat analytisch aan en geeft je vijf praktische tips om met deze situatie om te gaan. Een troostend bericht schrijven behoort minder tot de specialisatie van GPT-5: dit doe je toch nog altijd beter zelf.

Eindverdict

In de meeste tests komt GPT-5 er voor ons als winnaar uit. Het nieuwe model geeft je meer uitgebreide en gestructureerde antwoorden en neemt je mee in zijn gedachtegang. GPT-5 slaagt er ook beter om de output visueel te maken. De ‘zakelijke’ toon voelt afstandelijker, maar net realistischer dan het soms overdreven enthousiasme van GPT-4. Je hebt meer aan een AI-assistent die zich als een sparringpartner opstelt dan aan AI die je vriend probeert te zijn.