Na de kritiek: Google introduceert automatische caching om gebruikskosten Gemini-modellen te verlagen

Google Gemini

Google voert een nieuwe functie in voor zijn Gemini API die volgens het bedrijf kostenbesparingen tot 75 procent kan opleveren voor ontwikkelaars.

De functie, ‘implicit caching’, is standaard ingeschakeld voor de Gemini 2.5 Pro- en 2.5 Flash-modellen. Ontwikkelaars hoeven de cache niet langer zelf te beheren, wat gebruik eenvoudiger maakt.

Met implicit caching wil Google het probleem aanpakken van hoge kosten bij veelvuldig gebruik van gelijkaardige prompts.

Logan Kilpatrick post op X

Waar eerdere caching-oplossingen nog expliciete input van ontwikkelaars vereisten, werkt de nieuwe aanpak automatisch. Wanneer een API-verzoek eenzelfde beginstructuur heeft als een eerder verzoek, wordt een cache gebruikt en worden de kosten verlaagd.

Volgens Google start caching vanaf 1.024 tokens bij 2.5 Flash en 2.048 tokens bij 2.5 Pro. Dat komt neer op respectievelijk ongeveer 750 en 1.500 woorden. Ontwikkelaars wordt aangeraden om de herhaalde context aan het begin van een prompt te plaatsen. Variabele informatie hoort achteraan, om de kans op een cache hit te verhogen.

lees ook

Google brengt AI-onderzoekstool Deep Research naar Workspace

Reactie op eerdere kritiek

De introductie van de functie volgt op kritiek over de vorige cachingaanpak. Die vereiste dat ontwikkelaars handmatig prompts markeerden voor caching, wat leidde tot onverwacht hoge kosten en frustratie. Google erkende recent de problemen en beloofde beterschap. De overstap naar implicit caching is daar een rechtstreeks gevolg van.

Google geeft momenteel geen garantie dat elke cache hit correct wordt herkend. Er is ook geen externe validatie van de beloofde besparingen. De betrouwbaarheid van de nieuwe functie zal dus blijken uit de feedback van de eerste gebruikers. Meer informatie daarover kan je in een blogpost van Google lezen.