
Google a introduit une nouvelle fonctionnalité dans son API Gemini qui, selon la société, rendra ses derniers modèles d’IA moins chers pour les développeurs tiers. Cette fonctionnalité, appelée « mise en cache implicite », peut offrir jusqu’à 75 % d’économies sur le « contexte répétitif » transmis aux modèles via l’API Gemini. Elle est compatible avec les modèles Google Gemini 2.5 Pro et 2.5 Flash.
Cette annonce devrait être une bonne nouvelle pour les développeurs alors que les coûts d’utilisation des modèles de pointe ne cessent d’augmenter.

La mise en cache est une pratique largement adoptée dans l’industrie de l’IA, permettant de réduire les exigences en matière de calcul et de coûts en réutilisant les données fréquemment consultées ou précalculées à partir des modèles. Google proposait déjà la mise en cache des instructions des modèles, mais seulement de manière explicite, nécessitant une intervention manuelle des développeurs. Face aux plaintes des développeurs concernant les coûts élevés, l’entreprise a introduit la mise en cache implicite, qui est automatique pour les modèles Gemini 2.5.
Lorsqu’une demande partage un préfixe commun avec une demande précédente, elle est éligible pour un hit de cache, permettant des économies significatives. Il est recommandé aux développeurs de conserver le contexte répétitif au début des demandes pour augmenter les chances de réussite des hits de cache implicites. Google n’a cependant pas fourni de vérification tierce de ces économies automatiques. Les premiers utilisateurs devront donc tester cette nouvelle fonctionnalité pour en mesurer l’efficacité.