5 différences fondamentales entre la facturation du cache OpenAI et Claude : comparaison approfondie des remises de 90 % contre 75 %
Le véritable gouffre financier dans l'exécution d'applications basées sur des LLM n'est jamais le volume de jetons (tokens) en sortie, mais bien la répétition constante des system prompts et des longs documents. OpenAI et Anthropic ont tous deux apporté une réponse : la mise en cache des invites (prompt caching). Cependant, leur philosophie de facturation…
