L'agentique pourrait ruiner vos marges

Samia Bounoua Debeine
26 mai
7 min de lecture

La compétence rare ne sera bientôt plus de savoir prompter une IA mais de savoir l'arrêter. Cette compétence a un nom : la sobriété agentique.

L'idée paraît contre-intuitive dans un marché qui commence à peine à former les juristes à mieux dialoguer avec les LLMs (ChatGPT, Claude…). Pourtant, elle s'impose à mesure que les cabinets passent du chat à l'agentique, c'est-à-dire à des systèmes qui exécutent une suite d'actions sans intervention humaine entre les étapes. En quelques mots, on donne une mission à la machine, elle décide elle-même de la profondeur d'exploration et du nombre d'itérations.

Une étude publiée en avril 2026 par des chercheurs de Stanford, MIT, Microsoft et DeepMind, signée notamment par l'économiste Erik Brynjolfsson, mesure pour la première fois la consommation de tokens des agents en conditions réelles. Trois enseignements à ne pas manquer :

https://digitaleconomy.stanford.edu/publication/how-do-ai-agents-spend-your-money-analyzing-and-predicting-token-consumption-in-agentic-coding-tasks/

1. Les tâches agentiques consomment mille fois plus de tokens que le chat ou le raisonnement classique. L'essentiel du coût vient des tokens d'entrée, parce que l'agent relit l'historique complet avant chaque nouvelle étape : plus la mission dure, plus le contexte enfle.

2. La consommation de tokens est « par nature » instable. Sur une même tâche, dans les mêmes conditions, deux exécutions peuvent consommer jusqu'à 30 fois plus de tokens l'une que l'autre.

À chaque étape, le modèle introduit un élément aléatoire (paramètre appelé "température") dans le choix du mot suivant. Cet aléa est intentionnel : il rend les réponses naturelles et créatives. Sans lui, un modèle répondrait toujours la même phrase à la même question. En mode agentique, ce même aléa joue sur les décisions d'action, et pose deux problèmes.

a. Variation de couverture. Une exécution identifie 7 clauses problématiques, l'autre 9. Dans les deux cas, il n’y a pas d’erreur, simplement, l'agent n'a pas exploré exactement le même périmètre. Pour un avocat, c'est un vrai sujet : les deux dernières clauses pourraient être déterminantes pour son client.

b. Variation de conclusion. Sur des tâches d'analyse complexe (qualifier un risque, recommander une stratégie contentieuse, arbitrer entre deux interprétations), deux exécutions peuvent aboutir à des conclusions différentes. Pas opposées, mais différentes dans le poids accordé à tel argument, la hiérarchie des risques, la recommandation finale.

C'est ce que les chercheurs appellent l'instabilité de jugement des agents. Sujet académique récent, encore peu connu en dehors des laboratoires.

3. La précision plafonne. Au-delà d'un seuil, le surcoût de tokens ne produit plus de meilleure réponse. Et les modèles eux-mêmes sous-estiment systématiquement leur propre consommation. Ils ne savent pas combien ils vont coûter.

Non seulement le bavardage de la machine coûte cher, mais en plus, il altère les contenus.

Une seconde étude de Microsoft Research, publiée dans la foulée, prolonge l'observation sur un terrain plus dérangeant pour un professionnel du droit. Son titre en dit long : LLMs Corrupt Your Documents When You Delegate. Le benchmark DELEGATE-52 simule des workflows de délégation longue sur 52 formats de documents professionnels structurés et 19 modèles de LLMs, dont les plus complexes du marché (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4). https://www.microsoft.com/en-us/research/publication/llms-corrupt-your-documents-when-you-delegate/

Au terme d'une vingtaine d'interactions déléguées, les modèles complexes perdent ou modifient en moyenne 25% du contenu du document initial. Tous modèles confondus, la dégradation atteint 50%. Sur les 52 formats testés, un seul (le code Python) atteint le seuil de fiabilité jugé "prêt à la délégation".

Le plus grave : les modèles les plus faibles suppriment, oublient, tronquent : les erreurs sont plutôt évidentes donc faciles à corriger. Quant aux modèles complexes, ils introduisent ce que les chercheurs qualifient d'"erreurs rares mais sévères qui corrompent silencieusement le document". Le document garde son apparence complète et cohérente, mais des faits, des valeurs, des relations entre clauses ont été réécrits. Plus le modèle est sophistiqué, plus ses erreurs sont difficiles à détecter.

Trois facteurs aggravent la dégradation :

- La taille du document

- La longueur d’interaction

- Un fichier hors contexte intégré dans le flux documentaire

Pour le droit, où le déplacement d'une virgule peut changer l’interprétation d'une clause, cette faille est très risquée. L'étude ne porte pas spécifiquement sur de la documentation juridique, mais ces critiques se transposent à des domaines plus exigeants encore et les auteurs eux-mêmes recommandent un approfondissement pour les contextes critiques comme le droit, la finance ou la santé.

Trois usages de l'IA, trois factures

Coût instable et qualité altérée dépendent donc de la façon dont les utilisateurs font l’usage de l’IA. Parallèlement, trois pratiques de l’IA cohabitent et chacune appelle un traitement distinct, tant sur le plan opérationnel que tarifaire.

L'agentique cadrée : la tâche est bornée, le périmètre documentaire est fini, le template prédéfini. Exemple d’usage : comparer des documents suivant une grille d’analyse stricte, extraire des données selon un template, classer des documents selon la chronologie des faits, structurer des données dans une matrice de due diligence. Le nombre d'itérations est limité, le coût en tokens est calculable à l'avance. Cette catégorie peut être « forfaitisée ».

L'agentique guidée : la tâche est cadrée à l'entrée, mais l'agent décide de la profondeur d’itération. Exemple d’usage : due diligence ouverte (« cherche les erreurs »), qualification de signaux faibles, recherche de JP multi juridictionnelle. C'est dans ce cas précis que la variabilité peut être multipliée par 30 et que la corruption documentaire présentée dans l’étude DELEGATE-52 présente un risque. Le coût n'est pas prévisible sans intervention humaine. La qualité non plus.

Le chat prolongé : une conversation qui dure est peut-être moins coûteuse par interaction qu'un workflow agentique, mais l'effet d'accumulation peut vite rattraper le gain : à la cinquantième itération, le coût par échange peut être dix fois supérieur à celui du premier. Le chat long est en réalité une forme d'agentique qui s'ignore où l'humain porte seul la responsabilité de s’arrêter.

L'usage illimité devient un produit de luxe.

Les prix augmentent discrètement, sans notre consentement et cela ne va pas s’améliorer.

Gartner a publié en mars 2026 une prévision qui remet en question l'intuition d'une baisse des coûts qui profiterait aux clients. Le coût d'inférence (quand la machine appelle le modèle et non quand elle s’entraîne) d'un modèle complexe baissera de plus de 90% d'ici 2030, mais ces économies ne seront pas répercutées aux entreprises. Les fournisseurs les utilisent pour combler leurs pertes, financer l'entraînement de modèles plus puissants et nourrir des fonctionnalités beaucoup plus gourmandes, au premier rang desquelles… l'agentique. https://www.gartner.com/en/newsroom/press-releases/2026-03-25-gartner-predicts-that-by-2030-performing-inference-on-an-llm-with-1-trillion-parameters-will-cost-genai-providers-over-90-percent-less-than-in-2025

Will Sommer (Gartner) dit, en quelques mots : ce qui devient gratuit, c'est l'intelligence basique. Ce qui restera coûteux, c'est l'intelligence capable de raisonner. En somme, l'IA qui intéresse justement les professionnels du droit.

Les chiffres confidentiels d'OpenAI et Anthropic, révélés par le WSJ et repris par Bloomberg, confirment l'analyse. OpenAI projette 14 milliards de dollars de pertes en 2026, point d'équilibre repoussé à 2029-2030. Anthropic affiche une marge brute autour de 40% en 2025, inhabituellement basse pour un éditeur logiciel, et ses coûts d'infrastructure cloud s’élèvent déjà bien au-dessus de ses estimations internes. Conséquences déjà observables : plafonnement des plans illimités, routage automatique vers des modèles plus économes, modèles complexes réservés aux grands comptes. La facture mensuelle n’évolue peut-être pas mais les modèles sont bridés sans même nous en avertir (on le découvre à l’usage), ce qui nous pousse mécaniquement à prendre l’offre supérieure. Un produit de luxe donc… https://www.bloomberg.com/news/articles/2026-04-28/openai-misses-its-own-user-and-sales-goals-wsj-reports

Qui va payer l'imprévisibilité du cout de l'IA : les cabinets ou les DJ ?

L'agentique tient sa promesse de révolution. Reste à savoir qui en paiera le prix.

Le rapport Thomson Reuters / Georgetown Law 2026 rapporte une tendance aux États-Unis et au Royaume-Uni : les remises au titre de l'IA deviennent une attente standard dans les appels d'offres adressés aux cabinets. En France, la question émerge sans être encore formalisée. https://www.lawnext.com/2026/01/legal-tech-spending-surges-9-7-as-firms-race-to-integrate-ai-says-report-on-state-of-legal-market.html

https://www.lawnext.com/2026/01/legal-tech-spending-surges-9-7-as-firms-race-to-integrate-ai-says-report-on-state-of-legal-market.html

Le baromètre ACC/Everlaw 2025, mené sur 657 juristes d'entreprise dans 30 pays, confirme la dynamique : 64% des DJ anticipent une réduction de leur recours aux cabinets externes via l'IA interne et 61% prévoient de pousser leurs cabinets à modifier la manière dont les services sont fournis et tarifés.

https://www.acc.com/resource-library/generative-ais-growing-strategic-value-corporate-law-departments-survey-results

Le client attend certes un gain de productivité mais aussi qu’il se traduise dans ses honoraires.

Dans ce contexte, on imagine mal les directions juridiques accepter de prendre à leur compte la variabilité de consommation des tokens. Les DJ ont passé quinze ans à pousser leurs cabinets vers le forfait précisément pour mieux anticiper leurs coûts. On pourrait douter qu'elles l'acceptent sous un autre nom. La charge retombera probablement sur le cabinet, qui devra l'absorber dans sa structure de coût ou la provisionner dans son forfait initial.

La sobriété agentique n'est ni une discipline écologique, ni une posture morale. C'est une condition de marge et de qualité. Économique d'un côté, déontologique de l'autre.

Savoir s’arrêter : une compétence à inventer

Ce n’est pas une compétence technique : il ne s'agit pas de comprendre un LLM. Elle n'est pas strictement juridique : qualifier une tâche en "cadrée" ou "guidée" mobilise du jugement professionnel, pas une compétence juridique.

Savoir qualifier ou restreindre avant de lancer. Savoir guider quand l'agent décide de la profondeur. Savoir s'arrêter quand la précision plafonne ou quand la délégation longue commence à dégrader le document. Voilà ce qui devrait guider les formations internes au sein des cabinets.

L’étude DELEGATE-52 suggère de ne pas confier à la machine la responsabilité d'itérer sur un document maître. Le document de référence devrait donc toujours rester sous le contrôle de l'avocat. La machine devrait donc intervenir en assistance ciblée et non en délégation longue.

Aucun cursus ne forme aujourd'hui à cela. Les cabinets qui développeront cette compétence en interne et la documenteront pourront en faire un argument de panel review. Les autres absorberont la variabilité dans leur marge ou tenteront de la transférer au client. Aucune des deux options ne me semble tenable.

La prochaine grille d'évaluation des conseils juridiques externalisés pourrait ne plus porter uniquement sur le tarif horaire ou la liste des outils déployés mais sur la maîtrise documentée de cette variabilité et sur la fiabilité du travail délégué à des agents.

Savoir prompter aura été la compétence de 2024. La sobriété agentique sera celle de 2027.

Sources

Étude sur la consommation de tokens des agents (Stanford Digital Economy Lab, avril 2026) / Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei https://digitaleconomy.stanford.edu/publication/how-do-ai-agents-spend-your-money-analyzing-and-predicting-token-consumption-in-agentic-coding-tasks/

Étude DELEGATE-52 sur la corruption documentaire (Microsoft Research, avril 2026) / Laban, Schnabel, Neville https://www.microsoft.com/en-us/research/publication/llms-corrupt-your-documents-when-you-delegate/

Prévisions Gartner sur la baisse des coûts d'inférence (mars 2026) https://www.gartner.com/en/newsroom/press-releases/2026-03-25-gartner-predicts-that-by-2030-performing-inference-on-an-llm-with-1-trillion-parameters-will-cost-genai-providers-over-90-percent-less-than-in-2025

Chiffres financiers d'OpenAI et Anthropic révélés par le Wall Street Journal, repris par Bloomberg (avril 2026) https://www.bloomberg.com/news/articles/2026-04-28/openai-misses-its-own-user-and-sales-goals-wsj-reports

Article Fennemore (février 2026) sur les remises au titre de l'IA dans les appels d'offres https://www.fennemorelaw.com/ai-ready-billing-rethinking-legal-pricing-in-the-age-of-automation/

Rapport Thomson Reuters / Georgetown Law sur l'état du marché juridique américain 2026 (couverture LawSites par Bob Ambrogi) https://www.lawnext.com/2026/01/legal-tech-spending-surges-9-7-as-firms-race-to-integrate-ai-says-report-on-state-of-legal-market.html

Baromètre ACC / Everlaw 2025 sur l'IA dans les directions juridiques (657 juristes d'entreprise, 30 pays) https://www.acc.com/resource-library/generative-ais-growing-strategic-value-corporate-law-departments-survey-results

Conseil en Stratégie & Business Development | AI Native

L'agentique pourrait ruiner vos marges

Posts récents

Commentaires