Claude Opus 1M : j'ai nourri un livre entier, voici ce qui casse
J'ai payé 18,40 $ pour une seule requête à Claude Opus 4.6 le 8 mars dernier. Le contenu : les 820 000 tokens d'un roman complet que je venais de terminer, accompagnés d'une question simple — « Liste chaque personnage nommé et compte ses apparitions ». Le résultat m'a bluffé. Puis, quelques jours plus tard, d'autres tests m'ont refroidi. La fenêtre 1M tokens d'Opus change vraiment les règles du jeu pour certains usages — mais elle casse en silence sur d'autres, et personne ne le dit clairement. Voici mes mesures après 23 requêtes « extra-large » étalées sur 3 semaines.
La promesse et la réalité à 820k tokens
Depuis janvier 2026, Claude Opus 4.6 accepte 1 million de tokens en contexte d'entrée via l'API (le chat web reste plafonné à 200k). Le prix affiché : 15 $ / 1M tokens en entrée, 75 $ / 1M en sortie. À 820k tokens, ma première requête coûte donc théoriquement 12,30 $ en entrée + quelques dollars en sortie.
En pratique, j'ai payé 18,40 $ pour cette requête. L'écart ? Le prompt caching. Comme c'était une première requête non cachée, j'ai payé le plein tarif, plus une surcharge de 25% sur les tokens au-delà de 200k, que j'ignorais. Il est mentionné en note de bas de page dans la documentation, pas dans le pricing public.
Le bon côté : la cohérence sur long contexte
La réponse à ma question « liste chaque personnage nommé et compte ses apparitions » était presque parfaite. Sur les 47 personnages nommés du roman, Claude en a listé 44. Il en a raté 3 (des personnages secondaires cités une seule fois au chapitre 2 puis oubliés). Les comptages d'apparitions avaient une marge d'erreur de ±8% vs. mon grep manuel.
Pour comparaison, j'ai posé la même question à Claude Sonnet 4.5 (200k max) en passant le livre en 5 chunks + une phase de synthèse. Résultat : 41 personnages identifiés, marge d'erreur ±22%, et 3 hallucinations de personnages inexistants. Coût : 6,20 $, environ 3× moins cher, mais qualité notablement inférieure.
Le setup pour tester à l'extrême
Voici la fonction Python minimale que j'utilise pour benchmarker des prompts à très long contexte :
import anthropic
from pathlib import Path
import tiktoken
client = anthropic.Anthropic()
def ask_extra_large(text: str, question: str) -> dict:
enc = tiktoken.encoding_for_model("gpt-4") # approximation
input_tokens = len(enc.encode(text)) + len(enc.encode(question))
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
messages=[{
"role": "user",
"content": f"{text}\n\n---\n\nQuestion : {question}"
}],
)
return {
"answer": response.content[0].text,
"input_tokens_est": input_tokens,
"input_tokens_real": response.usage.input_tokens,
"output_tokens": response.usage.output_tokens,
"cost_usd": (response.usage.input_tokens / 1_000_000 * 15 * 1.25 +
response.usage.output_tokens / 1_000_000 * 75),
}Le facteur 1,25 dans le calcul du coût reflète le surcoût au-delà de 200k. Si ton input est sous 200k, tu peux l'omettre.
Les 23 tests, regroupés par résultat
J'ai classé mes tests en 4 catégories selon la dégradation observée par rapport à la même tâche en contexte < 200k.
Ça marche très bien : extraction d'entités et comptage
Pour tout ce qui est « trouve X dans Y » (personnages, dates, montants, citations), la performance à 1M tokens est excellente. Rappel moyen : 92%. Les rares ratés sont toujours des occurrences uniques perdues dans un chapitre isolé. Ça reste mieux que la méthode chunked.
| Tâche | Rappel 1M | Rappel chunked | Coût 1M | Coût chunked |
|---|---|---|---|---|
| Liste personnages (roman 820k) | 94% | 87% | 18,40 $ | 6,20 $ |
| Extraction dates (corpus 410k) | 89% | 78% | 9,50 $ | 3,10 $ |
| Citations de référence (doc 650k) | 96% | 88% | 14,20 $ | 4,80 $ |
Verdict : pour ces tâches, payer 3× plus cher se justifie si la précision compte.
Ça marche moyennement : résumé fidèle
Résumer un long texte sans trahir son contenu est l'exercice qui montre le plus la différence entre « lire vraiment » et « faire semblant ». J'ai demandé un résumé détaillé de 5 000 mots pour un livre de 820k. Le résultat était cohérent dans le fond, mais contenait 7 erreurs factuelles — noms mélangés, ordre chronologique inversé, détails inventés. La version chunked (4 résumés partiels + synthèse) contenait 12 erreurs. Opus 1M gagne, mais pas de beaucoup.
Ça casse : raisonnement multi-étapes profond
Là c'est franc. Quand je demande « identifie les 3 personnages qui ont une évolution morale au cours du roman, et explique pour chacun le tournant », Claude Opus à 820k tokens produit une réponse plausible mais largement inventée. Il identifie bien les personnages, mais le « tournant » qu'il décrit pour deux d'entre eux est une hallucination pure. Ce que je n'avais jamais vu avec Claude sur des contextes plus courts.
Ma théorie après 7 tests : au-delà de 600k tokens environ, Claude semble perdre sa capacité à suivre des liens de causalité qui s'étalent sur plus de 200k tokens. Il fait de la recherche sémantique implicite sur tout le contexte, mais ne fait plus de raisonnement séquentiel sur tout.
Ça ne sert à rien : traduction
J'ai essayé de traduire un livre entier en une seule requête. Non seulement c'est plus cher que 4 requêtes chunked (car la sortie est facturée 5× le prix de l'entrée), mais la qualité est pire : le style se dégrade dans le dernier tiers, comme si Claude se fatiguait. Sur un test manuel, je préfère nettement 4 traductions de 200k assemblées ensuite.
Les 3 usages où ça change vraiment tout
Après 23 requêtes à l'extra-large, voici les seuls usages où je continue à payer le prix 1M :
- 1.Audit de cohérence sur un manuscrit fini — avant de publier, je demande « liste les incohérences factuelles entre les chapitres ». Sur un roman de 600k tokens, Opus m'a trouvé 4 vraies incohérences que je n'avais pas vues (âge d'un personnage qui change de 2 ans entre chapitre 3 et 17, date d'un événement différente entre narrateurs). Impossible à faire proprement avec du chunking.
- 2.Recherche de citation exacte — « à quel endroit du livre parle-t-on de la clé USB rouge ? ». Rappel quasi-parfait, et Claude donne le numéro de chapitre + un extrait.
- 3.Génération d'index et de glossaires — pour mes livres techniques, je nourris les 5 tomes d'une série, je demande un index global, c'est plié.
Pour tout le reste (résumé, traduction, analyse thématique, génération de suite), le chunking reste meilleur et moins cher.
Ce qu'il faut retenir
- 1.La fenêtre 1M est réelle — Claude Opus 4.6 lit vraiment jusqu'à 1M tokens, ce n'est pas un marketing claim.
- 2.Mais elle coûte 25% plus cher au-delà de 200k, et le raisonnement séquentiel se dégrade au-delà de 600k environ.
- 3.Trois usages vraiment gagnants : audit de cohérence, recherche de citation exacte, indexation globale.
- 4.Le prompt caching rend le 1M 10× moins cher sur des questions multiples. Sans caching, tu ne veux pas vivre dans ce monde.
Pour aller plus loin sur les mécanismes qui rendent les LLM capables (ou incapables) de tenir des contextes aussi longs, j'ai écrit tout un livre sur leur mémoire interne :
Soutenez mon travail sur Patreon
Accès anticipé aux articles, contenu exclusif, et la satisfaction de soutenir un auteur indépendant.
Rejoindre — à partir de 3€/mois