Claude Opus 1M : j'ai nourri un livre entier, voici ce qui casse

Patrice Huetz11 avril 20267 min

J'ai payé 18,40 $ pour une seule requête à Claude Opus 4.6 le 8 mars dernier. Le contenu : les 820 000 tokens d'un roman complet que je venais de terminer, accompagnés d'une question simple — « Liste chaque personnage nommé et compte ses apparitions ». Le résultat m'a bluffé. Puis, quelques jours plus tard, d'autres tests m'ont refroidi. La fenêtre 1M tokens d'Opus change vraiment les règles du jeu pour certains usages — mais elle casse en silence sur d'autres, et personne ne le dit clairement. Voici mes mesures après 23 requêtes « extra-large » étalées sur 3 semaines.

La promesse et la réalité à 820k tokens

Depuis janvier 2026, Claude Opus 4.6 accepte 1 million de tokens en contexte d'entrée via l'API (le chat web reste plafonné à 200k). Le prix affiché : 15 $ / 1M tokens en entrée, 75 $ / 1M en sortie. À 820k tokens, ma première requête coûte donc théoriquement 12,30 $ en entrée + quelques dollars en sortie.

En pratique, j'ai payé 18,40 $ pour cette requête. L'écart ? Le prompt caching. Comme c'était une première requête non cachée, j'ai payé le plein tarif, plus une surcharge de 25% sur les tokens au-delà de 200k, que j'ignorais. Il est mentionné en note de bas de page dans la documentation, pas dans le pricing public.

ℹ️

Au-delà de 200k tokens d'entrée, Claude Opus 4.6 applique un surcoût de 25% par défaut. Ça transforme un 15 $ / 1M théorique en 18,75 $ effectifs. Prévois ton budget en conséquence.

Le bon côté : la cohérence sur long contexte

La réponse à ma question « liste chaque personnage nommé et compte ses apparitions » était presque parfaite. Sur les 47 personnages nommés du roman, Claude en a listé 44. Il en a raté 3 (des personnages secondaires cités une seule fois au chapitre 2 puis oubliés). Les comptages d'apparitions avaient une marge d'erreur de ±8% vs. mon grep manuel.

Pour comparaison, j'ai posé la même question à Claude Sonnet 4.5 (200k max) en passant le livre en 5 chunks + une phase de synthèse. Résultat : 41 personnages identifiés, marge d'erreur ±22%, et 3 hallucinations de personnages inexistants. Coût : 6,20 $, environ 3× moins cher, mais qualité notablement inférieure.

Le setup pour tester à l'extrême

Voici la fonction Python minimale que j'utilise pour benchmarker des prompts à très long contexte :

python

import anthropic
from pathlib import Path
import tiktoken

client = anthropic.Anthropic()

def ask_extra_large(text: str, question: str) -> dict:
    enc = tiktoken.encoding_for_model("gpt-4")  # approximation
    input_tokens = len(enc.encode(text)) + len(enc.encode(question))

    response = client.messages.create(
        model="claude-opus-4-6",
        max_tokens=4096,
        messages=[{
            "role": "user",
            "content": f"{text}\n\n---\n\nQuestion : {question}"
        }],
    )

    return {
        "answer": response.content[0].text,
        "input_tokens_est": input_tokens,
        "input_tokens_real": response.usage.input_tokens,
        "output_tokens": response.usage.output_tokens,
        "cost_usd": (response.usage.input_tokens / 1_000_000 * 15 * 1.25 +
                     response.usage.output_tokens / 1_000_000 * 75),
    }

Le facteur 1,25 dans le calcul du coût reflète le surcoût au-delà de 200k. Si ton input est sous 200k, tu peux l'omettre.

Les 23 tests, regroupés par résultat

Dégradation qualitative par usage, contexte 1M

J'ai classé mes tests en 4 catégories selon la dégradation observée par rapport à la même tâche en contexte < 200k.

Ça marche très bien : extraction d'entités et comptage

Pour tout ce qui est « trouve X dans Y » (personnages, dates, montants, citations), la performance à 1M tokens est excellente. Rappel moyen : 92%. Les rares ratés sont toujours des occurrences uniques perdues dans un chapitre isolé. Ça reste mieux que la méthode chunked.

Tâche	Rappel 1M	Rappel chunked	Coût 1M	Coût chunked
Liste personnages (roman 820k)	94%	87%	18,40 $	6,20 $
Extraction dates (corpus 410k)	89%	78%	9,50 $	3,10 $
Citations de référence (doc 650k)	96%	88%	14,20 $	4,80 $

Verdict : pour ces tâches, payer 3× plus cher se justifie si la précision compte.

Ça marche moyennement : résumé fidèle

Résumer un long texte sans trahir son contenu est l'exercice qui montre le plus la différence entre « lire vraiment » et « faire semblant ». J'ai demandé un résumé détaillé de 5 000 mots pour un livre de 820k. Le résultat était cohérent dans le fond, mais contenait 7 erreurs factuelles — noms mélangés, ordre chronologique inversé, détails inventés. La version chunked (4 résumés partiels + synthèse) contenait 12 erreurs. Opus 1M gagne, mais pas de beaucoup.

Ça casse : raisonnement multi-étapes profond

Là c'est franc. Quand je demande « identifie les 3 personnages qui ont une évolution morale au cours du roman, et explique pour chacun le tournant », Claude Opus à 820k tokens produit une réponse plausible mais largement inventée. Il identifie bien les personnages, mais le « tournant » qu'il décrit pour deux d'entre eux est une hallucination pure. Ce que je n'avais jamais vu avec Claude sur des contextes plus courts.

Ma théorie après 7 tests : au-delà de 600k tokens environ, Claude semble perdre sa capacité à suivre des liens de causalité qui s'étalent sur plus de 200k tokens. Il fait de la recherche sémantique implicite sur tout le contexte, mais ne fait plus de raisonnement séquentiel sur tout.

Ça ne sert à rien : traduction

J'ai essayé de traduire un livre entier en une seule requête. Non seulement c'est plus cher que 4 requêtes chunked (car la sortie est facturée 5× le prix de l'entrée), mais la qualité est pire : le style se dégrade dans le dernier tiers, comme si Claude se fatiguait. Sur un test manuel, je préfère nettement 4 traductions de 200k assemblées ensuite.

⚠️

Ne traduis pas de longs textes en une seule requête 1M. Tu payes plus et tu obtiens moins. Le chunking reste supérieur pour toute tâche de génération longue.

Les 3 usages où ça change vraiment tout

Après 23 requêtes à l'extra-large, voici les seuls usages où je continue à payer le prix 1M :

1.Audit de cohérence sur un manuscrit fini — avant de publier, je demande « liste les incohérences factuelles entre les chapitres ». Sur un roman de 600k tokens, Opus m'a trouvé 4 vraies incohérences que je n'avais pas vues (âge d'un personnage qui change de 2 ans entre chapitre 3 et 17, date d'un événement différente entre narrateurs). Impossible à faire proprement avec du chunking.
2.Recherche de citation exacte — « à quel endroit du livre parle-t-on de la clé USB rouge ? ». Rappel quasi-parfait, et Claude donne le numéro de chapitre + un extrait.
3.Génération d'index et de glossaires — pour mes livres techniques, je nourris les 5 tomes d'une série, je demande un index global, c'est plié.

Pour tout le reste (résumé, traduction, analyse thématique, génération de suite), le chunking reste meilleur et moins cher.

💡

Si tu fais du prompt caching sur une requête 1M (plusieurs questions sur le même texte), le coût par question suivante tombe à 1,50 $ / 1M tokens — soit un facteur 10 d'économie. C'est là que le 1M devient vraiment exploitable.

Ce qu'il faut retenir

1.La fenêtre 1M est réelle — Claude Opus 4.6 lit vraiment jusqu'à 1M tokens, ce n'est pas un marketing claim.
2.Mais elle coûte 25% plus cher au-delà de 200k, et le raisonnement séquentiel se dégrade au-delà de 600k environ.
3.Trois usages vraiment gagnants : audit de cohérence, recherche de citation exacte, indexation globale.
4.Le prompt caching rend le 1M 10× moins cher sur des questions multiples. Sans caching, tu ne veux pas vivre dans ce monde.

Pour aller plus loin sur les mécanismes qui rendent les LLM capables (ou incapables) de tenir des contextes aussi longs, j'ai écrit tout un livre sur leur mémoire interne :