Veille

Anthropic Workbench : l'IDE prompt que j'attendais

Patrice Huetz11 avril 20264 min

Jusqu'à récemment, tester et itérer sur mes prompts Claude se faisait dans un Notion, un Jupyter notebook, ou pire — directement dans mon code avec console.log. Anthropic Workbench, lancé en février 2026, est le premier IDE dédié au prompt engineering qui tient ses promesses. 6 semaines d'usage réel, voici ce que ça remplace dans mon workflow, les 3 features qui changent tout, et les 2 limites à connaître.

Ce que le Workbench fait

Un environnement web où tu peux :

•Écrire des prompts avec templating (variables)
•Les tester sur plusieurs modèles en parallèle (Claude Opus, Sonnet, Haiku)
•Comparer les sorties en side-by-side
•Versioner tes prompts avec un historique git-like
•Exporter en code (Python, TypeScript) prêt à l'intégration
•Partager avec des collaborateurs

C'est un « Postman pour LLMs ». Mais en mieux.

Ce que ça remplace dans mon workflow

Avant (6 outils)

1.Notion pour documenter les prompts qui marchent
2.Jupyter notebook pour itérer sur un prompt avec variables
3.Spreadsheet pour comparer les sorties sur 10 inputs
4.Claude.ai pour tester un prompt à la main
5.VSCode pour intégrer dans le code
6.Git pour versionner les prompts (stockés dans des .txt)

6 outils, 6 contexts switches, et une cohérence faible entre eux.

Après (Workbench + VSCode)

Tous les points 1-4 sont dans le Workbench. VSCode garde juste le code applicatif. Git versionne indirectement via l'export du Workbench.

Gain mesuré : ~90 minutes par semaine sur mes sessions de prompt engineering.

Les 3 features qui changent tout

1. Split-view multi-modèles

Tu écris un prompt une fois, tu cliques « Compare », et tu vois en parallèle la sortie de Claude Opus, Sonnet, Haiku. Chaque colonne affiche : réponse, temps, tokens, coût.

Sur mes tests, j'ai découvert que 65% de mes prompts marchent aussi bien sur Sonnet que sur Opus. J'ai économisé ~120 $/mois en basculant ces prompts vers Sonnet, identifié en 10 minutes dans le Workbench.

2. Variables et datasets

Tu peux définir un prompt avec des variables {{user_input}} et lui fournir un dataset CSV de 50 exemples. Le Workbench lance les 50 en batch, tu vois les résultats, tu filtres les échecs, tu itères.

C'était ça qui manquait pour du prompt engineering sérieux. Fini le « ça marche sur mes 3 exemples préférés, vérifions si ça généralise ».

3. Export en code production-ready

Un clic sur « Export to TypeScript » et tu obtiens :

typescript

import Anthropic from '@anthropic-ai/sdk';

export async function myPrompt({ userInput }: { userInput: string }) {
  const anthropic = new Anthropic();
  const response = await anthropic.messages.create({
    model: "claude-sonnet-4.5",
    max_tokens: 2048,
    messages: [
      {
        role: "user",
        content: `Analyze the following text and return...\n\n${userInput}`,
      },
    ],
  });
  return response.content[0].type === "text" ? response.content[0].text : "";
}

Copier-coller dans ton code, fini. Plus de risque d'erreur de retranscription du prompt.

Les 2 limites

Limite 1 : pas de vraies branches

Le versioning est linéaire. Tu peux voir l'historique, mais pas créer des « branches » parallèles de variantes de prompts. Pour de l'A/B testing structuré, tu dois encore exporter et gérer ça dans git à la main.

Limite 2 : focus Anthropic uniquement

Tu ne peux pas comparer Claude vs GPT vs Gemini dans le Workbench. Si ton workflow exige du multi-provider (via Vercel AI Gateway par exemple), tu continues à utiliser d'autres outils en parallèle.

💡

Utilise le Workbench pour l'itération rapide et la comparaison multi-modèles Claude. Garde ton IDE dédié pour l'intégration finale et les tests d'agent complexes.

⚠️

Ne versionne pas tes prompts **uniquement** dans le Workbench. Exporte régulièrement en code et commit dans git — sinon tu dépends d'un service tiers pour retrouver ton travail.

Mon workflow type avec le Workbench

1.Idée de nouveau prompt — je l'écris directement dans le Workbench
2.Itération — j'ajoute 10-20 exemples variés dans le dataset
3.Comparaison Sonnet vs Opus sur tout le dataset
4.Choix du modèle en fonction du rapport qualité/coût
5.Export en TypeScript
6.Intégration dans mon code Next.js, test en local
7.Commit du prompt final dans git + tag version dans le Workbench

Temps total pour un nouveau prompt sérieux : ~2h (avant, c'était 4-6h étalées sur 2 jours).

Ce qu'il faut retenir

1.Anthropic Workbench remplace 4 outils dans mon workflow prompt engineering.
2.3 features killers : split-view multi-modèles, datasets/variables, export code.
3.Gain mesuré : 90 min/semaine.
4.Limite majeure : pas de branches, pas de multi-provider cross-company.
5.Règle : toujours exporter et commit en git — ne dépend pas uniquement du Workbench.

Pour intégrer ce workflow dans une discipline Ralph Loop complète, j'ai écrit un livre dédié :

La Boucle Ralph

Guide Pratique du Coding Autonome par IA.

Découvrir →

✦

🔒

Soutenez mon travail sur Patreon

Accès anticipé aux articles, contenu exclusif, et la satisfaction de soutenir un auteur indépendant.

Rejoindre — à partir de 3€/mois

Commentaires

Chargement des commentaires...