Anthropic Workbench : l'IDE prompt que j'attendais
Jusqu'à récemment, tester et itérer sur mes prompts Claude se faisait dans un Notion, un Jupyter notebook, ou pire — directement dans mon code avec console.log. Anthropic Workbench, lancé en février 2026, est le premier IDE dédié au prompt engineering qui tient ses promesses. 6 semaines d'usage réel, voici ce que ça remplace dans mon workflow, les 3 features qui changent tout, et les 2 limites à connaître.
Ce que le Workbench fait
Un environnement web où tu peux :
- •Écrire des prompts avec templating (variables)
- •Les tester sur plusieurs modèles en parallèle (Claude Opus, Sonnet, Haiku)
- •Comparer les sorties en side-by-side
- •Versioner tes prompts avec un historique git-like
- •Exporter en code (Python, TypeScript) prêt à l'intégration
- •Partager avec des collaborateurs
C'est un « Postman pour LLMs ». Mais en mieux.
Ce que ça remplace dans mon workflow
Avant (6 outils)
- 1.Notion pour documenter les prompts qui marchent
- 2.Jupyter notebook pour itérer sur un prompt avec variables
- 3.Spreadsheet pour comparer les sorties sur 10 inputs
- 4.Claude.ai pour tester un prompt à la main
- 5.VSCode pour intégrer dans le code
- 6.Git pour versionner les prompts (stockés dans des
.txt)
6 outils, 6 contexts switches, et une cohérence faible entre eux.
Après (Workbench + VSCode)
Tous les points 1-4 sont dans le Workbench. VSCode garde juste le code applicatif. Git versionne indirectement via l'export du Workbench.
Gain mesuré : ~90 minutes par semaine sur mes sessions de prompt engineering.
Les 3 features qui changent tout
1. Split-view multi-modèles
Tu écris un prompt une fois, tu cliques « Compare », et tu vois en parallèle la sortie de Claude Opus, Sonnet, Haiku. Chaque colonne affiche : réponse, temps, tokens, coût.
Sur mes tests, j'ai découvert que 65% de mes prompts marchent aussi bien sur Sonnet que sur Opus. J'ai économisé ~120 $/mois en basculant ces prompts vers Sonnet, identifié en 10 minutes dans le Workbench.
2. Variables et datasets
Tu peux définir un prompt avec des variables {{user_input}} et lui fournir un dataset CSV de 50 exemples. Le Workbench lance les 50 en batch, tu vois les résultats, tu filtres les échecs, tu itères.
C'était ça qui manquait pour du prompt engineering sérieux. Fini le « ça marche sur mes 3 exemples préférés, vérifions si ça généralise ».
3. Export en code production-ready
Un clic sur « Export to TypeScript » et tu obtiens :
import Anthropic from '@anthropic-ai/sdk';
export async function myPrompt({ userInput }: { userInput: string }) {
const anthropic = new Anthropic();
const response = await anthropic.messages.create({
model: "claude-sonnet-4.5",
max_tokens: 2048,
messages: [
{
role: "user",
content: `Analyze the following text and return...\n\n${userInput}`,
},
],
});
return response.content[0].type === "text" ? response.content[0].text : "";
}Copier-coller dans ton code, fini. Plus de risque d'erreur de retranscription du prompt.
Les 2 limites
Limite 1 : pas de vraies branches
Le versioning est linéaire. Tu peux voir l'historique, mais pas créer des « branches » parallèles de variantes de prompts. Pour de l'A/B testing structuré, tu dois encore exporter et gérer ça dans git à la main.
Limite 2 : focus Anthropic uniquement
Tu ne peux pas comparer Claude vs GPT vs Gemini dans le Workbench. Si ton workflow exige du multi-provider (via Vercel AI Gateway par exemple), tu continues à utiliser d'autres outils en parallèle.
Mon workflow type avec le Workbench
- 1.Idée de nouveau prompt — je l'écris directement dans le Workbench
- 2.Itération — j'ajoute 10-20 exemples variés dans le dataset
- 3.Comparaison Sonnet vs Opus sur tout le dataset
- 4.Choix du modèle en fonction du rapport qualité/coût
- 5.Export en TypeScript
- 6.Intégration dans mon code Next.js, test en local
- 7.Commit du prompt final dans git + tag version dans le Workbench
Temps total pour un nouveau prompt sérieux : ~2h (avant, c'était 4-6h étalées sur 2 jours).
Ce qu'il faut retenir
- 1.Anthropic Workbench remplace 4 outils dans mon workflow prompt engineering.
- 2.3 features killers : split-view multi-modèles, datasets/variables, export code.
- 3.Gain mesuré : 90 min/semaine.
- 4.Limite majeure : pas de branches, pas de multi-provider cross-company.
- 5.Règle : toujours exporter et commit en git — ne dépend pas uniquement du Workbench.
Pour intégrer ce workflow dans une discipline Ralph Loop complète, j'ai écrit un livre dédié :
Soutenez mon travail sur Patreon
Accès anticipé aux articles, contenu exclusif, et la satisfaction de soutenir un auteur indépendant.
Rejoindre — à partir de 3€/mois