OSS ont-ils rattrapé GPT-5 ? Spoiler : presque
Tous les 6 mois, on entend « les modèles open source ont rattrapé les propriétaires ». Tous les 6 mois, c'est faux — sauf que cette fois, on y est presque. J'ai benchmarké Llama 4 405B, DeepSeek V3.5, et Qwen 3 72B contre GPT-5.2 sur 4 tâches représentatives de mon workflow. Le verdict : 85-95% de performance relative, et pour 70% des cas d'usage solo, ça suffit largement. Voici les chiffres.
Le setup : 4 modèles, 4 tâches, 40 runs
- •GPT-5.2 : via API OpenAI, référence
- •Llama 4 405B : via Together AI (self-hosté impossible pour moi)
- •DeepSeek V3.5 : via DeepSeek API (1/10e du prix de GPT-5.2)
- •Qwen 3 72B : self-hosté sur Together AI en comparaison
Tâches (chacune 10 runs) :
- 1.Code review d'une PR Next.js (15 fichiers, 400 lignes changées)
- 2.Résumé d'un livre technique (45 000 mots, extraction des 10 points clés)
- 3.Debugging d'une erreur runtime Rust avec traceback
- 4.Génération d'une migration DB complexe avec rollback
Résultats bruts
Taux de succès
| Tâche | GPT-5.2 | Llama 4 405B | DeepSeek V3.5 | Qwen 3 72B |
|---|---|---|---|---|
| T1 Code review | 90% | 90% | 80% | 70% |
| T2 Résumé livre | 90% | 80% | 90% | 70% |
| T3 Debug Rust | 80% | 70% | 80% | 60% |
| T4 Migration DB | 90% | 80% | 70% | 60% |
| Moyenne | 87,5% | 80% | 80% | 65% |
Llama 4 405B et DeepSeek V3.5 sont à 91% de la performance de GPT-5.2 en moyenne. Qwen 3 72B est plus loin (74%), pénalisé par sa taille plus petite.
Coût par 1M tokens (entrée, mars 2026)
| Modèle | Prix / 1M tokens in | Ratio vs GPT-5.2 |
|---|---|---|
| GPT-5.2 | 12,00 $ | 100% |
| Llama 4 405B (Together) | 3,20 $ | 27% |
| DeepSeek V3.5 | 0,85 $ | 7% |
| Qwen 3 72B (Together) | 0,80 $ | 7% |
DeepSeek V3.5 est 14× moins cher que GPT-5.2 pour 91% de la performance. Pour un usage solo où le coût compte, c'est une aubaine.
Latence moyenne
| Modèle | Latence p50 (s) |
|---|---|
| GPT-5.2 | 18 |
| Llama 4 405B | 24 |
| DeepSeek V3.5 | 12 |
| Qwen 3 72B | 14 |
DeepSeek est le plus rapide, grâce à leur infra et leur modèle MoE optimisé.
Les 3 angles où OSS gagnent
Angle 1 : le coût brut
DeepSeek V3.5 à 0,85 $ / 1M tokens contre 12 $ pour GPT-5.2, c'est un facteur 14. Pour quelqu'un qui consomme 50M tokens / mois :
- •GPT-5.2 : 600 $
- •DeepSeek V3.5 : 43 $
Économie annuelle : 6 684 $. Même si tu perds 10% de qualité, tu achètes beaucoup avec 6 000 $.
Angle 2 : la portabilité
Llama 4 et Qwen 3 sont téléchargeables. Tu peux les faire tourner chez toi (sur un gros GPU ou un cluster cloud) sans dépendance à un provider. Pour des cas d'usage compliance (données sensibles) ou des projets qui doivent survivre à la disparition d'un provider, c'est rassurant.
Angle 3 : le fine-tuning
Tu peux fine-tuner Llama 4, DeepSeek V3.5, Qwen 3. Tu ne peux pas fine-tuner GPT-5.2 (juste via l'API limitée d'OpenAI). Pour des tâches très spécifiques, un fine-tune sur OSS bat un modèle frontier generic.
Les 3 angles où les propriétaires gagnent encore
Angle 1 : les tâches très longues ou complexes
Sur T4 (migration DB complexe avec rollback), GPT-5.2 tient mieux que tous les OSS. L'écart passe de 5 points en moyenne à 20 points sur les tâches très longues (>5 000 tokens de raisonnement).
Angle 2 : les outils structurés (tool use)
Tous les OSS que j'ai testés supportent le tool calling, mais avec plus de bugs et d'échecs silencieux qu'OpenAI et Anthropic. Pour un agent qui fait 30 appels de tools en séquence, les petites erreurs s'accumulent.
Angle 3 : l'écosystème
OpenAI et Anthropic ont : prompt caching natif, vision, audio, ElevenLabs intégration, gateway robuste. Les OSS arrivent mais ont 6-12 mois de retard sur chacun de ces points.
Ma config actuelle
Depuis ce benchmark, j'ai modifié mon routage :
| Type de tâche | Modèle utilisé | Raison |
|---|---|---|
| Chatbot blog (5M tokens/mois) | DeepSeek V3.5 | 14× moins cher, qualité suffisante |
| Debug complexe | Claude Opus 4.6 | Meilleur contexte |
| Code review PRs clientes | GPT-5.2 | Exigence client |
| Résumé de livres | Llama 4 405B | Qualité ≈ GPT, moins cher |
| Summarization batch | DeepSeek V3.5 | Coût |
| Agent scheduler nocturne | DeepSeek V3.5 | Économie massive |
Économie totale estimée : 180 $/mois sur 280 $ de facture initiale.
Ce qu'il faut retenir
- 1.Llama 4 405B et DeepSeek V3.5 sont à 91% de GPT-5.2 en moyenne.
- 2.DeepSeek V3.5 est 14× moins cher que GPT-5.2 pour 91% de la performance.
- 3.Les OSS gagnent sur le coût, la portabilité, le fine-tuning.
- 4.Les propriétaires gagnent sur les tâches très longues, le tool calling, l'écosystème.
- 5.Mix optimal : 70% OSS pour les tâches standard, 30% propriétaires pour les critiques.
Pour comprendre les mécanismes internes qui expliquent pourquoi les OSS rattrapent si vite, j'ai écrit un livre sur la mémoire des LLM :
Soutenez mon travail sur Patreon
Accès anticipé aux articles, contenu exclusif, et la satisfaction de soutenir un auteur indépendant.
Rejoindre — à partir de 3€/mois