Veille

OSS ont-ils rattrapé GPT-5 ? Spoiler : presque

Patrice Huetz11 avril 20265 min

Tous les 6 mois, on entend « les modèles open source ont rattrapé les propriétaires ». Tous les 6 mois, c'est faux — sauf que cette fois, on y est presque. J'ai benchmarké Llama 4 405B, DeepSeek V3.5, et Qwen 3 72B contre GPT-5.2 sur 4 tâches représentatives de mon workflow. Le verdict : 85-95% de performance relative, et pour 70% des cas d'usage solo, ça suffit largement. Voici les chiffres.

Le setup : 4 modèles, 4 tâches, 40 runs

•GPT-5.2 : via API OpenAI, référence
•Llama 4 405B : via Together AI (self-hosté impossible pour moi)
•DeepSeek V3.5 : via DeepSeek API (1/10e du prix de GPT-5.2)
•Qwen 3 72B : self-hosté sur Together AI en comparaison

Tâches (chacune 10 runs) :

1.Code review d'une PR Next.js (15 fichiers, 400 lignes changées)
2.Résumé d'un livre technique (45 000 mots, extraction des 10 points clés)
3.Debugging d'une erreur runtime Rust avec traceback
4.Génération d'une migration DB complexe avec rollback

Résultats bruts

Taux de succès

Tâche	GPT-5.2	Llama 4 405B	DeepSeek V3.5	Qwen 3 72B
T1 Code review	90%	90%	80%	70%
T2 Résumé livre	90%	80%	90%	70%
T3 Debug Rust	80%	70%	80%	60%
T4 Migration DB	90%	80%	70%	60%
Moyenne	87,5%	80%	80%	65%

Llama 4 405B et DeepSeek V3.5 sont à 91% de la performance de GPT-5.2 en moyenne. Qwen 3 72B est plus loin (74%), pénalisé par sa taille plus petite.

Coût par 1M tokens (entrée, mars 2026)

Modèle	Prix / 1M tokens in	Ratio vs GPT-5.2
GPT-5.2	12,00 $	100%
Llama 4 405B (Together)	3,20 $	27%
DeepSeek V3.5	0,85 $	7%
Qwen 3 72B (Together)	0,80 $	7%

DeepSeek V3.5 est 14× moins cher que GPT-5.2 pour 91% de la performance. Pour un usage solo où le coût compte, c'est une aubaine.

Latence moyenne

Modèle	Latence p50 (s)
GPT-5.2	18
Llama 4 405B	24
DeepSeek V3.5	12
Qwen 3 72B	14

DeepSeek est le plus rapide, grâce à leur infra et leur modèle MoE optimisé.

Les 3 angles où OSS gagnent

Angle 1 : le coût brut

DeepSeek V3.5 à 0,85 $ / 1M tokens contre 12 $ pour GPT-5.2, c'est un facteur 14. Pour quelqu'un qui consomme 50M tokens / mois :

•GPT-5.2 : 600 $
•DeepSeek V3.5 : 43 $

Économie annuelle : 6 684 $. Même si tu perds 10% de qualité, tu achètes beaucoup avec 6 000 $.

Angle 2 : la portabilité

Llama 4 et Qwen 3 sont téléchargeables. Tu peux les faire tourner chez toi (sur un gros GPU ou un cluster cloud) sans dépendance à un provider. Pour des cas d'usage compliance (données sensibles) ou des projets qui doivent survivre à la disparition d'un provider, c'est rassurant.

Angle 3 : le fine-tuning

Tu peux fine-tuner Llama 4, DeepSeek V3.5, Qwen 3. Tu ne peux pas fine-tuner GPT-5.2 (juste via l'API limitée d'OpenAI). Pour des tâches très spécifiques, un fine-tune sur OSS bat un modèle frontier generic.

Les 3 angles où les propriétaires gagnent encore

Angle 1 : les tâches très longues ou complexes

Sur T4 (migration DB complexe avec rollback), GPT-5.2 tient mieux que tous les OSS. L'écart passe de 5 points en moyenne à 20 points sur les tâches très longues (>5 000 tokens de raisonnement).

Angle 2 : les outils structurés (tool use)

Tous les OSS que j'ai testés supportent le tool calling, mais avec plus de bugs et d'échecs silencieux qu'OpenAI et Anthropic. Pour un agent qui fait 30 appels de tools en séquence, les petites erreurs s'accumulent.

Angle 3 : l'écosystème

OpenAI et Anthropic ont : prompt caching natif, vision, audio, ElevenLabs intégration, gateway robuste. Les OSS arrivent mais ont 6-12 mois de retard sur chacun de ces points.

Ma config actuelle

Depuis ce benchmark, j'ai modifié mon routage :

Type de tâche	Modèle utilisé	Raison
Chatbot blog (5M tokens/mois)	DeepSeek V3.5	14× moins cher, qualité suffisante
Debug complexe	Claude Opus 4.6	Meilleur contexte
Code review PRs clientes	GPT-5.2	Exigence client
Résumé de livres	Llama 4 405B	Qualité ≈ GPT, moins cher
Summarization batch	DeepSeek V3.5	Coût
Agent scheduler nocturne	DeepSeek V3.5	Économie massive

Économie totale estimée : 180 $/mois sur 280 $ de facture initiale.

💡

Si ton workload est dominé par des tâches standard (summary, extraction, chat), migre vers DeepSeek V3.5. Pour les 10% de tâches critiques, garde Opus ou GPT-5.2.

⚠️

Les modèles OSS changent de prix et de qualité tous les 2-3 mois. Re-benchmark ton workload tous les 6 mois au minimum pour éviter de payer pour hier.

Ce qu'il faut retenir

1.Llama 4 405B et DeepSeek V3.5 sont à 91% de GPT-5.2 en moyenne.
2.DeepSeek V3.5 est 14× moins cher que GPT-5.2 pour 91% de la performance.
3.Les OSS gagnent sur le coût, la portabilité, le fine-tuning.
4.Les propriétaires gagnent sur les tâches très longues, le tool calling, l'écosystème.
5.Mix optimal : 70% OSS pour les tâches standard, 30% propriétaires pour les critiques.