Aller au contenu principal
OSS ont-ils rattrapé GPT-5 ? Spoiler : presque
Retour au blog
Veille

OSS ont-ils rattrapé GPT-5 ? Spoiler : presque

Patrice Huetz11 avril 20265 min

Tous les 6 mois, on entend « les modèles open source ont rattrapé les propriétaires ». Tous les 6 mois, c'est faux — sauf que cette fois, on y est presque. J'ai benchmarké Llama 4 405B, DeepSeek V3.5, et Qwen 3 72B contre GPT-5.2 sur 4 tâches représentatives de mon workflow. Le verdict : 85-95% de performance relative, et pour 70% des cas d'usage solo, ça suffit largement. Voici les chiffres.

Le setup : 4 modèles, 4 tâches, 40 runs

  • GPT-5.2 : via API OpenAI, référence
  • Llama 4 405B : via Together AI (self-hosté impossible pour moi)
  • DeepSeek V3.5 : via DeepSeek API (1/10e du prix de GPT-5.2)
  • Qwen 3 72B : self-hosté sur Together AI en comparaison

Tâches (chacune 10 runs) :

  1. 1.Code review d'une PR Next.js (15 fichiers, 400 lignes changées)
  2. 2.Résumé d'un livre technique (45 000 mots, extraction des 10 points clés)
  3. 3.Debugging d'une erreur runtime Rust avec traceback
  4. 4.Génération d'une migration DB complexe avec rollback

Résultats bruts

OSS vs GPT-5 — benchmark
OSS vs GPT-5 — benchmark

Taux de succès

TâcheGPT-5.2Llama 4 405BDeepSeek V3.5Qwen 3 72B
T1 Code review90%90%80%70%
T2 Résumé livre90%80%90%70%
T3 Debug Rust80%70%80%60%
T4 Migration DB90%80%70%60%
Moyenne87,5%80%80%65%

Llama 4 405B et DeepSeek V3.5 sont à 91% de la performance de GPT-5.2 en moyenne. Qwen 3 72B est plus loin (74%), pénalisé par sa taille plus petite.

Coût par 1M tokens (entrée, mars 2026)

ModèlePrix / 1M tokens inRatio vs GPT-5.2
GPT-5.212,00 $100%
Llama 4 405B (Together)3,20 $27%
DeepSeek V3.50,85 $7%
Qwen 3 72B (Together)0,80 $7%

DeepSeek V3.5 est 14× moins cher que GPT-5.2 pour 91% de la performance. Pour un usage solo où le coût compte, c'est une aubaine.

Latence moyenne

ModèleLatence p50 (s)
GPT-5.218
Llama 4 405B24
DeepSeek V3.512
Qwen 3 72B14

DeepSeek est le plus rapide, grâce à leur infra et leur modèle MoE optimisé.

Les 3 angles où OSS gagnent

Angle 1 : le coût brut

DeepSeek V3.5 à 0,85 $ / 1M tokens contre 12 $ pour GPT-5.2, c'est un facteur 14. Pour quelqu'un qui consomme 50M tokens / mois :

  • GPT-5.2 : 600 $
  • DeepSeek V3.5 : 43 $

Économie annuelle : 6 684 $. Même si tu perds 10% de qualité, tu achètes beaucoup avec 6 000 $.

Angle 2 : la portabilité

Llama 4 et Qwen 3 sont téléchargeables. Tu peux les faire tourner chez toi (sur un gros GPU ou un cluster cloud) sans dépendance à un provider. Pour des cas d'usage compliance (données sensibles) ou des projets qui doivent survivre à la disparition d'un provider, c'est rassurant.

Angle 3 : le fine-tuning

Tu peux fine-tuner Llama 4, DeepSeek V3.5, Qwen 3. Tu ne peux pas fine-tuner GPT-5.2 (juste via l'API limitée d'OpenAI). Pour des tâches très spécifiques, un fine-tune sur OSS bat un modèle frontier generic.

Les 3 angles où les propriétaires gagnent encore

Angle 1 : les tâches très longues ou complexes

Sur T4 (migration DB complexe avec rollback), GPT-5.2 tient mieux que tous les OSS. L'écart passe de 5 points en moyenne à 20 points sur les tâches très longues (>5 000 tokens de raisonnement).

Angle 2 : les outils structurés (tool use)

Tous les OSS que j'ai testés supportent le tool calling, mais avec plus de bugs et d'échecs silencieux qu'OpenAI et Anthropic. Pour un agent qui fait 30 appels de tools en séquence, les petites erreurs s'accumulent.

Angle 3 : l'écosystème

OpenAI et Anthropic ont : prompt caching natif, vision, audio, ElevenLabs intégration, gateway robuste. Les OSS arrivent mais ont 6-12 mois de retard sur chacun de ces points.

Ma config actuelle

Depuis ce benchmark, j'ai modifié mon routage :

Type de tâcheModèle utiliséRaison
Chatbot blog (5M tokens/mois)DeepSeek V3.514× moins cher, qualité suffisante
Debug complexeClaude Opus 4.6Meilleur contexte
Code review PRs clientesGPT-5.2Exigence client
Résumé de livresLlama 4 405BQualité ≈ GPT, moins cher
Summarization batchDeepSeek V3.5Coût
Agent scheduler nocturneDeepSeek V3.5Économie massive

Économie totale estimée : 180 $/mois sur 280 $ de facture initiale.

💡
Si ton workload est dominé par des tâches standard (summary, extraction, chat), migre vers DeepSeek V3.5. Pour les 10% de tâches critiques, garde Opus ou GPT-5.2.
⚠️
Les modèles OSS changent de prix et de qualité tous les 2-3 mois. Re-benchmark ton workload tous les 6 mois au minimum pour éviter de payer pour hier.

Ce qu'il faut retenir

  1. 1.Llama 4 405B et DeepSeek V3.5 sont à 91% de GPT-5.2 en moyenne.
  2. 2.DeepSeek V3.5 est 14× moins cher que GPT-5.2 pour 91% de la performance.
  3. 3.Les OSS gagnent sur le coût, la portabilité, le fine-tuning.
  4. 4.Les propriétaires gagnent sur les tâches très longues, le tool calling, l'écosystème.
  5. 5.Mix optimal : 70% OSS pour les tâches standard, 30% propriétaires pour les critiques.

Pour comprendre les mécanismes internes qui expliquent pourquoi les OSS rattrapent si vite, j'ai écrit un livre sur la mémoire des LLM :

La Mémoire des Machines
La Mémoire des Machines

Du KV-Cache au Context Engineering.

Découvrir →
🔒

Soutenez mon travail sur Patreon

Accès anticipé aux articles, contenu exclusif, et la satisfaction de soutenir un auteur indépendant.

Rejoindre — à partir de 3€/mois

Commentaires

Chargement des commentaires...

Laisser un commentaire