Le meilleur modèle IA

Quel est le meilleur LLM aujourd’hui ? La question revient souvent. La réponse aussi. Qui ne voit pas passer dans son flux (Youtube, LinkedIn, Reddit, …) une n-ième personne qui nous offre la vérité absolue ? “Machin 17.2 vient de sortir, les autres sont obsolètes !” - insérer une photo bouche ouverte.

Sauf que non. C’est une mauvaise question. Ou plutôt, c’est une question trop large pour donner une réponse utile. Le meilleur modèle pour écrire du code n’est pas forcément le meilleur pour analyser une image. Le meilleur pour raisonner longuement sur un problème complexe n’est pas forcément celui qu’on veut appeler 200 fois par jour dans une automatisation de tri et résumé d’emails.

Ça ne veut pas dire qu’il ne faut pas comparer. Au contraire. Mais il faut comparer pour un usage, avec des contraintes, et en acceptant que la réponse soit temporaire.

Le meilleur… quand ?

Le premier problème avec la quête du graal meilleur modèle, c’est que la réponse bouge sans arrêt. Pas seulement dans les benchmarks. Aussi dans les usages, au sein des communautés, des développeurs qui testent des agents toute la journée, des créateurs, etc.

On le voit très bien dans les conversations autour de l’IA. Pendant plusieurs semaines, tout le monde ne jure que par Claude Code. Puis des restrictions s’ajoutent, un nouveau modèle GPT arrive avec une mise à jour de Codex et les retours changent. Puis Gemini redevient très présent. Les évolutions des modèles vont très vite en ce moment, la concurrence est féroce, tous se battent à coup de milliards pour essayer d’être le grand gagnant à la fin. C’est parfois dur à suivre si on y passe pas plusieurs heures chaque semaine.

Et puis, ce n’est pas toujours très objectif. Dans le tas, il y a les effets mode, des personnes qui montrent un cas impressionnant mais très ciblé pour un usage, des influenceurs qui montrent un système hyper complexe et impressionant à voir mais sans réel valeur dans la vraie vie. Un peu comme si on achetait une machine chirurgicale révolutionnaire à un million d’euros avec des nanos robots pour couper une pomme en deux. C’est à la fois over-engineered, et extrêmement cher pour le besoin. Et as-t-on vraiment besoin de quelque chose pour ça ?

Au moment où j’écris ces lignes, Anthropic a le vent en poupe avec ses modèles, notamment Opus. Mais c’est la photo du jour, elle changera très probablement. Et puis, c’est un ressenti global, ça ne concerne pas tous les usages.

Le meilleur… pour quoi faire ?

La vraie question commence ici : pour quoi faire ?

Pour un simple chatbot du quotidien, je veux surtout un modèle agréable, rapide, pas trop cher, capable de répondre correctement, rapidement, sans trop se tromper et sans faire de thèse. Dans ce cas, les modèles “basiques” de chacun des labs fait très bien le café - GPT-5.5 Instant, Claude Sonnet voire Haiku ou Gemini Flash 2.5. Le “meilleur” ici, ce n’est pas forcément le plus intelligent. C’est celui qui répond bien, vite, et sans coûter un bras pour résumer une recette de tarte à la myrtille. Les versions gratuites ou le premeir tier payant suffisent amplement.

Pour le code, on a besoin de quelque chose d’assez pointu. Une bonne maîtrise technique certes mais aussi un bon contexte, du raisonnement, de l’itération, etc. Aujourd’hui, Anthropic est très fort sur ce terrain, notamment avec les modèles Opus. C’est le chouchou des développeurs. Claude Code, qui vient avec l’abonnement payant, est un très bon plus. À côté, il y a toujours Codex, Copilot, et Cursor qui restent très pertinent.

Pour la recherche web, je mettrais plutôt Perplexity (même si je commence à moins aimer) et Gemini avec Deep Research dans la discussion. Là, le modèle compte, mais la capacité et l’outillage de recherche compte également beaucoup dans la balance : quelles sources sont trouvées, leurs fraicheurs, comment elles sont citées, etc.

Pour la rédaction et l'idéation, c’est encore une autre sensibilité. Certaines personnes préfèrent Claude pour le ton, d’autres GPT pour la structure. Et puis il y a aussi Google avec Gemini + NotebookLM + la suite Drive qui offre une immense contexte et capacité à absorber beaucoup de matière.

Pour l'image et la vidéo, on s’éloigne de la matière première textuelle. GPT Image 2 (OpenAI) et Nano banana 2 (Google) sont le top “grand publics” à mon avis, et puis il y a les très bons Flux et Midjourney. Côté vidéo, Veo (Google), Sora (OpenAI), Seedance, Kilng, reviennent souvent dans les discussions selon ce que l’on cherche à produire. Même là il faut encore diviser pour trouver le “meilleur”.

Et dans les automatisations ? Pareil, il faut encore découper plus fin. Je ne vais pas utiliser le même modèle pour résumer un article, classer un ticket support, extraire trois champs d’un email, … ou raisonner pendant dix minutes sur un incident de production. Pour des tâches simples, les modèles légers comme Claude Haiku ou Gemini 2.5 Flash me semble plus pertinents que les monstres de raisonnement. On pourrait même utiliser des petits modèles open-source en local (Llamma, Mistral). Pour une décision complexe, on prendra du plus haut de gamme avec les frontier models.

Le meilleur… à quel prix ?

Deuxième question intéressante, qui pique un peu : combien ça coûte ?

Il y a le prix par token, bien sûr. Un modèle très intelligent peut être pertinent pour débloquer un problème compliqué, mais disproportionné pour reformater un JSON ou résumer trois paragraphes. Utiliser Opus pour une tâche simple à la place de Haiku par exemple, c’est un peu comme sortir le bazooka contre ces foutus moustiques tigres (ça y est, ils commencent à repointer leur nez). Ça va coûter très cher en munitions.

Qu’on soit au sein d’un abonnement officiel, ou par API, ou via un aggrégateur (Mammouth, Abacus, …), utiliser un modèle haut de gamme va coûter beaucoup plus d’argent ou de quota.

Et justement, il y a ces fameuses limites. Quotas, fenêtres de contexte, nombre de requêtes, accès aux outils, restrictions selon les abonnements. C’est différent de partout, et ça bouge très très vite. Ces dernières semaines par exemple, je vois beaucoup critique envers Anthropic qui a durci un peu fort les conditions d’utilisations et réduit les limites. De l’autre côté, OpenAI donne l’impression d’avoir un peu plus d’air pour un abonnement équivalent.

Le meilleur… mais bien accompagné

On parle beaucoup du modèle parce que c’est la partie visible. La porte d’entrée. C’est avec lui qu’on discute au final. Mais aujourd’hui, dans un usage avancé, le modèle n’est qu’une partie du système. On dit que c’est le cerveau. Autour, il y a le reste : outils, instructions, mémoire, RAG, permissions, MCP, fichiers accessibles, et bien d’autres. Ça forme le corps.

C’est aussi appelé harness, c’est un des sujets chaud du moment je trouve - comment bien équiper notre modèle pour répondre à nos besoins spécifiques ?

Un bon modèle accompagné d’un bon harness devient beaucoup plus utile qu’un très bon modèle mal branché. Si mon agent a accès au repository, sait lancer les tests, connaît les conventions, se rappelle des décisions prises et peut lancer des commandes, il part avec un énorme avantage. À l’inverse, un excellent modèle isolé dans sa fenêtre de chat avec peu de contexte et outils va plus facilement haluciner en plus d’être limité en capacités.

On le voit très bien avec les agents de code. Le modèle compte beaucoup, mais les capacités de l’agent aussi : comment il explore le projet, relance les tests, se connecte à d’autres outils, sa gestion de la mémoire, etc. Deux environnements utilisant le même modèle peuvent donner une expérience très différente.

C’est pour ça que je trouve nul de réduire le choix à un simple “alors, Claude ou GPT ? c’est qui le dieu absolu ?”.

Choisir, c’est renoncer

Au final, je pense qu’il ne faut pas être loyal à un modèle ou entreprise. Parce que ça change trop vite, parce que ça dépend trop de nos usages et besoins. Et aussi parce que pour le moment, on a la chance de pouvoir facilement passer de l’un à l’autre. On ne se retrouver pas enfermé chez l’un si on commence à l’utiliser pour nos projets. On a encore un peu de chances de voir des concepts se retrouver en commun voire open-source (MCP, Agents.md, …).

La bonne stratégie, c’est plutôt de rester agile et de s’adapter quand ça change. Et de choisir ce qui se trouvera le plus adapté pour notre contexte. Probablement même d’en avoir plusieurs dans notre sac - un modèle rapide pour les tâches simples, un modèle très solide pour les raisonnements difficiles. Un bon outil de code. Peut-être que selon les mois on change d’abonnement. Ou qu’on en cumule deux petits plutôt qu’un Max.

Donc, la prochaine fois qu’on vous demande “c’est quoi le meilleur modèle IA ?”, vous pouvez répondre : ça dépend. Pas pour esquiver. Pour poser les vraies questions. Qu’est-ce que tu veux faire ? Quel budget ? Quelle confidentialité ? Avec quels outils ?