ChatGPT ne suffit plus toujours : pourquoi Ollama, le local et le bon prompting gagnent du terrain

Le signal faible devient un usage réel

ChatGPT reste l’outil d’intelligence artificielle grand public par défaut : il est simple, puissant, connecté à un écosystème riche et constamment mis à jour. Mais un mouvement de fond apparaît chez les utilisateurs intensifs : quand l’assistant devient coûteux, trop bavard, imprévisible pour coder ou inconfortable sur le plan de la confidentialité, certains cherchent à reprendre le contrôle.

C’est exactement ce que raconte ZDNet dans un article consacré à Ollama, présenté comme une alternative gratuite, privée et locale à ChatGPT. Le média met en avant trois arguments désormais familiers : dépenser moins, garder ses données sur sa machine et réduire la dépendance au nuage. TechRadar apporte un autre angle, plus terrain : Clint Hocking, ancien directeur créatif associé à la franchise Assassin’s Creed, explique avoir utilisé ChatGPT pour apprendre à coder, mais avoir trouvé l’expérience « brutale », au point de conclure que l’outil l’a davantage obligé à déboguer qu’il ne lui a appris à programmer. Tom’s Guide, enfin, aborde une troisième limite : ChatGPT répond mieux lorsque l’utilisateur sait structurer sa pensée, poser des contraintes et demander une relecture critique.

Ces trois récits ne prouvent pas que ChatGPT est en déclin. Ils montrent plutôt que l’IA générative entre dans une phase plus mature : l’utilisateur ne demande plus seulement si l’outil est impressionnant, mais s’il est fiable, privé, économique et adapté à sa tâche.

Ollama : la revanche du local

Ollama s’inscrit dans une tendance plus large : exécuter des modèles de langage directement sur un ordinateur personnel, un serveur interne ou une station de travail. Sa documentation officielle le décrit comme un moyen simple de démarrer avec des modèles comme Gemma, DeepSeek-R1, Qwen ou d’autres modèles compatibles. La FAQ d’Ollama précise aussi qu’il est possible de désactiver les fonctions infonuagiques pour fonctionner en mode local uniquement.

Le principe est séduisant : au lieu d’envoyer chaque requête vers un service centralisé, l’utilisateur télécharge un modèle et l’exécute sur son propre matériel. Pour des tâches de brouillon, de résumé interne, d’aide à la rédaction, d’analyse de documents non sensibles ou d’expérimentation technique, cela peut suffire. Les performances dépendent toutefois du processeur, de la mémoire vive, de la carte graphique, du modèle choisi et de sa quantification.

Le local n’est pas nouveau. Des projets comme llama.cpp ont popularisé l’inférence de modèles sur une grande variété de matériels, avec des optimisations pour Apple Silicon, CUDA, Vulkan ou encore des quantifications à faible précision afin de réduire l’usage mémoire. Mistral AI, de son côté, documente des scénarios de déploiement local ou sur infrastructure contrôlée pour ses modèles ouverts. Ce qui change, c’est l’ergonomie : l’installation de modèles locaux devient assez simple pour intéresser des journalistes, développeurs, PME et utilisateurs avancés qui ne veulent pas administrer une pile machine learning complète.

Le coût : abonnement, jetons et fatigue des limites

Le coût est l’un des moteurs les plus visibles. OpenAI propose toujours une version gratuite de ChatGPT, ainsi que des offres payantes par utilisateur et par mois pour des usages plus avancés. Mais pour un utilisateur qui sollicite l’IA toute la journée — génération de code, analyse de fichiers, recherche, transcription, automatisation — les limites de messages, de modèles, de contexte ou de crédits deviennent vite tangibles.

Le modèle local inverse le calcul. L’utilisateur paie son matériel, son électricité et son temps de configuration, mais n’est pas facturé à chaque requête. Ce n’est pas nécessairement moins cher pour tout le monde : un portable modeste fera tourner des modèles compacts, pas les meilleurs modèles de raisonnement. Mais pour des usages répétitifs et non critiques, Ollama peut devenir un « bloc-notes cognitif » permanent, sans compteur psychologique.

Cette économie locale a toutefois une limite : les meilleurs modèles fermés restent souvent supérieurs pour le raisonnement complexe, la planification longue, le code difficile ou l’analyse multimodale. La vraie question n’est donc pas « ChatGPT ou Ollama », mais « quel niveau de qualité et de confidentialité cette tâche exige-t-elle ? ».

Confidentialité : moins de nuage, mais pas zéro risque

La confidentialité est l’argument le plus puissant en faveur du local. OpenAI indique dans ses pages d’aide que les utilisateurs peuvent désactiver l’option d’amélioration des modèles à partir des conversations, que les discussions temporaires ne sont pas utilisées pour entraîner les modèles et qu’elles sont supprimées après une période de rétention de sécurité. OpenAI rappelle aussi que les utilisateurs ne devraient pas partager dans ChatGPT des informations sensibles qu’ils ne voudraient pas voir utilisées ou examinées.

Ollama, lui, met en avant le fait que l’exécution se fait sur l’appareil local. Pour une entreprise qui manipule du code propriétaire, des notes juridiques, des informations clients ou des documents internes, cette différence est majeure. Elle réduit la surface de partage avec un tiers et facilite certains raisonnements de conformité.

Mais local ne veut pas dire invulnérable. Des recherches et articles spécialisés, notamment autour de serveurs Ollama exposés sur Internet, rappellent qu’une mauvaise configuration peut transformer un outil privé en porte ouverte. TechRadar a rapporté des cas d’instances Ollama exposées publiquement, et des sociétés de sécurité ont déjà signalé des vulnérabilités ou des abus potentiels. Le paradoxe est clair : le local donne plus de contrôle, mais exige aussi plus de responsabilité.

Coder avec l’IA : utile, mais pas magique

Le témoignage relayé par TechRadar autour de Clint Hocking rejoint un constat plus large chez les développeurs. Les assistants de code peuvent accélérer la génération de boilerplate, expliquer une API, traduire un bout de logique ou proposer des tests. Mais ils peuvent aussi produire du code presque correct, donc dangereux : suffisamment plausible pour convaincre, insuffisamment fiable pour être livré sans revue.

Le sondage 2025 de Stack Overflow est particulièrement révélateur : l’usage des outils d’IA progresse, mais la confiance baisse. Plus de développeurs disent se méfier de l’exactitude des sorties d’IA qu’ils ne disent leur faire confiance, et les développeurs expérimentés apparaissent parmi les plus prudents. METR, dans ses travaux sur la productivité des développeurs open source expérimentés, a même observé dans une étude de début 2025 un ralentissement d’environ 19 à 20 % sur certaines tâches réelles, tout en reconnaissant que les outils et les usages évoluent rapidement.

Cela ne signifie pas que l’IA ralentit toujours les développeurs. Cela signifie que son bénéfice dépend du contexte : code connu ou inconnu, complexité de la base, qualité des tests, capacité à relire, granularité de la tâche et compétence de l’utilisateur.

Le prompting devient une compétence de base

Tom’s Guide insiste sur un point souvent sous-estimé : ChatGPT semble « meilleur » avec les utilisateurs qui formulent mieux leurs demandes. OpenAI dit la même chose dans ses ressources de formation : un bon prompt décrit la tâche, donne le contexte et précise la forme attendue. Anthropic recommande aussi de définir les critères de succès et de tester empiriquement les prompts avant de les optimiser.

Ce n’est pas du folklore. Les modèles de langage ne « comprennent » pas un objectif implicite comme un collègue humain qui connaît déjà votre entreprise. Ils répondent à des signaux : contexte, contraintes, exemples, format, rôle, interdictions, priorités. Un prompt qui demande une réponse, un plan, les hypothèses et les risques donnera souvent un résultat supérieur à une question vague.

Le prompting avancé sert aussi à limiter la complaisance. Demander à l’IA de critiquer ses propres hypothèses, de signaler les incertitudes, de produire une version courte puis une version vérifiée, ou de séparer faits, inférences et recommandations transforme l’assistant en outil de travail plus robuste.

Ce que cela annonce pour l’avenir

L’avenir ne sera probablement pas dominé par un seul assistant universel. Il ressemblera plutôt à une architecture hybride. Les modèles fermés resteront privilégiés pour les tâches exigeant le meilleur raisonnement, une recherche web intégrée ou des capacités multimodales avancées. Les modèles locaux se développeront pour les tâches privées, répétitives, hors ligne ou à coût marginal faible. Entre les deux, les entreprises choisiront des déploiements privés, des modèles ouverts spécialisés et des passerelles de sécurité.

Le rapport de l’Agence internationale de l’énergie ajoute une dimension matérielle à cette transition : les centres de données représentaient déjà une part mesurable de la consommation électrique mondiale, et leur demande pourrait plus que doubler d’ici 2030. Cela ne rend pas automatiquement le local plus écologique — un parc de PC mal utilisé consomme aussi —, mais cela pousse à réfléchir à l’efficacité réelle de chaque requête.

Le NIST, avec son profil de gestion des risques pour l’IA générative, rappelle enfin que la question n’est pas seulement technique. Il faut documenter les usages, évaluer les risques, surveiller les sorties et adapter les garde-fous.

ChatGPT n’est donc pas « dépassé ». Il est devenu trop important pour être utilisé naïvement. L’utilisateur avancé de 2026 ne choisit plus un seul outil : il arbitre entre puissance, coût, confidentialité, contrôle et qualité. C’est précisément là qu’Ollama et le prompting discipliné trouvent leur place.