Les rapports d’échec des projets IA atteignent 85 %, souvent à cause de budgets et de délais démesurés. Une piste reste sous-exploitée : les petits modèles de langage (Small Language Models, SLM). Une étude empirique sur le sujet montre qu’ils peuvent atteindre des performances proches des très grands modèles sur des tâches ciblées, tout en réduisant la consommation de calcul d’un facteur 10 à 100.
Latence et souveraineté des données
Grâce à la quantification et au déchargement de modèle, un SLM tourne localement sur smartphone ou ECU automobile avec une inférence sub-100 ms. Cela élimine le coût de bande passante et garantit la conformité RGPD ou véhicule-connecté. Les travaux d’évaluation des compromis performance/latence sur du matériel spécifique confirment un speed-up ×15 par rapport aux grandes versions cloud.
Spécialisation vs. taille
Mistral AI capitalise déjà sur cette approche avec Mistral Small 3.1, un modèle 24 fois plus rapide que son grand frère et 3 fois moins coûteux à l’entraînement. Les limites existent : la recherche de l’Inria sur le « Softmax Bottleneck » indique que la capacité de mémorisation reste inférieure à celle des LLM massifs, rendant les SLM plus adaptés aux domaines à vocabulaire contraint (FAQ, commandes vocales, diagnostic industriel).
Action clé pour les décideurs
Avant d’investir dans un LLM généraliste, testez un SLM spécialisé sur 80 % de votre corpus métier. Les gains de temps, de budget et de confidentialité sont immédiats ; la scalabilité viendra ensuite par agrégation de plusieurs SLM experts plutôt que par un unique modèle monolithique.