Les LLM de petite taille peuvent-ils surpasser les plus grands ? Une nouvelle étude remet en question nos hypothèses sur le calcul optimal pendant l’inférence.
Les chercheurs ont découvert que les modèles plus petits (1 milliard de paramètres) peuvent parfois égaler ou même dépasser les performances des modèles beaucoup plus grands (405 milliards de paramètres) grâce à des stratégies d’optimisation du calcul pendant l’inférence.
Les trois principales approches étudiées sont :
- Best-of-N (BoN) : Génération de N solutions indépendantes, évaluées et sélectionnées selon un système de notation.
- Recherche par faisceau : Exploration structurée générant plusieurs solutions partielles, ne conservant que les meilleures à chaque étape.
- Recherche arborescente avec vérificateur diversifié (DVTS) : Extension de la recherche par faisceau encourageant l’exploration de chemins de solution différents.
Les résultats montrent que la qualité du modèle de récompense (PRM) est cruciale. Un PRM entraîné sur des données similaires à celles du LLM (“on-policy”) donne généralement de meilleurs résultats. Cependant, entraîner un PRM personnalisé pour chaque LLM est coûteux.
Cette recherche ouvre de nouvelles perspectives pour optimiser les LLM de plus petite taille, les rendant plus accessibles et économiques. Elle remet également en question l’idée reçue selon laquelle “plus grand = meilleur” dans le domaine des modèles de langage.
Les implications pratiques sont importantes :
- Possibilité de déployer des capacités avancées sur des appareils aux ressources limitées
- Réduction significative des coûts de calcul et de la consommation d’énergie
- Démocratisation de l’IA en rendant les modèles performants plus accessibles
Il reste cependant des défis à relever, notamment l’amélioration des modèles de récompense et l’optimisation des stratégies de recherche pendant l’inférence.