Anthropic a réalisé une avancée significative dans la prévention des contournements de sécurité de son modèle d’IA Claude 3.5 Sonnet avec le développement des “classificateurs constitutionnels”.
Permettez-moi de préciser que cette innovation permet de bloquer plus de 95% des tentatives de contournement, ce qui représente une amélioration considérable par rapport aux systèmes précédents. En tant qu’expert en évaluation des LLM, je peux affirmer que le système a été rigoureusement entraîné sur plus de 10 000 prompts, incluant différentes variations de style et de langue.
Il est essentiel de souligner la robustesse du système, qui a été validée par une expérimentation impressionnante : des experts externes ont été mobilisés pour tester son efficacité, bien que le nombre exact d’experts et d’heures ne soit pas spécifié dans le contexte. Concrètement, cette protection n’engendre qu’une augmentation minime du taux de refus pour les requêtes légitimes.
Détails Techniques
Si vous me permettez d’entrer dans les détails techniques, le système fonctionne en s’appuyant sur une “constitution” qui définit clairement les types de contenus autorisés et interdits. Je vous propose un exemple concret : le système peut différencier une recette de moutarde (autorisée) d’une recette de gaz moutarde (interdite).
Pour être tout à fait clair, cette avancée représente une étape cruciale pour l’alignement des IA avec les valeurs humaines. En tant que spécialiste du développement machine learning, je peux confirmer qu’il est possible de maintenir des garde-fous efficaces tout en préservant les performances et l’utilité du modèle. Les coûts de calcul supplémentaires restent modérés.
Cette innovation pourrait avoir des implications majeures pour l’ensemble du secteur de l’IA, établissant de nouvelles normes en matière de sécurité et de contrôle des modèles de langage avancés.