L’Asie du Sud-Est connaît actuellement une véritable révolution dans le développement des modèles de langage d’intelligence artificielle (LLM) adaptés à ses besoins spécifiques. Cette évolution répond à un déséquilibre important : environ 73% des LLM existants proviennent des États-Unis et de la Chine, et la majorité sont principalement entraînés sur des données en anglais.
Initiatives Régionales
Singapour mène cette transformation avec des initiatives comme SEA-LION, qui intègre du contenu en langues d’Asie du Sud-Est. Le Vietnam a développé PhoGPT, un modèle spécialisé avec 3,7 milliards de paramètres, tandis que la Malaisie a créé MaLLaM pour préserver ses spécificités linguistiques.
Défis et Enjeux
Ces développements répondent à des défis complexes : la région compte plus de 1200 langues, dont beaucoup sont menacées de disparition. Les modèles doivent gérer des subtilités culturelles importantes, comme le code-switching fréquent entre plusieurs langues dans une même conversation.
L’enjeu n’est pas seulement technologique mais aussi culturel et identitaire. Ces LLM locaux visent à préserver les nuances linguistiques et les perspectives culturelles propres à la région, tout en permettant son développement économique. Ils représentent un pas important vers l’autonomie technologique de l’Asie du Sud-Est.
Perspectives et Défis Futurs
Les défis restent nombreux, notamment le coût élevé du développement et la difficulté d’obtenir des données de qualité. Cependant, cette évolution marque une étape cruciale dans l’affirmation de l’identité numérique de la région et sa capacité à développer des solutions adaptées à ses besoins spécifiques.