Latxa: Le ChatGPT en basque qui cherche à réduire la fracture numérique

Latxa: Le ChatGPT en basque qui cherche à réduire la fracture numérique

Les progrès des modèles linguistiques tels que ChatGPT ont transformé la façon dont nous interagissons avec la technologie. Cependant, les langues moins locutées, comme le basque, n’ont pas reçu le même niveau d’attention. Pour remédier à cette fracture numérique, le Centre Basque de Technologie Linguistique (HiTZ) a développé « Latxa », un chatbot en basque qui promet de surpasser les capacités du GPT-3.5 et de rivaliser avec les modèles les plus avancés.​ ​

L'origine de la latxa

Eneko Agirre, qui a consacré sa carrière au traitement du langage, mène ce projet ambitieux. Avec une équipe d'informaticiens, de linguistes et d'ingénieurs, HiTZ a créé Latxa pour doter l'euskara des outils technologiques dont bénéficient déjà d'autres langues majoritaires. ​

Processus de développement

Pour développer Latxa, trois composants fondamentaux ont été nécessaires :

  1. Équipe de recherche: experts en traitement du langage naturel capables de travailler avec des algorithmes avancés. 
  2. Données en basque: Une grande quantité de texte en basque pour alimenter le modèle, améliorant ainsi sa précision et sa fluidité.
  3. Supercalcul: accès à des ressources informatiques puissantes, telles que le supercalculateur LEONARDO en Italie, pour traiter et entraîner le modèle.  

Comment fonctionne Latxa

Latxa utilise un algorithme similaire à d'autres modèles de langage. Cet algorithme apprend à prédire des mots et des combinaisons de mots sur la base d'énormes quantités de texte. Grâce à ce processus, le système acquiert des connaissances sur la grammaire, la morphologie et le contexte, lui permettant de générer un texte cohérent en basque.

Défis et solutions

L'un des principaux défis est la quantité limitée de données disponibles en basque par rapport à des langues comme l'anglais ou l'espagnol. Ce déséquilibre peut entraîner des erreurs grammaticales et une baisse des performances dans le traitement du langage. Pour atténuer ce problème, HiTZ s'est concentré sur la collecte et l'utilisation de toutes les ressources disponibles, ainsi que sur la garantie que le modèle reçoit une formation continue. ​

Le projet Latxa a bénéficié du soutien du Gouvernement basque et de fonds européens, ce qui a été crucial pour faire avancer le développement du modèle. Ce financement a permis à HiTZ de surmonter les obstacles techniques et de progresser vers la création d'un modèle compétitif à l'échelle mondiale.

Il cherche non seulement à être un outil fonctionnel, mais aussi un symbole de l’importance de préserver et de promouvoir les langues minoritaires à l’ère numérique. Eneko Agirre souligne que la technologie joue un rôle crucial dans la préservation culturelle et linguistique, la comparant à la presse, à la radio et à la télévision dans sa capacité à influencer et à maintenir une langue vivante. ​

Latxa représente une étape significative vers la démocratisation de la technologie linguistique, offrant à l'euskara une plateforme compétitive et efficace. Ce projet améliore non seulement l'accessibilité et l'utilisation de l'euskara dans la technologie, mais crée également un précédent quant à la façon dont les langues moins parlées peuvent prospérer dans le domaine numérique. ​