Latxa: El ChatGPT a Euskera que Busca Reduir la Bretxa Digital
L'avenç en models de llenguatge com ChatGPT ha transformat la manera com interactuem amb la tecnologia. Tot i això, idiomes amb menys parlants, com el basc, no han rebut el mateix nivell d'atenció. Per abordar aquesta bretxa digital, el Centre Basc de Tecnologia del Llenguatge (HiTZ) ha desenvolupat “Latxa”, un chatbot en eusquera que promet superar les capacitats del GPT-3.5 i competir amb els models més avançats.
L'origen de Latxa
Eneko Agirre, que ha dedicat la seva carrera al processament de llenguatges, lidera aquest projecte ambiciós. Amb un equip d'informàtics, lingüistes i enginyers, el HiTZ ha creat Latxa per proporcionar a l'euskera les eines tecnològiques que altres llengües majoritàries ja gaudeixen.
Procés de Desenvolupament
Per desenvolupar Latxa, s'han necessitat tres components fonamentals:
- Equip de Recerca: Experts en processament de llenguatge natural que puguin treballar amb algorismes avançats.
- Dades a Euskera: Una gran quantitat de text en euskera per alimentar el model, millorant així la seva precisió i fluïdesa.
- Supercomputació: Accés a potents recursos computacionals, com el supercomputador LEONARDO a Itàlia, per processar i entrenar el model.
Com funciona Latxa
Latxa utilitza un algorisme semblant al d'altres models de llenguatge. Aquest algorisme aprèn a predir paraules i combinacions de paraules basant-se en enormes quantitats de text. A través d'aquest procés, el sistema adquireix coneixements sobre gramàtica, morfologia i context, permetent generar text coherent en euskera.
Desafiaments i Solucions
Un dels principals reptes és la quantitat limitada de dades disponibles en èuscar en comparació amb idiomes com l'anglès o l'espanyol. Aquest desequilibri pot comportar errors gramaticals i menys rendiment en el processament de llenguatge. Per mitigar aquest problema, el HiTZ s'ha centrat a recopilar i utilitzar tots els recursos disponibles, a més d'assegurar que el model rebi formació continuada.
El projecte Latxa ha comptat amb el suport del Govern Basc i fons europeus, cosa que ha estat crucial per avançar en el desenvolupament del model. Aquest finançament ha permès al HiTZ superar barreres tècniques i avançar cap a la creació d‟un model competitiu a nivell global.
No sols busca ser una eina funcional, sinó també un símbol de la importància de preservar i promoure llengües minoritàries a l'era digital. Eneko Agirre destaca que la tecnologia té un paper crucial en la preservació cultural i lingüística, comparant-la amb la premsa, la ràdio i la televisió en la capacitat d'influir i mantenir viva una llengua.
Latxa és un pas significatiu cap a la democratització de la tecnologia del llenguatge, oferint al basc una plataforma competitiva i eficaç. Aquest projecte no només millora l'accessibilitat i l'ús del basc a la tecnologia, sinó que també estableix un precedent sobre com les llengües menys parlades poden prosperar en l'àmbit digital.