Nos últimos años, el númberu y l’eficacia de les tecnoloxíes de traducción automática disparáronse. Gracies a la intelixencia artificial (IA), llevamos nel nuesu bolsu potentes ferramientes que traducen con facilidá cualesquier de les llingües mayoritaries. Pero ¿qué pasa con aquelles que tienen menos falantes y menos recursos? ¿Cómo puede llegar a entendeles una IA? La respuesta podría tar nel aprendizaxe por tresferencia y l’entrenamientu de sistemes multilingües pa les llingües romániques de la península ibérica. El proyectu Traducción automática neuronal pa les llingües romániques de la península ibérica (TAN-IBE), financiáu pol Ministeriu de Ciencia, Innovación y Universidaes, coordináu pola Universitat Oberta de Catalunya (UOC) y cola participación de les universidaes d’Uviéu, Lleida y Zaragoza, esplora les técniques más efectives pa entrenar sistemes de traducción automática basaos en redes neuronales (un tipu de IA) aplicaes a delles llingües romániques de la península ibérica: español, aragonés, aranés y asturianu.
Cristina Valdés, profesora del Departamentu de Filoloxía Inglesa, Francesa y Alemana de la Universidá d’Uviéu, sorraya que la traducción automática neuronal, tamién conocida poles sos sigles TAN, ye una tecnoloxía qu’emplega redes neuronales artificiales pa xenerar traducciones d’un idioma a otru. “La gran diferencia colos sistemes de traducción automática tradicionales mora en que la TAN apriende patrones complexos de grandes cantidaes de datos y puede producir traducciones más naturales y coherentes”, indica esta investigadora.
D’esta miente, los sistemes de traducción basaos en redes neuronales entrénense a partir de millones d’oraciones nuna llingua cola so traducción n’otra llingua. Ye lo que se conoz como corpus paralelos, inmensos conxuntos de datos disponibles en dos llingües. Una vegada que la rede neuronal ta entrenada, ye capaz de traducir con eficacia cualquier testu neses llingües. “El problema ye que, con idiomes como l’español o’l portugués, ye cenciello atopar esos corpus paralelos, pero con aquelles llingües que tienen menos material disponible —como’l aranés, l’aragonés o’l nuesu asturianu— ye complicao tener abondos datos pa entrenar a la intelixencia artificial”, añede Valdés.
La construcción del modelu de traducción nun ye l’únicu oxetivu del proyectu d’investigación, que busca, amás:
- Compilar corpus paralelos y monollingües pa les siete llingües romániques que s’inclúin na propuesta, dedicando un mayor esfuerzu al asturianu, l’aragonés y l’aranés.
- Esplorar nueves técniques pal entrenamientu de sistemes de traducción automática neuronal. Amás del deprendizaxe por tresferencia, va estudiase la traducción automática multillingüe, la traducción automática autosupervisada y la traducción automática non supervisada.
- Entrenar sistemes de traducción automática neuronal ente l’español y el restu de les llingües del proyectu, en dambes direcciones.
- Entrenar sistemes multilingües capaces de traducir dende y hacia toles llingües del proyectu.
- Crear guíes y scripts que faciliten l’entrenamientu de sistemes de traducción automática neuronal polo xeneral y, más en concretu, pa les llingües del proyectu.
- Publicar los resultaos del proyectu con llicencies llibres. Esto inclúi los corpus compilados, los modelos y motores de traducción automática y les guíes y scripts.