La Universitat d’Alacant, a través del grup dinvestigació Transducens del Departament de Llenguatges i Sistemes Informàtics, serà un dels socis de l’acció 2016-EU-IA-0114 «Provision of web-scale parallel corpora for official European languages», concedida en el marc de la convocatòria CEF-TC-2016-3. Automated Translation.
El projecte, de divuit mesos de durada, comença a mitjan setembre de 2017 i sacabarà el 31 de desembre de 2018. Està coordinat per la Universitat d’Edimburg i té com a socis l’empresa TAUS i Prompsit Language Engineering, empresa sorgida del grup Transducens.
El component Automated Translation de la Connecting Europe Facility (CEF) proveirà la Comissió Europea de col·leccions de textos traduïts entre qualsevol de les vint-i-quatre llengües oficials de la Unió Europea. En els primers sis mesos es preveu tenir disponibles recursos per a dotze d’aquestes vint-i-quatre llengües.
Els recursos més importants per a construir un servei de traducció automàtica són els corpus paral·lels, és a dir, les col·leccions de textos traduïts. Fins ara, recursos d’aquest tipus solament estan disponibles a gran escala per a determinats llocs web com el Parlament Europeu, les Nacions Unides, o per a algunes iniciatives voluntàries com les traduccions de les xarrades TED o d’Open Subtitles, i només per a algunes llengües d’Europa. No obstant això, la traducció automàtica comercial (Google, Microsoft) parteix de corpus basats en els textos de milions de llocs web i que tracten amb uns rangs més amplis de gèneres, temàtiques i estils.
En aquest projecte, els investigadors aplicaran les últimes tecnologies disponibles per a la cadena de processament completa, des de la identificació dels llocs web amb text traduït fins a l’obtenció de corpus paral·lels nets massius per a totes les llengües d’Europa. Aquests textos, que cobriran una àmplia varietat d’estils, gèneres i temàtiques, estaran llestos tant per a ser usats com a dades d’entrenament en el CEF Automated Translation, com per a servir de memòries de traducció per a la Direcció General de Traducció de la Comissió Europea.
El projecte es lliurarà a la Comissió Europea i les eines seran publicades mitjançant llicències de programari lliure o de codi font obert, el programari que permetrà continuar la collita en Internet de col·leccions de textos traduïts, de manera que puguen ser usades tant per CEF Automated Translation com per tota persona o institució que hi estiga interessada.
Empreses al servei de les TIC
Prompsit Language Engineering és una empresa del sector de les TIC especialitzada en tecnologies de la llengua, creada el 2006 com a spin-off del grup dinvestigació Transducens de la UA. Prompsit va nàixer com a resposta a la necessitat comercial generada per l’aparició de la plataforma de traducció automàtica de codi obert Apertium. Entre els socis fundadors de Prompsit hi ha el doctor Felipe Sánchez Martínez, els professors Rafael C. Carrasco Jiménez, Juan Antonio Pérez-Ortiz i Mikel L. Forcada, tots ells pertanyents al Departament de Llenguatges i Sistemes Informàtics de la UA.
TAUS (https://www.taus.net) és una empresa fundada el gener de 2005 per un consorci de companyies TIC que tenien com a focus l’automatització de la traducció. Inicialment era un think tank; actualment comercialitza una plataforma per a la col·laboració entre traductors, la gestió i compartició de recursos de traducció i avaluació de la qualitat de les traduccions.