Aplicación de las nuevas tecnologías al Corpus Bonaparte: presentación de la página web, en la Universidad de Deusto

En el marco de la Semana de las Lenguas 2011 que se celebra entre el 8 y 10 de marzo en la Universidad de Deusto, esta mañana se ha presentado en Rueda de Prensa el trabajo de investigación para el análisis lingüístico de textos vascos: Hizkuntzaren teknologiak Bonaparteren corpusari aplikatuak: web orriaren aurkezpena. En el acto han intervenido Rosa Miren Pagola, directora del proyecto, y Miren Dobaran, Directora de Promoción del Euskera de la Diputación Foral de Bizkaia. La página web presentada corresponde a un trabajo de investigación realizado durante los últimos años en la Universidad de Deusto por el equipo interdisciplinar denominado TesiTek. Consiste en el desarrollo de una herramienta informática dirigida al análisis lingüístico de textos vascos, a partir de la edición de un corpus digital reutilizable. Los resultados obtenidos se encuentran en http://bonaparte.deusto.es, con sus aplicaciones abiertas y disponibles para todos los usuarios.Noticias

08 marzo 2011

Campus Bilbao

 

El corpus que se edita corresponde a los documentos del Fondo Bonaparte, que es la colección documental en euskera más importante desde el punto de vista dialectal y diacrónico. La edición va acompañada, aparte de la anotación textual, de los elementos propios de dichas ediciones: descripción bibliográfica, información documental, reseña de fuentes, etc.

En cuanto a la anotación textual, se ha empleado el lenguaje de marcación XML a través del etiquetado TEI (Text Enconding Initiative). Este sistema de marcación, reconocido internacionalmente, se emplea para presentar textos digitalizados. En nuestro caso, se orienta, además, a la parte más innovadora de la investigación que aquí se presenta: el desarrollo de una herramienta informática que permite el análisis semiautomático (morfológico y sintáctico) de textos de diferentes épocas de todos los dialectos vascos. Su interés radica en esa doble vertiente dialectal y diacrónica que se incluye en la herramienta.

El trabajo, aparte de muy amplio, es francamente complejo. La variedad de las grafías que utilizaban los autores y las variaciones de uso que reflejan los textos en los niveles morfológico y sintáctico son incontables. Esto ha obligado a desarrollar un procedimiento metodológico que exige adaptaciones continuas a medida que la propia investigación las demanda.

La web ofrece, además, la posibilidad de comparar, en paralelo, diversas versiones de un mismo texto (hasta cuatro), lo que permite obtener y contrastar datos significativos sobre las diferentes opciones y realizaciones dialectales. Esta investigación, además del interés y novedad ya señalados, supone una valiosa contribución a todos cuantos trabajan en torno al euskera: investigadores, profesores, programadores y técnicos de la lengua, etc., ya que facilita un campo sin desarrollar tecnológicamente hasta el momento.

He aquí algunos datos del trabajo realizado hasta el presente:

Textos analizados: en torno a 100
Subdialectos analizados: 27
Lemas identificados en los subdialectos: en torno a 22.000
Reglas de flexión identificadas en los subdialectos: en torno a 12.000
Reglas sintácticas identificadas en los subdialectos: en torno a 360

Esta investigación se está llevando a cabo gracias a la ayuda económica facilitada por la Diputación Foral de Bizkaia, Dirección de Euskara del Departamento de Cultura.