08 marzo 2011
Campus Bilbao
El corpus que se edita corresponde a los documentos del Fondo Bonaparte, que es la colección documental en euskera más importante desde el punto de vista dialectal y diacrónico. La edición va acompañada, aparte de la anotación textual, de los elementos propios de dichas ediciones: descripción bibliográfica, información documental, reseña de fuentes, etc.
En cuanto a la anotación textual, se ha empleado el lenguaje de marcación XML a través del etiquetado TEI (Text Enconding Initiative). Este sistema de marcación, reconocido internacionalmente, se emplea para presentar textos digitalizados. En nuestro caso, se orienta, además, a la parte más innovadora de la investigación que aquí se presenta: el desarrollo de una herramienta informática que permite el análisis semiautomático (morfológico y sintáctico) de textos de diferentes épocas de todos los dialectos vascos. Su interés radica en esa doble vertiente dialectal y diacrónica que se incluye en la herramienta.
El trabajo, aparte de muy amplio, es francamente complejo. La variedad de las grafías que utilizaban los autores y las variaciones de uso que reflejan los textos en los niveles morfológico y sintáctico son incontables. Esto ha obligado a desarrollar un procedimiento metodológico que exige adaptaciones continuas a medida que la propia investigación las demanda.
La web ofrece, además, la posibilidad de comparar, en paralelo, diversas versiones de un mismo texto (hasta cuatro), lo que permite obtener y contrastar datos significativos sobre las diferentes opciones y realizaciones dialectales. Esta investigación, además del interés y novedad ya señalados, supone una valiosa contribución a todos cuantos trabajan en torno al euskera: investigadores, profesores, programadores y técnicos de la lengua, etc., ya que facilita un campo sin desarrollar tecnológicamente hasta el momento.
He aquí algunos datos del trabajo realizado hasta el presente:
Textos analizados: en torno a 100
Subdialectos analizados: 27
Lemas identificados en los subdialectos: en torno a 22.000
Reglas de flexión identificadas en los subdialectos: en torno a 12.000
Reglas sintácticas identificadas en los subdialectos: en torno a 360
Esta investigación se está llevando a cabo gracias a la ayuda económica facilitada por la Diputación Foral de Bizkaia, Dirección de Euskara del Departamento de Cultura.