Aplicación de las nuevas tecnologías al Corpus Bonaparte: presentación de la página web, en la Universidad de Deusto

08 marzo 2011

Campus Bilbao

El corpus que se edita corresponde a los documentos del Fondo Bonaparte, que es la colección documental en euskera más importante desde el punto de vista dialectal y diacrónico. La edición va acompañada, aparte de la anotación textual, de los elementos propios de dichas ediciones: descripción bibliográfica, información documental, reseña de fuentes, etc.

En cuanto a la anotación textual, se ha empleado el lenguaje de marcación XML a través del etiquetado TEI (Text Enconding Initiative). Este sistema de marcación, reconocido internacionalmente, se emplea para presentar textos digitalizados. En nuestro caso, se orienta, además, a la parte más innovadora de la investigación que aquí se presenta: el desarrollo de una herramienta informática que permite el análisis semiautomático (morfológico y sintáctico) de textos de diferentes épocas de todos los dialectos vascos. Su interés radica en esa doble vertiente dialectal y diacrónica que se incluye en la herramienta.

El trabajo, aparte de muy amplio, es francamente complejo. La variedad de las grafías que utilizaban los autores y las variaciones de uso que reflejan los textos en los niveles morfológico y sintáctico son incontables. Esto ha obligado a desarrollar un procedimiento metodológico que exige adaptaciones continuas a medida que la propia investigación las demanda.

La web ofrece, además, la posibilidad de comparar, en paralelo, diversas versiones de un mismo texto (hasta cuatro), lo que permite obtener y contrastar datos significativos sobre las diferentes opciones y realizaciones dialectales. Esta investigación, además del interés y novedad ya señalados, supone una valiosa contribución a todos cuantos trabajan en torno al euskera: investigadores, profesores, programadores y técnicos de la lengua, etc., ya que facilita un campo sin desarrollar tecnológicamente hasta el momento.

He aquí algunos datos del trabajo realizado hasta el presente:

Textos analizados: en torno a 100
Subdialectos analizados: 27
Lemas identificados en los subdialectos: en torno a 22.000
Reglas de flexión identificadas en los subdialectos: en torno a 12.000
Reglas sintácticas identificadas en los subdialectos: en torno a 360

Esta investigación se está llevando a cabo gracias a la ayuda económica facilitada por la Diputación Foral de Bizkaia, Dirección de Euskara del Departamento de Cultura.

Noticias relacionadas

27 junio 2025 - Campus Bilbao

El proyecto de investigación SOTERIA para mejorar la seguridad vial de usuarios vulnerables completa la primera ronda de pruebas

27 junio 2025 - Campus Bilbao

Marta Vélez, estudiante del doble grado de Relaciones Internacionales y Derecho, recibe un accésit en el Premio Manuel Olivencia a la Exc...

27 junio 2025 - Campus San Sebastián

Concluye con éxito la tercera edición del Campus de Verano de la Universidad de Deusto

26 junio 2025 - Campus Bilbao

Deusto se suma a Euskorpora para impulsar el euskera en la era de la IA

Ver todas las noticias Flecha dentro de un enlace para conocer más sobre este elemento