: Base de Datos AMPERCan : Codificación :

Atlas Multimedia de Prosodia del
Espacio Románico en Canarias

AMPERCan, como todos los proyectos vinculados al proyecto internacional AMPER, debe aplicar una metodología común adaptada a las diversas variedades y lenguas representadas en el proyecto. Ello no implica que cada subproyecto no pueda tomar decisiones particulares como las que se refieren al n^o de puntos de encuesta, n^o de informantes en cada uno de ellos y otros aspectos que no afecten sustancialmente a la metodología general.

Se trabaja con cuatro tipos de corpus si bien en la base de datos aparecerá sólo el análisis del que etiquetamos como experimental fijo. Son los siguientes:

1. Experimental fijo:

a. Tipo de palabras: agudas, llanas y esdrújulas.

b. Modalidades: declarativa e interrogativa absoluta

c. Número de oraciones por cada modalidad: 63

d. Recogida del corpus: Se graba en el punto de encuesta. El corpus se presenta a cada informante de manera aleatoria y, a pesar de ser experimental, se debe garantizar la mayor naturalidad posible en cada emisión.

e. Número de emisiones que se analiza de cada frase: 3

f. Tipo de frases:

S + V + O

S + Expansión + V + O

S + V + O + Expansión

g. Digitalización y etiquetaje del corpus: las oraciones grabadas se digitalizan convirtiéndolas en ficheros wave y se graban siguiendo un etiquetaje de 9 dígitos +extensión (ver codificación).

h. Análisis: cada archivo wave se analiza en entorno Matlab (trabajamos con las subrutinas creadas el grupo de investigación de Grenoble y con las del grupo AMPER-Astur) para obtener una serie de archivos con diferente extensión (.txt, .ton, etc). Los más importantes para el proyecto son los .txt puesto que muestran todos los datos de F0, duración e intensidad de las vocales de cada frase y los .ton puesto que nos permiten conocer la prosodia de cada oración desprovista de otro tipo de información gramatical, semántica, etc. Además, podemos obtener gráficos de cada uno de los tres parámetros, bien de manera individual o de las medias de las tres repeticiones de cada frase.

2. Inducido

Está constituido por frases de uso muy cotidiano que se obtienen mediante el planteamiento al informante de cuestiones de uso muy cotidiano. Por ejemplo: ¿cómo pregunta por la hora habitualmente?, ¿cómo saluda a un vecino?

3. Map task

Mediante este sistema de recogida de datos se obtiene un corpus más espontáneo puesto que se plantea a partir de mapas: el informante y el entrevistador o bien dos informantes deben salir de un punto geográfico y llegar a un destino determinado. Puesto que los dos mapas no son idénticos, ello motiva una serie de preguntas y respuestas por parte de ambos intervinientes.

4. Conversación espontánea

En este caso, se trata de obtener un corpus de habla espontáneo sin restricciones. En AmperCan hemos propiciado un conocimiento previo del entrevistado para que de esta manera los temas de conversación sean de mucho interés para el informante y, por tanto, su conversación sea lo más espontánea posible.