Fase de evaluación de la anotación
Veamos a continuación las tablas en las que se reflejan las frecuencias de acierto y de error de las reglas contextuales y de los marcadores.
Read moreVeamos a continuación las tablas en las que se reflejan las frecuencias de acierto y de error de las reglas contextuales y de los marcadores.
Read moreHemos hablado hasta aquí de un programa concebido en módulos que se combinan entre sí para dar cuenta de las especificidades de cada grupo de marcadores. Expliquemos ahora, también brevemente, cuál es la dinámica general del anotador.El anotador anota texto por texto los marcadores de los cuatro grupos. De nuevo este planteamiento nos ha parecido
Read moreEl módulo difícil de etiquetación afecta a aquellos grupos que tengan más de una etiqueta. En este caso, es imposible con la información de la que partimos saber cuándo una palabra como hombre (cuando es MD y no nombre) es un atenuante o bien es un codificador de la sorpresa. Es por eso que para ello debemos
Read moreEste módulo ha sido diseñado para los dos grupos de marcadores que contienen ambigüedad categorial. Si queremos automatizar el proceso de anotación lo máximo posible, debemos establecer algún tipo de criterio que, a priori, nos ayude a decidir por una opción (marcador) o por otra (otra categoría). Llegados a este punto, hemos decidido servirnos de las
Read moreEl anotador automático DiMaSTagger está dividido en dos partes: un reconocedor y un etiquetador. El reconocedor busca, identifica candidatos a marcador discursivo en los textos; mientras que el etiquetador introduce la etiqueta en Xml correspondiente dentro del texto, una vez que el reconocedor ya ha hecho su trabajo.Como ya hemos señalado anteriormente, hay cuatro tipos
Read moreTenemos que tener en cuenta que esta lista que hemos elaborado en realidad no es una lista de marcadores del discurso sino que es una lista de palabras que son candidatas posibles a que en el corpus sean realmente marcador discursivo. Así por ejemplo, algunas palabras de la lista no estarán, otras estarán pero posiblemente
Read moreNuestro lexicón de marcadores discursivos se ha elaborado con las siguientes fuentes:
Read moren este capítulo, vamos a tratar todas las cuestiones relativas a la gestión computacional del corpus a la hora de reconocer estas palabras e introducir las etiquetas en XML que hemos diseñado para los marcadores en el corpus.El tratamiento automático de los marcadores del discurso es una tarea de reciente en la investigación de Lingüística
Read moreEste apartado está dedicado a explicar el formato de la transcripción de C-ORAL-ROM etiquetado en XML con Pragmatext. En el capítulo cinco ya hemos adelantado el modo en que aparecen etiquetadas las unidades de información pragmática en XML. Aquí damos una explicación global al texto de la transcripción.Como ya sabemos, la información pragmática se ha
Read moreEn lo que respecta al nivel semántico-pragmático de la lengua, solamente podemos destacar en el ámbito del español dos corpus que tienen anotación semántica. En primer lugar, el corpus Cast3lb , etiquetado con Named Entities, papeles semánticos (que se corresponden con su respectiva función sintáctica) y relaciones anafóricas; y, en segundo lugar, nuestro corpus, C-ORAL-ROM, anotado
Read moreTodos los corpus que conforman el proyecto C-ORAL-ROM están etiquetados con este modelo de anotación, aunque solamente nosotros distinguimos desde los inicios la categoría marcador del discurso.
Read moreAna Gonzalez Ledesma ©. All rights reserved.