Funcionamiento a tiempo real de DiMaSTagger
Funcionamiento a tiempo real de DiMaSTagger

Hemos hablado hasta aquí de un programa concebido en módulos que se combinan entre sí para dar cuenta de las especificidades de cada grupo de marcadores. Expliquemos ahora, también brevemente, cuál es la dinámica general del anotador.El anotador anota texto por texto los marcadores de los cuatro grupos. De nuevo este planteamiento nos ha parecido

Read more
Módulos de etiquetación
Módulos de etiquetación

El módulo difícil de etiquetación afecta a aquellos grupos que tengan más de una etiqueta. En este caso, es imposible con la información de la que partimos saber cuándo una palabra como hombre (cuando es MD y no nombre) es un atenuante o bien es un codificador de la sorpresa. Es por eso que para ello debemos

Read more
Fase de anotación
Fase de anotación

El anotador automático DiMaSTagger está dividido en dos partes: un reconocedor y un etiquetador. El reconocedor busca, identifica candidatos a marcador discursivo en los textos; mientras que el etiquetador introduce la etiqueta en Xml correspondiente dentro del texto, una vez que el reconocedor ya ha hecho su trabajo.Como ya hemos señalado anteriormente, hay cuatro tipos

Read more
Reconocimiento de los candidatos a MD en el corpus
Reconocimiento de los candidatos a MD en el corpus

Tenemos que tener en cuenta que esta lista que hemos elaborado en realidad no es una lista de marcadores del discurso sino que es una lista de palabras que son candidatas posibles a que en el corpus sean realmente marcador discursivo. Así por ejemplo, algunas palabras de la lista no estarán, otras estarán pero posiblemente

Read more
Estrategias de reconocimiento y clasificación semiautomática de los marcadores del discurso del corpus C-ORAL-ROM, el anotador DiMaSTagger y su evaluación: INTRODUCCIÓN
Estrategias de reconocimiento y clasificación semiautomática de los marcadores del discurso del corpus C-ORAL-ROM, el anotador DiMaSTagger y su evaluación: INTRODUCCIÓN

n este capítulo, vamos a tratar todas las cuestiones relativas a la gestión computacional del corpus a la hora de reconocer estas palabras e introducir las etiquetas en XML que hemos diseñado para los marcadores en el corpus.El tratamiento automático de los marcadores del discurso es una tarea de reciente en la investigación de Lingüística

Read more
Pragmatext en C-ORAL-ROM en formato XML
Pragmatext en C-ORAL-ROM en formato XML

Este apartado está dedicado a explicar el formato de la transcripción de C-ORAL-ROM etiquetado en XML con Pragmatext. En el capítulo cinco ya hemos adelantado el modo en que aparecen etiquetadas las unidades de información pragmática en XML. Aquí damos una explicación global al texto de la transcripción.Como ya sabemos, la información pragmática se ha

Read more
Corpus anotados a nivel semántico-pragmático
Corpus anotados a nivel semántico-pragmático

En lo que respecta al nivel semántico-pragmático de la lengua, solamente podemos destacar en el ámbito del español dos corpus que tienen anotación semántica. En primer lugar, el corpus Cast3lb , etiquetado con Named Entities, papeles semánticos (que se corresponden con su respectiva función sintáctica) y relaciones anafóricas; y, en segundo lugar, nuestro corpus, C-ORAL-ROM, anotado

Read more
error: Este contenido está sometido a copyright.