Los marcadores discursivos del corpus árabe de la ONU
Para la anotación de los marcadores discursivos en árabe, se ha desarrollado un módulo de procesamiento que tiene como entrada tres fuentes de información:
- La información de los marcadores discursivos anotados en el corpus español.
- Los datos de alineamiento y la anotación de categorías gramaticales.
- Un lexicón bilingüe de marcadores discursivos español-árabe creado automáticamente a partir de los marcadores del español.
Para la última fuente de información, la lista de marcadores discursivos españoles se ha traducido automáticamente a través de un sistema de traducción automática y un diccionario electrónico. Con las traducciones proporcionadas de ambas fuentes se ha creado el lexicón bilingüe. Para la traducción automática, se ha utilizado el sistema Google Translate disponible en línea por Internet. Para el diccionario bilingüe, se ha utilizado el diccionario BetaWikiled Online Dictionary (Spanish-Arabic)4. Cabe señalar que el Google Translate no ofrece la opción de español-árabe, por lo tanto la traducción se ha llevado de forma indirecta a través del inglés en dos pasos: español-inglés e inglés-árabe.
Hemos recurrido a esta estrategia para maximizar el uso de las fuentes disponibles y automatizar en la medida de lo posible el proceso de anotación del corpus árabe. De este modo, se introduce una estrategia eficaz y se ahorra el tiempo y el esfuerzo manual requerido en el caso de la anotación manual. Sin embargo, hay que admitir que esta estrategia podría tener sus desventajas en cuanto al reconocimiento de marcadores discursivos propios del corpus árabe que no aparecen en el corpus español (considerado como el punto de partida). A pesar de ello, una comparación eficaz entre las ventajas logradas y las desventajas demuestra la eficiencia de esta aproximación en términos de tiempo y coste, dado que es una técnica reconocida en el procesamiento del lenguaje natural para acelerar el proceso de creación de recursos que suele caracterizar por su alto coste.
Por último y además de las fuentes arriba mencionadas, se utilizan algunas heurísticas sobre la posición de la ocurrencia del marcador discursivo y los signos de puntuación que
4 http://www.wikiled.com/spanish-arabic-Default.aspx
aparecen con los marcadores. Se recurre a estas heurísticas en el caso de que no se pueda localizar un candidato con la ayuda de las fuentes.
El procedimiento adoptado consiste en lo siguiente: primero, para cada oración en el corpus español, se extraen los marcadores discursivos anotados con los atributos asignados. Segundo, para cada marcador en la oración, se busca en el lexicón bilingüe las posibles traducciones en árabe. Tercero, una vez extraídas las traducciones en árabe y con la ayuda de la información proporcionada por el alineamiento se busca alguna ocurrencia de estas traducciones en la(s) oración(es) alineadas del corpus árabe. Cuarto, si se localiza una ocurrencia, se etiqueta con los mismos atributos de su correspondiente español. Quinto, si no se localiza ningún candidato, se recurre a las heurísticas sobre la posición, por ejemplo, si el marcador ocurre en una posición inicial o intermedia delimitado con los signos de puntuación. Sexto, para los atributos de información sobre categorías gramaticales, se recurre a la información categorial proporcionada en el corpus y se asignan las categorías a los atributos correspondientes. Uno de los desafíos en este respecto ha consistido afrontar el problema de la elevada frecuencia de los clíticos en el árabe, dado que un mismo token puede que esté formado por uno o más unidades gramaticales. Un caso parecido en español es la contracción de la preposición y el artículo como en “del” donde en un mismo token existen dos categorías gramaticales. En árabe este fenómeno es muy frecuente y las unidades gramaticales pueden llegar hasta cuatro como en el ejemplo siguiente:
preposición+artículo+nombre | particular) (en بالتحديد |
La salida de este módulo consiste en el corpus árabe con los marcadores discursivos anotados con la misma información de los atributos de sus correspondientes en español.
1. Evaluación de los resultados
Los resultados de la anotación del corpus árabe a partir de la anotación del español demuestran que en muchos casos el módulo automático ha acertado con un porcentaje de 80,4%, ya que ha detectado correctamente 449 marcadores en árabe de los 558 marcadores en español.
Lo que nos interesa aquí desde una perspectiva lingüística es estudiar las estrategias por las cuales se han traducido los marcadores discursivos. Analizar los resultados ha revelado una serie de observaciones. Estas observaciones se pueden considerar como motivos de errores y ambigüedades que ha afectado el procesamiento automático, pero que a la vez revelan fenómenos propios del proceso de la traducción y la formulación de los procesos pragmáticos en cada idioma. Estas observaciones se mencionan a continuación.
Para empezar, un modelo automático parte de la hipótesis de que la traducción de marcadores discursivos es una relación de uno-a-uno. Esta premisa no se cumple en la realidad. En muchos casos, el traductor opta por la omisión de un marcador discursivo o recurre a otras estrategias lingüísticas en la lengua destino. Este fenómeno explica el porcentaje de errores en la detección automática.
En muchos casos, la función discursiva se materializa en español a través de un marcador discursivo, mientras que en árabe la misma función discursiva se materializa en paráfrasis verbales. Es decir, cada lengua adopta estrategias diferentes para reflejar funciones discursivas como la consecuencia, la co-argumentación, la hipótesis, etc. Un ejemplo bastante frecuente es la traducción de los marcadores de finalidad como para que, con el fin de, ( en ejemplos como “hacer una llamada internacional para/con el fin de”) a una paráfrasis verbal de tipo “ ب طانة” “exhortar a/llamar a”.
En algunos casos, se ha observado que en la traducción a la lengua2, se puede optar por una operación discursiva diferente a la utilizada en la lengua1. Los casos de este tipo no son frecuentes, pero sí se dan, ya que en algunos casos, el traductor opta por un marcador de concreción en vez de un marcador de contra-argumentación.
El marcador discursivo de co-argumentación por excelencia “y”, en árabe “َ” ocurre en árabe con mucha frecuencia y es común utilizarlo con otros marcadores. Este marcador ha causado bastante ruido en el procesamiento, ya que presenta una ambigüedad de carácter sintagmático. Además, según las convenciones ortográficas del árabe moderno la “َ” ocurre en el mismo token al que precede sin utilizar espacios para delimitarlo. Esto causa mucha ambigüedad formal porque cuando ocurre en una posición inicial de un token, no se puede distinguir si se trata de un carácter inicial que forma parte de la palabra o si se trata de una conjunción o un marcador discursivo.
Por otro lado en el caso de las heurísticas, aunque, a primera vista, se puede decir que normalmente los marcadores discursivos ocurren en posiciones parecidas y delimitados con los mismos signos de puntuación, en el análisis real de los resultados de este módulo, se ha observado que, en muchos casos, las heurísticas han dado mejores resultados en las posiciones iniciales de ocurrencia, mientras que en los casos de posiciones intermedios, las heurísticas han fallado en varias ocasiones por varios motivos como el cambio de la posición en cuanto al orden del segmento, la omisión o el uso de delimitadores diferentes. Asimismo, cabe señalar que el uso de los signos de puntuación en árabe es una práctica bastante reciente en la ortografía árabe. Por eso, su uso no sigue unas reglas bien definidas y se omiten en carios casos.
Por último, hay que tener en cuenta que si se estudia el corpus árabe desde una perspectiva monolingüe, es muy probable que se detectaran casos en que en el texto traducido aparece un marcador discursivo propio del texto árabe sin que sea utilizado en el texto español. Sin embargo, detectar estos casos requiere un procesamiento monolingüe que no lo hemos seguido en este experimento, ya que en el presente estudio, partimos del corpus español para localizar equivalentes en el corpus árabe.
Tras estas observaciones, señalamos algunos de los resultados de los marcadores discursivos detectados en árabe.
Marcadores de finalidad
Marcador Discursivo | Frecuencia |
مه أجم | 7 |
ََصُال إنى ٌزي انغاٌح، | 1 |
تحٍس | 1 |
كً | 1 |
نكً | 1 |
Marcadores de contra-argumentación
Marcador | Frecuencia |
نكه | 8 |
تم | 4 |
إال | 3 |
غٍش | 1 |
َمع ٌزا، | 1 |
Marcadores de condición
Marcador | Frecuencia |
تمجشد | 1 |
فوس ذُجٍٍا إنى انعشاق ، | 1 |
تعذ | 1 |
Marcadores de Topicalización
Marcador | Frecuencia |
تشأن | 15 |
مه حٍس | 2 |
َفً ٌزا انصذد، | 2 |
فً جمهح أمُس، | 1 |
فً ٌزا انصذد | 1 |
فً ٌزا انشأن | 1 |
ال سٍما | 1 |
إال أن | 1 |
َ | 1 |
َفٍما ٌرعهق | 1 |
مرعهق ب | 1 |
Marcadores de co-argumentación
Marcador | Frecuencia |
َ | 44 |
أٌضا | 24 |
كما | 12 |
فضال عه | 6 |
كزنك | 4 |
َعالَج عهى رنك، | 2 |
َقذ أٌذ تعض أعضاء انمجهس كذلك َضع َالٌح أكثش قُج، | 2 |
إضافح إنى | 2 |
ال سٍما | 1 |
َتاإلضافح إنى رنك، | 1 |
Finalmente, la salida final del corpus paralelo anotado con los marcadores discursivos se representa en la siguiente forma donde se resaltan los marcadores discursivos con efectos visuales utilizando los colores.
1 El Secretario General Adjunto se refirió en particular a los progresos logrados en relación con la iniciativa de paz de Djibouti , así como a la situación política y humanitaria en Somalia . | 1 َأشاس َكٍم األمٍه انعاو ، تُجً خاص، إنى انرقذو انزي أحشص تشأن مثادسج جٍثُذً نهسالو، تاإلضافح إنى انحانح انسٍاسٍح َاإلوساوٍح فً انصُمال . |
2 Con respecto al plan de paz de Djibouti , informó a los miembros del Consejo de las actividades del Presidente de Djibouti , Omar Guelleh , en los países de la región ; indicó también que la iniciativa había sido bien recibida por la sociedad somalí . | 2 َقذ أتهغ أعضاء انمجهس عه انخطُاخ انرً اذخزخ مه جاوة سئٍس جٍثُذً فً تهذان انمىطقح فٍما ٌرعهق تخطح جٍثُذً نهسالو . |
2 Con respecto al plan de paz de Djibouti , informó a los miembros del Consejo de las actividades del Presidente de Djibouti , Omar Guelleh , en los países de la región ; indicó también que la iniciativa había sido bien recibida por la sociedad somalí . | 3 َأَضح أٌضا أن انمثادسج اسرقثهد اسرقثاال طٍثا مه قثم انمجرمع انصُمانً . |
3 En cuanto a la situación política y militar , dijo que durante enero y febrero se habían comunicado incidentes de bandidismo , así como confrontaciones entre los clanes . | 4 أما فٍما ٌرعهق تانحانح انسٍاسٍح َانعسكشٌح، فقذ ركش أوً قذ ذشددخ أوثاء عه َقُع حُادز نقطع انطشق، تاإلضافح إنى مُاجٍاخ تٍه انعشائش خالل شٍشي كاوُن انثاوً ٌىاٌش َ شثاط فثشاٌش . |
Add Comment