La foto muestra la conferencia académica anual sobre recursos lingüísticos e inteligencia artificial, organizada por el Instituto Nacional de Idioma Coreano, el 4 de diciembre de 2024, en la Cámara de Comercio e Industria de Corea, en Seúl.
Por Margareth Theresia
Fotografías: Instituto Nacional de Idioma Coreano
La inteligencia artificial (IA) y el desarrollo de corpus lingüísticos han cobrado una relevancia crucial en la industria lingüística de Corea. En este contexto, el Instituto Nacional de Idioma Coreano está liderando iniciativas para fortalecer el procesamiento del lenguaje natural en coreano mediante la recopilación y análisis de grandes volúmenes de datos escritos y orales.
La creación de corpus es esencial para la enseñanza de idiomas, la traducción y el desarrollo de tecnologías basadas en IA. Este conjunto de datos no solo recopila el lenguaje en su forma escrita y hablada, sino que también ayuda a mejorar la comprensión de las estructuras lingüísticas del coreano. Entre las fuentes utilizadas para su recopilación están libros, artículos de prensa, guiones de videos de YouTube, blogs y conversaciones de mensajería instantánea.
El Instituto Nacional de Idioma Coreano ha desarrollado tres tipos de corpus lingüísticos: el corpus bruto, que digitaliza documentos originales sin modificaciones; el corpus anotado, que incorpora análisis lingüísticos de frases y unidades léxicas; y el corpus paralelo, que alinea y compara el coreano con otros idiomas para facilitar la traducción automática y la interpretación.
A la izquierda, las 'Directrices de traducción para construir un corpus paralelo coreano-extranjero', publicadas en 2023. A la derecha, el póster de la conferencia internacional sobre el tema, celebrada el 4 de diciembre.
"Nuestro objetivo no es solo fomentar la integración de la IA en la lingüística, sino también proporcionar una base sólida para el crecimiento de la industria lingüística coreana", señaló Park Miyoung, investigadora del instituto.
Desde 2021, el Ministerio de Cultura, Deportes y Turismo ha implementado un plan para fortalecer la industria lingüística coreana mediante el uso de big data. En este marco, se ha priorizado la creación de corpus bilingües en ocho idiomas clave: vietnamita, indonesio, tailandés, hindi, jemer, tagalo, ruso y uzbeko.
La selección de estos idiomas responde a la creciente demanda de traducción y enseñanza del coreano entre sus hablantes, además de la necesidad de mejorar la accesibilidad en servicios administrativos y públicos. "A pesar del aumento de hablantes de estas lenguas en Corea, la traducción sigue siendo insuficiente en muchos ámbitos", explicó Park.
Se muestran los corpus bilingües disponibles desde 2021 en la web de Modu Corpus.