El procesamiento del reconocimiento del lenguaje natural (PLN) es el campo de conocimiento de la inteligencia artificial que se ocupa de investigar la manera de comunicar las máquinas con las personas mediante el uso de lenguas naturales como el español, el inglés o el chino. Las lenguas humanas pueden expresarse por escrito (texto), oralmente (voz) y también mediante signos.
Naturalmente, el PLN está más avanzado en el tratamiento de textos, donde hay muchos más datos y son más fáciles de conseguir en formato electrónico. Los audios, aunque estén en formato digital, hay que procesarlos para transcribirlos en letras o caracteres y, a partir de ahí, entender la pregunta. El proceso de respuesta es el inverso: primero se elabora la oración y, luego, se “sintetiza la voz”.
Modelos para procesamiento del lenguaje natural
Tratar computacionalmente una lengua implica un proceso de modelización matemática. Los ordenadores solo entienden de bytes y dígitos; y los informáticos codifican los programas empleando lenguajes de programación como C, Python o Java. Los lingüistas computacionales se encargan de la tarea de “preparar” el modelo lingüístico para que los ingenieros informáticos lo implementen en un código eficiente y funcional. Básicamente, existen dos aproximaciones generales al problema de la modelización lingüística.
Componentes del procesamiento del lenguaje natural
A continuación, se exponen algunos de los componentes del procesamiento del lenguaje natural. No todos los análisis que se describen se aplican en cualquier tarea de PLN, sino que depende del objetivo de la aplicación.
- Análisis morfológico o léxico: consiste en el análisis interno de las palabras que forman oraciones para extraer lemas, rasgos flexivos, unidades léxica compuestas. Es esencial para la información básica:
- Categoría sintáctica
- Significado léxico
- Análisis sintáctico: consiste en el análisis de la estructura de las oraciones de acuerdo con el modelo gramatical empleado (lógico o estadístico).
- El análisis semántico: proporciona la interpretación de las oraciones, una vez eliminadas las ambigüedades morfosintácticas.
- Análisis pragmático: incorpora el análisis del contexto de uso a la interpretación final. Aquí se incluye el tratamiento del lenguaje figurado (metáfora e ironía) como el conocimiento del mundo específico necesario para entender un texto especializado.
Un análisis morfológico, sintáctico, semántico o pragmático se aplicará dependiendo del objetivo de la aplicación. Por ejemplo, un conversor de texto a voz no necesita el análisis semántico o pragmático, pero un sistema conversacional requiere información muy detallada del contexto y del dominio temático.
El PNL encuentra aplicaciones en varios campos
Las empresas utilizan una técnica llamada ‘análisis de texto’ para clasificar correos electrónicos y textos esenciales, comprender el sentimiento general del cliente sin leer manualmente las reseñas y los comentarios. Por lo que, el PNL ayuda a las empresas a ahorrar miles de horas de recursos humanos, dinero y ayuda a automatizar varios procesos mundanos.
- Técnicas de incrustación de palabras La incrustación de word y sus implementaciones serán lo más destacado de este artículo. La incrustación de palabras ayuda a capturar el contexto semántico, sintáctico o una palabra/ término y ayuda a comprender qué tan similar/ diferente es a otros términos en un artículo, blog, etc. La incrustación de palabras implementa técnicas de modelado de lenguaje y extracción de características para asignar una palabra a vectores de números reales. Algunos de los métodos de inserción de palabras más populares son:
- Codificación binaria
- Codificación TF
- La codificación TF-IDF
- Codificación de análisis semántico latente
- Incrustación de Word2Vec
TF-IDF, abreviatura de frecuencia de documento inversa de frecuencia, puede dividir una palabra en dos partes:
TF en lenguaje natural
TF es la abreviatura de término frecuencia, definida como el número total de veces que un término aparece en un documento. El TF se calcula utilizando el número de veces que ocurre el término en un documento dividido por el número total de términos. El método es bastante intuitivo. Cuanto más aparece un término en un documento, más importancia tiene este término en relación con el documento.
Sin embargo, este no es siempre el caso, dependiendo del contenido de los documentos. A partir del término frecuencia que se calcula, probablemente se vea que términos como a, de o él tienen el valor más grande. Estas palabras no ayudarán mucho a al análisis, ya que la palabra el es tan común que todos los artículos la tienen. Es muy probable que al tener estas palabras de propósito gramatical, al final, se afecte el resultado del análisis. Un enfoque para manejar este problema es, simplemente, eliminarlas.
Dado que el TF tiende a enfatizar el término incorrecto a veces, se introduce la IDF para equilibrar el peso del término. IDF es la abreviatura de frecuencia inversa del documento, definida como la frecuencia con la que aparece un término en todo el documento. Se utiliza para equilibrar el peso de los términos que aparecen en todo el conjunto de documentos.
En otras palabras, la IDF reduce el peso de los términos que ocurren con frecuencia y aumenta el peso de los términos que ocurren con poca frecuencia. La IDF se calcula utilizando el número de documentos que contienen el término dividido por el número total de documentos antes de tomar el logaritmo. Si el término aparece a menudo en todo el conjunto de documentos, el resultado IDF será cercano a 0. De lo contrario, aumentará hacia el infinito positivo.
Técnicas avanzadas del PLN: word2vec, doc2vec
La representación numérica de documentos de texto es una tarea desafiante en el aprendizaje automático. Esta representación se puede utilizar para muchos propósitos, por ejemplo:
- Recuperación de documentos
- Búsqueda web
- Filtrado de spam
- Modelado de temas
Word2vec
Word2vec (palabra a vector), como su nombre indica, es una herramienta que convierte palabras en forma vectorial. En todos los aspectos técnicos, word2vec es una red neuronal superficial de dos capas que se utiliza para producir el modelo relativo de incrustación de palabras. Funciona mediante la recopilación de una gran cantidad de conjuntos de datos basados en vocabulario como entrada y salida de un espacio vectorial, de modo que cada palabra en el diccionario se asigna a sí misma a un vector único.
Esto permite representar la relación entre palabras. En términos generales, hay dos modelos CBOW (continuous bag of words) y skip-gram. Ambas arquitecturas de redes neuronales esencialmente ayudan a la red a aprender a representar una palabra. Se trata de aprendizaje automático sin supervisión y se necesitan etiquetas para entrenar el modelo. Cualquiera de estos dos modelos puede crear las etiquetas para la entrada dada y preparar la red neuronal para entrenar el modelo y realizar la tarea deseada.
CBOW
CBOW (bolsa de palabras continua) es un modelo adecuado para trabajar con bases de datos más pequeñas y tampoco necesita mucha RAM. En CBOW, se predice una palabra dado su contexto. Todo el vocabulario se utiliza para crear un modelo de bolsa de palabras antes de pasar a la siguiente tarea. El modelo de la bolsa de palabras es una representación simple de palabras que ignora la gramática.
Skip-gram
Como ejemplo, se puede decir que se tienen 10 000 palabras únicas y se representa una palabra de entrada, por ejemplo, mono, como un vector de un solo factor (una palabra/variable categórica puede entenderse mejor mediante un algoritmo ML cuando es uno codificado en caliente a 0 y 1). Este vector tendrá 10 000 componentes. Cada componente contiene un vocabulario y se coloca 1 en una posición, que representa la palabra mono y se coloca 0 en el resto de las posiciones.
La salida de la red también es un vector único con 10 000 componentes. La probabilidad de que una palabra cercana seleccionada al azar sea esa palabra de vocabulario. No se necesita considerar las neuronas de la capa oculta, ya que ninguna de ellas está activa. Sin embargo, las neuronas de salida usan softmax. Cuando se evalúa la red entrenada en una palabra de entrada, la salida es una distribución de probabilidad en lugar de un vector de un solo factor.
La nueva era tecnológica
El mundo atraviesa una etapa de cambio actualmente; esto se debe al constante avance tecnológico y a la rápida dispersión de la información gracias a internet. Esto permite que el desarrollo sea mucho más acelerado, pero a su vez que ciertos cargos asociados a la tecnología se conviertan en áreas mucho más exigentes. Para ello, el profesional de este campo debe contar con ciertos conocimientos puntuales, mismos que va adquiriendo con la capacitación constante.
En TECH Universidad Tecnológica se desarrollan a diario algunos de los mejores y más demandados programas del mercado actual. En su Facultad de Informática se pueden hallar programas como el Máster en Ingeniería de Software y Sistemas de Información y el Máster en Tecnología Específica de Telecomunicación. Sin embargo, para aquellos profesionales que buscan dominar el campo de la nueva revolución tecnológica, no cabe duda que deberían inclinarse por tomar el Máster en Industria 4.0 y Transformación Digital.