Las teorías de anticipación aplicadas al Visual Analytics y los modelos predictivos, aplican resultados conocidos, con el fin de entrenar al modelo, para predecir valores, con datos diferentes o completamente nuevos, en un proceso repetitivo. El modelado proporciona los resultados en forma de predicciones representadas mediante el grado de probabilidad del variable objetivo, basado en la significación estimada a partir de un conjunto de variables de entrada. La variable objetivo puede tratarse de las ventas, la cara de una persona, las coordenadas de un yacimiento petrolífero o cualquier otra cosa.
Realmente no existe limitación en los usos de la aplicación de análisis predictivo, pues esto dependerá de lo que se quiere obtener. Se aplican ampliamente en casi cualquier sector, no solo de negocio, ya sea para detectar oportunidades comerciales, detectar y reducir fraude, retención de clientes, predecir fallos en sistemas o analizar comportamientos, sino también en otros campos, en los que hay beneficios para todos, como detectar cáncer en pacientes, evolución de epidemias, ahorro de costes en organismos públicos, reconocimiento del habla, etc., la lista es interminable.
Anticipación en la analítica
Una de las grandes ventajas de aplicar tecnologías de Big Data en las organizaciones es que se pueden aplicar diversas técnicas a los datos para anticipar cómo van a evolucionar ciertas variables. A este conjunto de técnicas estadísticas y de aprendizaje automático se les suele denominar “modelos predictivos” y se encuadran dentro del campo del análisis predictivo. Los modelos de análisis predictivos, que se construyen usando técnicas matemáticas, de inteligencia artificial y machine learning, permiten inferir cómo se comportará en el futuro una variable (predecida) en función de una serie de variables predictoras, para así poder anticipar futuras situaciones.
Un ejemplo simple podría ser los digital twins o gemelos digitales, que es una réplica virtual de un objeto o sistema que simula el comportamiento de su homólogo real, con el fin de monitorizarlo para analizar su comportamiento en determinadas situaciones y mejorar su eficacia. Para poder ponerlos en práctica hay que representar digitalmente todos los componentes del activo físico en un proxy virtual, para representar la estructura y el estilo del gemelo físico.
Una vez estos componentes están representados, es necesario colocar sensores que transmitan información a la plataforma, donde el gemelo virtual esté almacenado, ya sea físicamente o en la nube. Se necesitan, además, modelos matemáticos y estadísticos para poder aprovechar al máximo todos los datos recopilados del gemelo físico.
Por último, una parte muy importante de esta nueva tecnología es el uso de datos en tiempo real para la toma de decisiones más informada, siendo necesaria la visualización de todos esos datos, ahí es donde otras dos tecnologías entran en escena: realidad aumentada y realidad virtual. Los gemelos digitales intervienen, al menos, en los siguientes puntos:
- Optimización de procesos.
- Análisis predictivo.
- Simulación de nuevos escenarios.
Teorías de anticipación y predicción, qué es y para qué sirve
El campo de tecnología aplicada al sector empresarial crece, con aceleración en rapidez y complejidad, pero si hay un gran tema de moda en el panorama de analytics es sin duda el análisis y la anticipación, así que se repasará qué es y cuáles son sus aplicaciones prácticas. Antes del BI (Inteligencia de Negocio), el análisis de datos era conocido como decision support (soporte a las decisiones).
Consistía en un análisis descriptivo de la situación, con base en datos históricos almacenados de forma estructurada, normalmente en sistemas monolíticos, aplicando técnicas OLAP (Online Analytical Processing). En esta primera etapa, tradicionalmente se puede dar respuesta manualmente a qué es lo que ha pasado. Condensando datos estructurados para ser entendidos por las personas mediante visualizaciones es posible referirse a cualquier evento pasado que se tenga registrado.
El siguiente paso en el camino para llegar a ser verdaderamente una compañía data driven pasa por el análisis predictivo y cognitivo. Es la diferencia entre tener una actitud reactiva, en la que muchas veces es tarde para actuar, y pasar a una forma proactiva de trabajar, anticipando a eventos, tendencias y el mercado.
Análisis predictivo
El análisis predictivo es un término paraguas para referirse al conjunto de procesos que implican aplicar diferentes técnicas computacionales, con el objetivo de realizar predicciones sobre el futuro, basándose en datos pasados y poder anticipar, así, eventos. La variedad de técnicas empleadas incluyen, entre otras:
- Minería de datos (data mining).
- Modelado.
- Reconocimiento de patrones.
- Graph analytics.
Tipos de análisis predictivo
Los modelos predictivos son distintos de los descriptivos, los cuales ayudan a comprender qué ha sucedido, o de los modelos de diagnóstico, que ayudan a la hora de entender las relaciones entre entidades, con el fin de averiguar por qué algo ha sucedido. Hay dos tipos de modelos predictivos:
- De clasificación.
- De regresión.
Los modelos de clasificación permiten predecir la pertenencia a una clase. Por ejemplo, si se intenta clasificar entre los clientes quiénes son más propensos a abandonar. Para ello se establecen variables de entrada, como el riesgo de crédito, respuestas a comunicaciones, etc. Los resultados del modelo son binarios, o un sí o un no (en forma de 0 y 1) con su grado de probabilidad. Los modelos de regresión en cambio permiten predecir un valor. Por ejemplo, cuál es el beneficio de un determinado cliente (o segmento) en los próximos meses.
Por orden descendente de uso, las técnicas de modelado de análisis predictivo más aplicadas son:
Árboles de decisión
Son modelos de clasificación que dividen los datos en subconjuntos basados en categorías de variables de entrada. Esto es de gran ayuda a la hora de determinar las decisiones a lo largo del camino (funnel de compra, por ejemplo). Los árboles de decisión tienen la forma de un árbol en el que cada rama representa una elección entre el número de alternativas, y cada hoja representa una clasificación o decisión.
Este es un modelo que, al buscar en los datos, trata de encontrar la variable que permita dividir el dataset en grupos lógicos que son más diferentes entre sí. Se usan bastante porque son fáciles de entender e interpretar. Permite controlar bien los valores que faltan y son útiles para la selección preliminar de variables.
Regresión lineal y logística
Es uno de los métodos más empleados en estadística. Los análisis de regresión estiman las relaciones entre variables. Esta técnica es apropiada cuando se puede asumir que los datos continuos siguen una distribución normal. Encuentra patrones clave en grandes conjuntos de datos, y se utiliza a menudo para determinar cuánto influyen en el movimiento de un activo factores específicos, como por ejemplo, el precio de un producto. En un análisis de regresión, lo que se quiere es predecir un valor (representada en la variable dependiente Y).
En una regresión lineal se emplea una variable independiente para explicar o predecir el resultado (Y), mientras que en una regresión múltiple se usan dos o más variables independientes. Las regresiones logísticas son utilizadas para predecir el resultado de una variable categórica (una variable que puede adoptar un número limitado de categorías), en función de las variables independientes o predictoras. Es útil para modelar la probabilidad de un evento, ocurriendo como función de otros factores. La variable de respuesta es categórica, lo que significa que puede asumir solo un número limitado de valores.
Redes neuronales
Esta es la técnica más de moda, con el reciente auge de la Inteligencia Artificial y Deep Learning. Las redes neuronales consisten en técnicas sofisticadas, capaces de modelar relaciones extremadamente complejas. Se han hecho populares porque son muy potentes pero flexibles al mismo tiempo. Tienen la capacidad de manejar relaciones no lineales de los datos, lo que lo hace muy interesante cuantos más datos se manejen, ideal para el análisis de big data. Otras veces, se usan simplemente para confirmar descubrimientos de otras técnicas más sencillas, como las regresiones o los árboles de decisión.
La analítica de datos en la actualidad
En el día a día encontramos a menudo nuevas tecnologías y novedosas aplicaciones de las mismas a las necesidades que atraviesa el ser humano. Esto ha permitido un constante proceso de expansión y evolución para las nuevas industrias, que apoyan y soportan el desarrollo continuo. Por esta razón es importante que aquellas figuras profesionales encargadas de estas áreas tengan el pleno conocimiento de cada movimiento a realizar.
TECH Universidad Tecnológica actualmente se posiciona como la mayor universidad virtual del mundo. Esto se debe a su amplio portafolio educativo, caracterizado por la excelencia y la alta calidad que tiene cada uno de sus programas. Dentro de su Facultad de Informática, por ejemplo, se pueden hallar programas como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. Sin embargo, para aquellos profesionales que buscan complementar sus conocimientos en el ámbito de la analítica de datos, no cabe duda que su mejor elección será el Máster en Visual Analytics & Big Data.