• 05/08/2022
  • Kusarive
  • 0

El método de simulaciones de Montecarlo es un método no determinista o estadístico numérico usado para aproximar expresiones matemáticas complejas y costosas de evaluar con exactitud. El método se llamó así en referencia al Casino de Montecarlo (Mónaco), al ser la ruleta un generador simple de números aleatorios. El nombre y el desarrollo sistemático de los métodos de Montecarlo datan aproximadamente de 1944 y se mejoraron enormemente con el desarrollo de la computadora, donde realmente el método logra su verdadero potencial.

El uso de los métodos de Montecarlo como herramienta de investigación proviene del trabajo realizado en el desarrollo de la bomba atómica durante la segunda guerra mundial en el laboratorio nacional de Los Álamos en EE. UU. Este trabajo conllevaba la simulación de problemas probabilísticos de hidrodinámica concernientes a la difusión de neutrones en el material de fisión. Esta difusión posee un comportamiento eminentemente aleatorio. En la primera etapa de estas investigaciones, John von Neumann y Stanislaw Ulam refinaron esta ruleta y los métodos ‘de división’ de tareas.

Sin embargo, el desarrollo sistemático de estas ideas tuvo que esperar al trabajo de Harris y Herman Kahn en 1948. Aproximadamente en el mismo año, Enrico Fermi, Nicholas Metropolis y Ulam obtuvieron estimadores para los valores característicos de la ecuación de Schrödinger para la captura de neutrones a nivel nuclear usando este método. El método de Montecarlo proporciona soluciones aproximadas a una gran variedad de problemas matemáticos, posibilitando la realización de experimentos con muestreos de números pseudoaleatorios en una computadora. El método es aplicable a cualquier tipo de problema, ya sea estocástico o determinista.

Ley débil de los grandes números

Para entender la esencia del método Montecarlo, es imprescindible entender la ley de los grandes números, un teorema fundamental de la teoría de la probabilidad que indica que si se repiten muchas veces (tendiendo al infinito) un mismo experimento, la frecuencia de que suceda un cierto evento tiende a ser una constante. Es decir, la frecuencia con la que se repetirá un determinado suceso se acercará a una constante.

Esta será a su vez la probabilidad de que ocurra este evento. En análisis de big data, esto es muy interesante, dado que cuantos más datos se recojan, mayor es la probabilidad de que las decisiones del sistema tengan una probabilidad mejor conocida, dentro del margen de error determinado. La ley de los grandes números fue mencionado por primera vez por el matemático Gerolamo Cardamo, aunque sin contar con ninguna prueba rigurosa. Posteriormente, Jacob Bernoulli logró hacer una demostración completa en su obra ‘Ars Conjectandi’ en 1713.

En los años 1830, el matemático Siméon Denis Poisson describió con detalle la ley de los grandes números, lo que vino a perfeccionar la teoría. Otros autores también harían aportaciones posteriores. Es muy importante comprender que los sucesos son independientes, y que no existe ley de compensación, aunque sí se puede conocer la probabilidad y el margen de error, pero eso no significa que se acierte más.

Lo cual será más útil cuando a problemas complejos que se aplique el método Montecarlo, se añadan mecanismos de inteligencia artificial colectiva que, incrementando las fuentes de conocimiento y un gran volumen de respuestas, el sistema pueda predecir mejor la probabilidad de una decisión determinada. Es muy relevante considerar que saber que la probabilidad de acierto no suele ser muy util en las decisiones de vida o de negocio.

Generación de distribuciones de probabilidad

Como ya se ha señalado, los métodos de Montecarlo abarcan una colección de técnicas que permiten obtener soluciones de problemas matemáticos o físicos por medio de pruebas aleatorias repetidas. En la práctica, las pruebas aleatorias se sustituyen por resultados de ciertos cálculos realizados con números aleatorios. Se estudiará el concepto de variable aleatoria y la transformación de una variable aleatoria discreta o continua. Se denomina variable aleatoria, a una variable X que puede tomar un conjunto de valores {x0, x1, x2, … xn-1}, con probabilidades {p0, p1, p2, … pn-1}.

En el método de Montecarlo, el problema radica en determinar los valores de una variable aleatoria (discreta o continua) con una distribución de probabilidad dada por la función p(x) a partir de los valores de una variable aleatoria uniformemente distribuida en el intervalo [0, 1), proporcionada por un generador de números aleatorios (algo que los ordenadores hacen muy bien). Existen múltiples y muy diversas fórmulas para obtener una secuencia de números aleatorios, una de las más sencillas es la denominada fórmula de congruencia: se trata de una fórmula iterativa, en la que el resultado de una iteración se utiliza en la siguiente. x=(a*x+c)%m Donde a, c y m son constantes cuyos valores elige el creador de la fórmula.

El valor inicial también se puede elegir de múltiples maneras. La generación de un elevado número de ensayos tiene como objeto la estabilización de la media matemática y de la varianza. La validez de las conclusiones obtenidas con procedimientos descriptivos se limita al conjunto de individuos de los que se ha obtenido los datos, pero no incluye a los individuos que no han formado parte de la investigación, y generalmente se busca generalizar los resultados y conclusiones obtenidos con unos (pocos) individuos a la población.

Fundamentos de la inteligencia artificial

Este es uno de los fundamentos de la inteligencia artificial colectiva, pues la mayor parte de los objetivos de un problema (incremento de clientes) están fuera de la base de clientes y por consiguiente, cuantas más fuentes se tenga para la población objetivo del problema, mayor capacidad de inferencia. Inferir es deducir a partir de la evidencia. La inferencia informal es imprecisa, y el objeto de los modelos predictivos como Montecarlo es aportar mayor precisión a la obtención de conocimiento. Con el fin de encontrar la distribución de probabilidades que mejor se ajusta a la muestra, se pueden utilizar pruebas no paramétricas de contraste de hipótesis, que son una alternativa a las pruebas paramétricas cuando los datos no cumplen los supuestos requeridos para la inferencia paramétrica, lo que generalmente ocurre cuando:

  • Los datos no siguen la distribución normal.
  • El nivel de medida es ordinal.

Dentro de estos mecanismos de ajustes está la prueba de Kolmogorov. Esta es una prueba de bondad de ajuste, es decir, del grado en que la distribución observada difiere de otra distribución. Es una alternativa a la prueba Ji Cuadrado de bondad de ajuste, en cuanto el número de datos es pequeño. La prueba no debe ser aplicada si hay muchos empates.

  • Supuestos: los datos están medidos al menos a nivel ordinal.
  • Hipótesis nula: no hay diferencias entre las distribuciones comparadas.
  • Estadístico de contraste: D (mayor diferencia entre las frecuencias relativas de las distribuciones).
  • Distribución del estadístico de contraste: específico, dependiendo de la distribución con que se compare la distribución observada.

El análisis datos en la empresa

Dentro de las grandes corporaciones, tener un control de la información se ha convertido en una necesidad constante. Es por ello que hoy en día el análisis de datos y la automatización de procesos juegan un papel crucial en el éxito empresarial. Esto permite que cada una de las decisiones tomadas por las directivas sea fundamentada con datos, anticipando así las posibles situaciones que se pueden presentar.

TECH Universidad Tecnológica ha diseñado un portafolio de programas educativos enfocado en el éxito profesional. Es por esta razón que cada uno de los posgrados ofertados responde a necesidades puntuales dentro de la demanda por parte de las grandes industrias. Caso ejemplo de ello es su Facultad de Informática, donde se desarrollan posgrados tales como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. Por otra parte, para aquellos profesionales que buscan complementar su educación base en el campo del análisis de datos, no cabe duda que su mejor decisión será tomar el Máster en Visual Analytics & Big Data.