• 16/05/2022
  • Kusarive
  • 0

Una vez se ha extraído una muestra para estudiar un fenómeno aleatorio, se dispone de una gran cantidad de datos. Se busca ahora resumirlos con un conjunto pequeño de parámetros que representen adecuadamente a la totalidad. En particular, se pretende localizar el centro de los datos, su variabilidad, valores extremos, forma en que se distribuyen, etc. Todo ello hace parte de las medidas aplicables al tratamiento de información, herramienta crucial para el desarrollo y uso adecuado de estas bases de datos.

Medidas de tendencia central

A lo largo de todo el tema habrá que suponer que se dispone de una muestra de tamaño n, es decir, un conjunto de datos {x1, x2,…, xn} que representan alguna característica (variable) estudiada, X, por ejemplo: X = {Tiempo, en minutos, que pasa un comprador visitando un web de compras} La muestra está ordenada y puede contener datos repetidos, x1 ≤ x2 ≤ ··· ≤ xn Las medidas de tendencia central son aquellas que buscan dónde se encuentra el centro de los datos. Es decir, en torno a qué valor se concentran los datos de la muestra.

Media

De todas las medidas que caracterizan un conjunto de datos, la más importante y más extensamente utilizada es la media aritmética o media muestral, o simplemente media. Si, en vez de la muestra completa, se dispone únicamente de la tabla de frecuencias resumen del histograma, entonces la media viene dada por la expresión.La media define el centro de gravedad de los datos.

Aunque, generalmente, esta medida sirve para hacerse una idea de la magnitud de los valores de la muestra, tiene un problema, y es que está afectada por los valores extremos. Es decir, si hay un valor muy separado (tanto a derecha como a izquierda) del resto de valores, puede hacer que la media se desplace en ese mismo sentido, desvirtuando la idea que se tiene de la media como “centro de los datos”.

Mediana

La mediana es el dato que divide el número de observaciones en dos partes iguales. Es decir, la mitad de las observaciones está por debajo de la mediana (son menor o igual que) y la otra mitad está por encima (son mayor o igual que). La mediana no utiliza los valores de los datos de muestra, sino únicamente cuántos hay, por tanto, no está afectada por los valores extremos. Sin embargo, esta propiedad no siempre es buena, pues puede dar una idea distorsionada del orden de magnitud de los datos.

Moda

La moda es el valor que más veces se repite en una muestra. Evidentemente esta medida tiene sentido cuando en la muestra hay muchas repeticiones, algo que no es habitual cuando se estudia una variable continua. Se puede tener una distribución unimodal (una única moda), bimodal (dos modas), etc. Igualmente, puede haber una moda absoluta y una moda relativa. Generalmente, estas características ponen de manifiesto la existencia de dos categorías distinguibles en los datos. Por ejemplo, halla un comportamiento diferente según la edad de los encuestados (cada moda representa una tendencia según la edad).

Medidas de dispersión

Las medidas de dispersión son aquellas que miden la dispersión de los datos de la muestra respecto a un valor central. Es decir, miden cuán alejados están los datos respecto a un valor central, generalmente la media.

Varianza

Dada una medida de tendencia central, la varianza es la media de las desviaciones de los datos a esa medida de tendencia central. Como medida de tendencia central, se usará la media. Cuanto más grande es la varianza, más posible es encontrar datos muy alejados de la media. Por la propia definición de la varianza, si, por ejemplo, se está trabajando con una variable “longitud de un lapicero fabricado por una empresa”, los datos de la muestra vienen cm, pero la varianza viene dada en cm 2.

Para poder trabajar en las mismas unidades que los propios valores de la muestra, se define la desviación típica.se puede comprobar cómo, a medida que aumenta la desviación típica, van apareciendo datos cada vez más alejados del centro de la distribución. Se ha mantenido el eje x fijo para que la escala no desvirtúe la apariencia de los histogramas.

Coeficiente de variación de Pearson

El valor de la varianza, y por tanto, el de la desviación típica, depende de las unidades en las que están medidos los datos. Si los datos de la muestra se dan en kilómetros, la varianza es mucho más pequeña que si esos mismos datos se dan en metros. El coeficiente de variación de Pearson es una medida adimensional del grado de dispersión de los datos. Se utiliza para comparar la varianza entre dos muestras.

Medidas de posición

Los cuantiles muestran cómo se concentran los datos. Es posible encontrar regiones de alta o baja concentración. Ya se ha visto que la mediana divide los datos en dos mitades. Los cuantiles se construyen usando la misma idea, pero haciendo más divisiones de los datos. De manera general, dada una muestra ordenada x1 ≤ x2 ≤ ··· ≤ xn, se define el p-cuantil como el valor que deja 100 p % de las observaciones por debajo de él. Matemáticamente se representa de la siguiente manera, donde [np] es la parte entera del producto np. En particular, se definen los siguientes cuantiles con nombre propio:

  • Cuartiles: Q1/4, Q1/2, Q3/4
    • Primer cuartil: Q1/4, es el valor, tal que 1/4 de los datos son menores o iguales que él. Es decir, el 25 % de los datos se encuentran en el intervalo [x1, Q1/4].
    • Segundo cuartil: Q1/2, es el valor, tal que 1/2 de los datos son menores o iguales que él (coincide con la mediana).
    • Tercer cuartil: Q3/4, es el valor, tal que 3/4 de los datos son menores o iguales que él. Deciles: D1/10, D2/10, …, D 9/10.
  • Percentiles: P1/100, P2/100,…, P99/100.

Momentos de una distribución

Los momentos de una distribución son unos valores que la caracterizan, de forma que:

  • Dos distribuciones son iguales si todos sus momentos son iguales.
  • Dos distribuciones son, tanto más parecidas, cuanto mayor es el número de momentos iguales que tienen.

Momentos de una distribución

Los momentos de una distribución son unos valores que la caracterizan, de forma que:

  • Dos distribuciones son iguales si todos sus momentos son iguales.
  • Dos distribuciones son, tanto más parecidas, cuanto mayor es el número de momentos iguales que tienen.

Medidas de forma

Medida de asimetría

A partir del histograma de una muestra, es posible hacerse una idea de si la distribución de los datos es simétrica (tiene la misma forma a la derecha y a la izquierda del centro). Si los datos se distribuyen de forma simétrica, entonces la media y la mediana coinciden. Además, estos parámetros se encuentran en el “centro” de la distribución.

Existen varios parámetros para medir el grado de asimetría de una distribución de datos, pero, en general, todos se basan en los momentos de orden impar. Si una distribución es asimétrica, una de las colas será más extensa que la otra. Es decir, en una de las colas de la distribución habrá datos más alejados del centro que en la otra cola. Esto implica que el momento de orden impar será positivo si la cola extendida es la de la derecha, negativa si la cola extendida es la de la izquierda o cero si la distribución es simétrica. Por este motivo se habla de asimetría positiva y asimetría negativa.

La importancia del correcto manejo de información

En el manejo y creación de bases de datos no solo hay que contar con habilidades en la creación y análisis de las mismas: Es necesario que el profesional cuente con las habilidades necesarias para la adaptación de cada una de estas herramientas a las necesidades de la empresa. Esto permite que, además de que cumpla con parámetros internos, lo haga con la legislación que cubre el uso de la información personal.

En TECH Universidad Tecnológica se realizan constantes estudios para conocer las necesidades del alumnado profesional. Esto permite que cada programa ofertado responda a las exigencias del mercado de manera adecuada. En el caso de la Facultad de Informática se hallan especializaciones tales como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. Por otra parte, para aquel profesional que busca complementar sus conocimientos en el campo de las bases de datos, no cabe duda que debería decidirse por un programa como el Máster en Visual Analytics & Big Data.