En un arte como la ciencia de datos, las estadísticas pueden ser una herramienta poderosa. En un sentido amplio, estadística significa el uso de las matemáticas para el análisis técnico de datos. Una visualización básica, como un gráfico de barras, puede ser muy informativa, pero con la ayuda de las estadísticas, obtenemos datos mucho más precisos. Y los cálculos matemáticos no dan una estimación aproximada, sino conclusiones específicas sobre los datos.

Las estadísticas nos permiten obtener información más profunda y detallada sobre cómo se organizan nuestros datos. Según este marco, podemos utilizar de manera óptima otros métodos de ciencia de datos para obtener aún más información. En este artículo, veremos 5 conceptos básicos que todo científico de datos debe conocer y hablaremos sobre cómo usarlos lo mejor que pueda.

Estadísticas Descriptivas

La estadística descriptiva es el concepto estadístico más utilizado en la ciencia de datos. Al examinar datos, se utiliza principalmente en primer lugar, incluidos los siguientes parámetros: sesgo, varianza, media, mediana, percentiles y otros. ¡Todo lo anterior es fácil de entender e implementar en el código! Mire la tabla a continuación para ver una ilustración.

Diagrama básico:

La línea en el medio es el  valor medio de los  datos. Es más correcto usarlo, en lugar del promedio, debido a su resistencia a los valores atípicos. El primer cuartil  es igual a los percentiles 25%, es decir, el 25% de los puntos muestrales están por debajo de este valor. El tercer cuartil  es igual a los percentiles 75%, es decir, el 75% de los puntos muestrales están por debajo de este valor. Los valores mínimo y máximo son los límites superior e inferior de nuestro rango de datos.

El gráfico de caja y patillas es una ilustración perfecta de la información que proviene de las estadísticas descriptivas:

  • Si el cuadro de bigotes  es corto , entonces la mayoría de los puntos de datos son similares ya que tenemos muchos valores en un rango pequeño
  • Si el cuadro de bigotes  es largo , la mayoría de los puntos de muestra son diferentes porque los valores se distribuyen en un amplio rango
  • Si el valor de la mediana está  más cerca  del cuartil inferior , la mayoría de los datos tienen un valor bajo. Si el valor de la mediana está  más cerca del cuartil superior , la mayoría de los datos tienen un valor alto. En otras palabras, si la línea mediana no está en el centro del cuadro, esto es una indicación de que los datos están  sesgados .
  • ¿Qué pasa si el bigote  es muy largo ? Esto significa que los datos tienen un alto  grado de dispersión en la desviación estándar  y  la varianza . Es decir, los significados son muy comunes y tienen claras diferencias. Si los bigotes son largos en un solo lado, entonces los datos pueden ser muy diferentes en una sola dirección.

¡Obtuvimos toda esta información de algunas estadísticas descriptivas fáciles de calcular! Úselos siempre que necesite obtener una conclusión rápida pero informativa sobre los datos.

Distribución de Probabilidad

La probabilidad expresa qué tan probable es un evento en particular. En ciencia de datos, la probabilidad se mide en una escala de 0 a 1. 0 significa que cierto evento  no sucederá y 1  significa que sucederá . La distribución de probabilidad es una función que muestra la probabilidad de todos los valores posibles en un experimento. Mire la tabla a continuación para ver una ilustración.

Distribuciones de probabilidad comunes. Continuo, Normal, Poisson:

  • La distribución uniforme continua  es la más básica de las tres distribuciones que estamos considerando. Tiene un solo valor que está en un cierto rango, y todo lo demás que está fuera de este rango es 0. Bastante “incluye/no incluye” la distribución. También es posible pensar en una distribución dada como un puntero a una variable categórica con dos categorías: 0 o valor. Una variable categórica puede tener múltiples valores distintos de 0, pero aún podemos representarla como una función por partes con múltiples distribuciones uniformes.
  • Una distribución normal  o  gaussiana  se define por su media aritmética y desviación estándar. La media aritmética desplaza la distribución espacialmente y la desviación estándar controla la distribución. La principal diferencia entre la distribución normal y otras (por ejemplo, Poisson) es que tiene la misma desviación estándar en todas las direcciones. Por lo tanto, con la ayuda de una distribución gaussiana, se puede conocer la media de un conjunto de datos, así como la dispersión de los datos. En otras palabras, podemos averiguar si los datos se distribuyen en un amplio rango o se concentran en unos pocos valores.
  • La distribución de Poisson es  similar a la distribución normal, pero tiene un factor más: la  asimetría . Una distribución de Poisson con un valor de asimetría bajo tendrá una distribución relativamente uniforme en todas las direcciones, como una distribución normal. Pero si el valor de la asimetría es de gran magnitud, entonces la distribución de los datos será diferente en todas las direcciones: en una dirección la distribución estará muy dispersa y en la otra estará muy concentrada.

Hay muchas más distribuciones, pero estas tres serán suficientes. Podemos ver y comprender rápidamente las variables categóricas gracias a la distribución uniforme continua. Y si tenemos una distribución gaussiana frente a nosotros, entonces sabemos que hay muchos algoritmos que funcionarán bien con ella por defecto. Sabemos que la distribución de Poisson requiere un manejo especial y un algoritmo que sea robusto a los cambios en la distribución espacial.

Reducción de Dimensionalidad

El término “ reducción de dimensionalidad ” es intuitivo. Tenemos algún tipo de conjunto de datos en el que queremos reducir el número de dimensiones. En ciencia de datos, este es el número de variables de características. Mire la tabla a continuación para ver una ilustración.

Dimensionalmente reducido:

El cubo es nuestro conjunto de datos y tiene tres dimensiones con 1000 puntos. Con los sistemas informáticos modernos, procesar 1000 puntos no es difícil, pero con una gran cantidad tendremos problemas. Aunque, si miramos nuestro conjunto de datos desde el  lado bidimensional  , por ejemplo, desde un lado del cubo, veremos que no es difícil distribuir los colores. Con la reducción de dimensionalidad,  proyectamos  datos 3D en un plano 2D. Este método reducirá efectivamente el número de puntos calculados a 100. ¡Qué ahorro!

Otra forma de reducir la dimensión es  reducir por característica . La reducción de características significa la eliminación de aquellas características que no son significativas para el análisis. Por ejemplo, después de examinar un conjunto de datos, se encuentra que 7 características de 10 dan como resultado una correlación alta y las otras 3, muy baja. Entonces, es probable que estas 3 características no sean importantes para el cálculo y se puedan eliminar del análisis sin afectar el resultado.

La técnica estadística más común para la reducción de la dimensionalidad es PCA (Análisis de componentes principales), que crea representaciones vectoriales de características que muestran cuán importantes son para el resultado, es decir, por su correlación. PCA se puede utilizar para los dos métodos de reducción de dimensionalidad anteriores. Lea más sobre PCA  aquí .

Submuestreo y Sobremuestreo

El submuestreo y el sobremuestreo son técnicas utilizadas para problemas de clasificación. Hay momentos en que un conjunto de datos de clasificación puede estar demasiado sesgado hacia un lado. Por ejemplo, tenemos 2000 ejemplos para la clase 1 y solo 200 para la clase 2. ¡Esto puede causar problemas con muchos de los métodos de aprendizaje automático que intentamos usar para el modelado y la predicción de datos! Y luego el submuestreo y el sobremuestreo vienen al rescate. Mire la tabla a continuación para ver una ilustración.

En las imágenes de la derecha y la izquierda, la clase azul tiene muchos más ejemplos que la naranja. Y por eso usamos dos parámetros de preprocesamiento que ayudarán en la preparación de modelos de aprendizaje automático.

El submuestreo significa que solo  algunos de los datos en la clase mayoritaria deben seleccionarse usando exactamente tantos ejemplos como hay en la clase minoritaria. Tal selección debe hacerse para preservar la distribución de probabilidad de la clase. ¡Todo es sencillo! ¡Aplanamos el conjunto de datos seleccionando menos ejemplos!

El sobremuestreo significa que debe  crear copias de  la clase minoritaria para obtener la misma cantidad de ejemplos que la clase mayoritaria. Se crearán copias manteniendo la distribución de la clase minoritaria. ¡Y aquí hemos aplanado el conjunto de datos sin agregar nuevos datos!

Estadísticas Bayesianas

Para comprender por qué se necesitan las estadísticas bayesianas, primero se debe comprender dónde no funcionan  las estadísticas de frecuencia . La estadística de frecuencia es un tipo de estadística con la que a menudo se asocia la palabra "probabilidad". Consiste en utilizar las matemáticas para analizar la probabilidad de un evento, donde solo  se calculan datos preliminares .

Por ejemplo: Digamos que te doy un dado y te pregunto cuál es la probabilidad de que salga el número 6. Muchos dirán que la probabilidad es de 1 en 6. Y, de hecho, si estuviéramos haciendo un análisis de frecuencia, buscaríamos en los datos que mostraban que alguien lanzó un dado 10,000 veces y calculó la frecuencia de cada número lanzado. ¡Entonces obtenemos la probabilidad de 1 a 6!

¿Qué pasaría si te dijeran que  el peso de un dado  es  tal que siempre sale el número 6? Dado que el análisis de frecuencia solo tiene en cuenta  datos preliminares,  no incluye  el  hecho de que el hueso se puede pesar. 

La estadística bayesiana  considera este hecho . Ilustremos este ejemplo basándonos en el teorema bayesiano:

La probabilidad  P(H)  en la ecuación es un análisis de frecuencia que tiene en cuenta los  datos previos de la  probabilidad de nuestro evento. P(E|H)  es una  posibilidad , i.e. la probabilidad de que un hecho sea correcto, dada la información del análisis de frecuencia. Por ejemplo, si quisiera lanzar un dado 10,000 veces y las primeras 100 veces que saliera fuera un 6, entonces estaría seguro de que el dado estaba pesado.  P(E)  es la probabilidad de que el hecho sea cierto. Si te dijera que el hueso tiene peso, ¿me creerías o pensarías que te estoy engañando?

Si el análisis de frecuencia muestra el resultado correcto, entonces tiene alguna base para confirmar nuestra suposición. Al mismo tiempo, tenemos en cuenta el hecho de que el hueso se puede ponderar, tanto en análisis preliminares como de frecuencia. Como puede ver en el ejemplo, la estadística bayesiana tiene en cuenta absolutamente todo. Úselo cuando no parezca haber suficientes datos preliminares.

George Seif :  Los  5 conceptos básicos de estadística que los científicos de datos deben conocer

Compartir:
Categorías: Tutoriales

0 comentarios

Deja una respuesta

Marcador de posición del avatar

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.