En nuestros días escolares, estudiábamos historia porque hablaba sobre el origen de la evolución, la civilización antigua, la agricultura, la urbanización, etc. Los datos funcionan según el principio del comportamiento humano: aprendemos unos de otros y nos comportamos de cierta manera, lo que ayuda a formar patrones y predecir resultados.

A muchas personas les resulta difícil entender la ciencia de datos debido a la gran cantidad de términos técnicos. Por ello, vamos a explicar sus principales conceptos de forma que todo el mundo pueda entenderlos.

Cubriremos los siguientes temas.

  • Datos
  • Análisis exploratorio de datos
  • Análisis de grupo
  • Agrupación
  • Regresión o Clasificación

Datos

Para conocer a su audiencia, debe comenzar con preguntas. La mayoría de las respuestas se refieren a las formas numéricas de los datos.

Los datos están en todas partes. El número de personas en el gimnasio es una forma de datos cuantitativos. Y categorías como atletismo, fútbol, ​​baloncesto, bádminton, etc. se denominan datos cualitativos.

LA EXPLICACIÓN DEBE BASARSE EN EJEMPLOS RELEVANTES PARA LA VIDA O EL TRABAJO DE LAS PERSONAS.

Análisis exploratorio de datos

Ahora tenemos una idea de lo que son los datos. En esta sección, entenderemos su comportamiento, patrones, relaciones y asociaciones.

Entonces, el último ejemplo mostró cuántos participantes hay en la sala, cuántos de ellos pertenecen a un determinado grupo, así como la edad promedio de los participantes, sus calificaciones y mucho más.

Sin embargo, si alguien en el grupo no se ajusta al patrón, segmento o comportamiento, se considerará redundante. En otras palabras, si una persona con educación química está en la habitación, entonces será percibido como un extraño.

Para establecer cualquier conexión o asociación entre dos puntos de datos, uno no puede simplemente decir que hay uno. Tenemos que proporcionar pruebas. En ciencia de datos, esto debe hacerse con una fórmula estadística con una definición de hipótesis.

Análisis de grupo

Imagina que eres un gerente y necesitas elegir dónde realizar un evento. Has investigado y seleccionado tres restaurantes: A, B y C. Ahora debes elegir uno de ellos y al mismo tiempo justificar tu decisión.

Si los datos son paramétricos (correspondientes a una distribución normal), debe formular una hipótesis y realizar una prueba estadística, como la prueba t de Student (para dos grupos) o ANOVA (más de dos grupos).

Sin embargo, si los datos no son paramétricos, se deben realizar pruebas como la prueba U de Mann-Whitney, la prueba t de Wilcoxon o la prueba de Kruskal-Wallis. Pero, ¿qué son exactamente los datos paramétricos?

Distribución normal 
distribución anormal 

Los dos gráficos anteriores lo ayudan a comprender mejor el proceso de distribución de datos. Si el atributo se distribuye de la forma habitual, corresponderá a la Figura 1 y se puede clasificar como datos paramétricos. La Figura 2 se refiere a datos no paramétricos.

Agrupación

En palabras simples, agrupar implica agrupar. Ayuda a comprender el comportamiento o patrón, y también contribuye a la formación de segmentos.

Uno de los ejemplos más comunes es que de niños observábamos a las estrellas tomar diferentes formas. Determinamos la forma y creamos la imagen visualizando estrellas cercanas. Ahora imagine que los puntos de datos también son estrellas.

Formamos un grupo usando una fórmula matemática, como calcular la métrica euclidiana o la distancia de cuadra de la ciudad. Sin embargo, hay un problema: ¿cuántos grupos se pueden formar? Puede averiguarlo con la curva del codo, el factor de silueta, la puntuación de silueta o la puntuación wss.

Regresión y clasificación

Para entender qué es la regresión, considere el siguiente ejemplo. El niño tiene hambre y va a su madre por comida. Se sabe que solo le gusta la comida deliciosa. Así que mamá fue a la cocina a cocinarlo. Ella sabe que si los ingredientes x1, x2, x3, x4 y x5 están presentes en los productos, entonces a su hijo le gustará la comida y la comerá. Entonces, comenzó a preparar comida con los ingredientes antes mencionados para preparar el plato Y.

En este ejemplo x1, x2, x3, x4 y x5 son variables independientes y Y depende de ellas. Por lo tanto, en el futuro, es posible predecir no solo el sabor de los alimentos utilizando estas variables independientes, sino también qué ingredientes son los más importantes.

Predecimos dos resultados de eventos: si al niño le gustará la comida o no. Por lo tanto, contiene un algoritmo de clasificación como regresión logística, árbol de decisión, bosque aleatorio, LDA, etc. Luego, medimos la precisión del algoritmo utilizando el informe de clasificación: AUC y ROC.

La regresión lineal es uno de los algoritmos de predicción de variables continuas. Considere el ejemplo de un niño que iba de compras todos los días para comprar una marca de dulces, por ejemplo, un día 100, otro día 66, 71, 78, 86, 99, 45, etc.

Podemos realizar una regresión lineal para predecir cuántos dulces comprará al día siguiente. Y_how_many - será la variable dependiente de la última compra (variable independiente). RMSE (Root Mean Squared Error), valor R-squared o valor cuadrado R-corregido son métricas para medir la precisión de un modelo.

Compartir:
Categorías: Tutoriales

0 comentarios

Deja una respuesta

Marcador de posición del avatar

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.