Data Science Spain Meetup
Ayer estuvimos en el evento Data Science Spain Meetup en la ponencia de Santiago Basaldúa, PhD y Senior Data Scientist de Synergic Partners e impulsor de la comunidad Meetup. Estuvo muy interesante y por qué no compartir mis apuntes.
Su presentación se desarrolló en torno a 3 ideas:
Big Data: Han cambiado las reglas
Data Science en la era Big Data
Data Scientists: Una nueva forma de trabajar
Hadoop
HDFS (Hadoop Distibuted File System)
- Disco Duro (solución de almacenamiento que distribuye los ficheros)
- Tareas Map Reduce: trabaja la manera de distribuir la información y el dato almacenado.
- Ecosistema: (SQL/no SQL).
¿Qué es Map Reduce? Simplificar y clasificar de lo grande a lo pequeño.
Proceso: Mappers > Shuffle > Reducers
Herramientas para ello; KMeans, regresión lineal, regresión logística, random forest, entre otros, para paralelizar de manera centralizada combinando matrices para después reducirlas y extraer conclusiones de la lectura.
R y Python
- Podemos programar Map reduce
- Podemos usar un paquete que lo use (Map Reduce)
- Podemos controlar desde R programas similares.
- RStudio No carga tablas.
- Hive (datawarehouse) contiene ficheros que para nosotros son tablas. Tiene interfaz en SQL y lectura HDFS.
Otros relevantes a tener en cuenta:
Spark https://spark.apache.org/
Django; framework de Python con entorno gráfico de Hadoop (base HUE), antiguamente era la claudera de Desktop de Hadoop.
Frontend; incorpora js para mejorar la interface de Hadoop.
Shiny; tecnología de presentación de RStudio)
Claves
- No hay ficheros imposibles
- Solamente hay tablas con variables
- Respetar siempre las reglas básicas de organización
Data Scientists: una nueva forma de trabajar
“Un Data Science tiene la misión de contar una historia bonita con los datos.”
“Los modelos incomprensibles para un ser humano son a menudo los que mejor funcionan”. Normalmente, los especialistas en Big Data o programadores estadísticos intentan simplificar cuando explican los conceptos o procesos a los directivos de Marketing o de Desarrollo de Negocio. Estos a su vez, sintetizan esa información para traspasarlo a su equipo y así sucesivamente. Hacerlo anecdótico. Eso es Map Reduce.
¿Ha muerto la estadística? No, simplemente han cambiado las reglas del juego. Ahora se adapta el Data Science como un entorno multidisciplinar en la que se aúnan la Estadística y la Informática para desarrollar nuevas tareas según las necesidades. Los modelos Big Data se llevan utilizando desde hace años en Genética, Astrología, sector financiero, ingeniería molecular... Pero ahora se están incorporando como modelo de negocio e incluyen al Business Intelligence y la visión 360 grados del consumidor actual en esta nueva tendencia.