Data Science Spain Meetup

06.05.2014 20:00

Ayer estuvimos en el evento Data Science Spain Meetup en la ponencia de Santiago Basaldúa, PhD y Senior Data Scientist de Synergic Partners e impulsor de la comunidad Meetup. Estuvo muy interesante y por qué no compartir mis apuntes.

Su presentación se desarrolló en torno a 3 ideas:

    Big Data: Han cambiado las reglas

    Data Science en la era Big Data

    Data Scientists: Una nueva forma de trabajar

Hadoop

HDFS (Hadoop Distibuted File System)

  • Disco Duro (solución de almacenamiento que distribuye los ficheros)
  • Tareas Map Reduce: trabaja la manera de distribuir la información y el dato almacenado.
  • Ecosistema:  (SQL/no SQL).

¿Qué es Map Reduce? Simplificar y clasificar de lo grande a lo pequeño.

Proceso: Mappers > Shuffle > Reducers

Herramientas para ello; KMeans, regresión lineal, regresión logística, random forest, entre otros, para paralelizar de manera centralizada combinando matrices para después reducirlas y extraer conclusiones de la lectura.

R y Python

  • Podemos programar Map reduce
  • Podemos usar un paquete que lo use (Map Reduce)
  • Podemos controlar desde R programas similares.
  • RStudio No carga tablas.
  • Hive (datawarehouse) contiene ficheros que para nosotros son tablas. Tiene interfaz en SQL y lectura HDFS.

Otros relevantes a tener en cuenta:

Spark https://spark.apache.org/

Django; framework de Python con entorno gráfico de Hadoop (base HUE), antiguamente era la claudera de Desktop de Hadoop.

Frontend; incorpora js para mejorar la interface de Hadoop.

Shiny; tecnología de presentación de RStudio)

Claves

  1. No hay ficheros imposibles
  2. Solamente hay tablas con variables
  3. Respetar siempre las reglas básicas de organización

Data Scientists: una nueva forma de trabajar

“Un Data Science tiene la misión de contar una historia bonita con los datos.”

“Los modelos incomprensibles para un ser humano son a menudo los que mejor funcionan”. Normalmente, los especialistas en Big Data o programadores estadísticos intentan simplificar cuando explican los conceptos o procesos a los directivos de Marketing o de Desarrollo de Negocio. Estos a su vez, sintetizan esa información para traspasarlo a su equipo y así sucesivamente. Hacerlo anecdótico. Eso es Map Reduce.

¿Ha muerto la estadística? No, simplemente han cambiado las reglas del juego. Ahora se adapta el Data Science como un entorno multidisciplinar en la que se aúnan la Estadística y la Informática para desarrollar nuevas tareas según las necesidades. Los modelos Big Data se llevan utilizando desde hace años en Genética, Astrología, sector financiero, ingeniería molecular... Pero ahora se están incorporando como modelo de negocio e incluyen al Business Intelligence y la visión 360 grados del consumidor actual en esta nueva tendencia.

 

Novedades

28.05.2014 16:26
El pasado 22 de mayo estuvimos en el TrendSpain 2014 en MediaLab Prado y sólo decir como resumen...
26.05.2014 13:44
Estudio; La calidad de los datos en las empresas. Tendencias y buenas prácticas para una estrategia...
26.05.2014 13:28
Estoy deseando que llegue el jueves 12 de Junio para asistir al Inspiration Day de Womenalia. Un...
20.05.2014 22:09
Ayer lunes 19 de mayo estuvimos a las 19:00 horas en el Evento del IAB Madrid “Claves y Retos...
08.05.2014 16:20
Estuvimos ayer en el Google Think Performance #Thinkperf2014 en MediaLab Prado (Madrid) y...
Elementos: 1 - 5 de 11
1 | 2 | 3 >>

Contacto