Que es Big Data?

Damián Barsotti

Facultad de Matemática Astronomía Física y Computación
Universidad Nacional de Córdoba

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Presenter Notes

Dr. Damián Barsotti

Docente/Investigador en la Licenciatura/Doctorado en Computación FaMAF - UNC.
Docente de materia de posgrado "Programación Distribuida sobre Grandes Volúmenes de Datos".
Consultor empresas privadas y estado.
Últimos trabajos:
- Visualización de Redes de Músicos para el Festival Internacional de Jazz Córdoba (ver visualizaciones).
- Using Embeddings to Predict Changes in Large Semantic Graphs. SIMBig2019.

Presenter Notes

Veremos

Que es Big Data
Problemas
Soluciones

Que es Big Data?

Análisis y marketing en redes sociales?
Inteligencia artificial?
Ciencia de datos (data science)?
Internet de las cosas (internet of things)?

Tiene que ver con cantidad de datos

Presenter Notes

Cantidad de Datos

Colisionador de partículas CERN generó 40 TB/Seg en 2012.
Avión Airbus A380 genera 640 TB por vuelo.
Twitter genera 12 TB por día.
Bolsa de Nueva York genera 1 TB por día.
Cosechadora genera 5.000 datos por hectárea en cada pasada.
- En Argentina hay alrededor de 30.000.000 de hectáreas cultivadas.
- 150 TB por pasada.

Gentileza Esteban Feuerstein 2014

Presenter Notes

Hablemos sobre la necesidad de BigData

Jampp

Empresa argentina mayorista de publicidad en apps de celulares

+100TB procesados por día
+600TB de datos almacenados y consultados
+70 instancias EMR

Presenter Notes

Otro ejemplo local
Doctorado de FaMAF maneja la infrestructura
Con instancias spot de Amazon
Bajísima latencia en Amazon!
Ver EMR

Foto del agujero negro

5 Petabytes = 5000 Terabytes de información

= mp3 de 5000 años de duración.
- los 5 PB transportados por avión

Presenter Notes

Telescopio de escala planetaria formado por 8 radiotelescopios
Interesante problema de datos muy distribuidos
Problemas de velocidad de red que se veran mas adelante
Media tonelada de hd
shipping those drives from Hawaii to MIT works out to 14 gigabytes per second (112 gigabits per second)
hd rellenos de helio para que no fallen en lugares inospitos
Event Horizon Telescope (EHT)
Reconstruccion de Imagen con Regularized Maximum Likelihood y Clean (deconvolucion)
2 equipos RML y dos Clean

Nuevas Palabras

1 Petabyte = 1000 Terabytes

= lo que CERN procesa en 1 día⁽¹⁾

= 20 millones de archivos de 4 cajones llenos de texto
5 Exabytes = 5000 Petabytes

= todas las palabras habladas por la humanidad
1 Zettabyte = 1000 Exabytes
1 Yottabyte = 1000 Zetabytes

(Se necesitarían aproximadamente 11,000,000,000,000 años para descargar un archivo de 1 Yottabyte)

Esteban Feuerstein 2014 | (1) http://home.cern/about/computing

Presenter Notes

1 Terabyte = 1000 copias de la Enciclopedia Británica
(10 Terabytes = toda la colección impresa de la Biblioteca del Congreso de USA)

http://datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p1_efeuerstein.pdf

Aún más palabras

1 Brontobyte = 1000 Yottabytes

y aun más

1 Geopbyte = 1000 Brontobytes

Presenter Notes

Perspectiva

Universo digital será de 40 Zettabytes a fines del 2020

The digital Universe in 2020
http://www.emc.com/collateral/
  analyst-reports/idc-the-digital-universe-in-2020.pdf

Presenter Notes

Estudio del 2012
Actualmente la predicciones se han superado

Aún más

https://www.seagate.com/files/www-content/
  our-story/trends/files/idc-seagate-dataage-whitepaper.pdf

Presenter Notes

Estudio del 2018
Mas para el 2020
2018 33 ZB

Como procesar y almacenar tantos datos?

Presenter Notes

Problema de Infraestructura

Cluster de computadoras

Muchas computadoras (nodos) en red
Hardware escalable

Presenter Notes

No queda otra que usar muchas mauinas: no se pueden o no escala procesar todo en una máquina
Hardware escalable: se pueden agregar nodos y no mover todo a una nueva máquina

Almacenamiento de Datos

Servidor de disco en red

Filers
- Scale-Out NAS⁽¹⁾ = 50 PB
Se transporta datos a programas (clásico).
- Modelo de programación Network Programming (MPI).
Problema: red es lenta.

(1) NAS: Network-attached storage.

Presenter Notes

Scale-Out NAS es la solucion mas conocida
Hace 10 años que infiniband está en 50GB/s (con muy baja latencia).
Veremos este fenómeno unas filminas mas adelante
Otros problemas: MPI dificil de programar (tiempo de desarrollo), tolerancia a fallas o resilencia

Puede aumentar velocidad en red? Esperamos magia tecnológica?

Presenter Notes

No es posible

Ley de Kryder: densidad almacenamiento crece 59% por año.
Ley de Nielsen: velocidad red crece 50% por año.

Presenter Notes

Leyes parecidas a ley de moore

Ley de Moore: procesamiento crece 60% cada año

(pero con techo)

(o doble cada 18 mese)

Esto es exponencial

Sacado de Storage & the Mobility Gap (or, why I hate filers)

http://dev.pistoncloud.com/2013/04/storage-and-the-mobility-gap/

https://www.nngroup.com/articles/law-of-bandwidth/

Alternativa a Filers

Discos locales en cada nodo

Distribución de datos en distintas computadoras (nodos)
- lectura en paralelo

Presenter Notes

Los pedacitos de datos se llaman chunks
HD 2 veces mas lento que red https://gist.github.com/jboner/2841832
- aunque + paralelismo
SSD 10 veces mas rapido que red https://serverfault.com/questions/238417/are-networks-now-faster-than-disks

Como programar

Modelo Data Flow

Transportar programas a datos
- con distribuidos en computadoras
Menos red!
Restringir interfaces de programación (patrones)
- el sistema puede hacer más cosas automáticas
Facilita programación paralela

Presenter Notes

Implementación

Se escribe programa declarativo
Paralelización automática
El sistema elige como dividir las operaciones en tareas y donde correrlas
- Gestor de clusters: Hadoop Yarn, Apache Mesos, Amazon EC2.
Tolerancia a fallos: replicación de tareas

Presenter Notes

Donde correrlas --> se transporta programas a datos
Declarativo: se dice el que no el como

Mejora

Replicación de Datos

Varias copias del pedacito de dato (chunk)

Datos más cerca de los programas
Menos red! (mayor localidad de datos)
Tolerancia a fallos
Ej: Hadoop File System (HDFS), Google File System (GFS)

Presenter Notes

FS distribuido

MapReduce

Ejemplo canónico de Data Flow Programming

Presenter Notes

Word Count con MR

Presenter Notes

Aplicaciones MR

Page Rank
Distributed grep
Distributed sort
Web link-graph reversal
Inverted index construction
Machine Learning
- Logistic Regresion, Random Forest, K-means, ...
Backend SQL para Data Warehouse
- Apache Hive.

Presenter Notes

Apache Hive = Amazon Redshift.

Limitaciones de MR

No es bueno para algoritmos iterativos
- muchos MR.
- page Rank, descenso por el gradiente, clustering, etc. (la mayoría)
Primitivas poco eficientes para compartir datos
- datos entre iteraciones en FS distribuido
- lento por uso de disco y replicación

Presenter Notes

Ejemplo: Page Rank

Multiplica matriz rala por vector muchas veces
Recrea hash de neighbors y ranks

Presenter Notes

Problema

+iteraciones = + I/O

90% del tiempo haciendo I/O
Solución: Spark = MR++ en memoria

Presenter Notes

Implementación Spark

Patrones como grafo de operaciones de alto nivel
- relación temporal entre operaciones (map, reduce, filter, join, etc.)

Presenter Notes

Historia

Presenter Notes

Areas del Big Data

- Analitics (datos estructurados)

- Machine Learning

- Análisis de Redes (grandes grafos)

- Streaming (real time)

- Visualización

Herramientas: Pig, Cascading, Storm, Flink, Zeppelin, Spark

Presenter Notes

Streaming en big data lo hace Jampp
Pig, Cascading, Storm, Flink son ejemplos de data flow programming
Pig, Cascading: Patrones de programación de + alto nivel implementados en MR
Storm, Flink: Similar a MR pero para procesar streams en real time

Tendencias

Deep Learning en modelos Data Flow (Spark)

Elephas: Distributed Deep learning with Keras & Spark
Yahoo! Inc.: TensorFlowOnSpark
CERN Distributed Keras (Keras + Spark)
Qubole (tutorial Keras + Spark)
Intel Corporation: BigDL (Distributed Deep Learning Library for Apache Spark)
BigDL: Distributed Deep Learning Library for Apache Spark

Deep Learning With Apache Spark
https://towardsdatascience.com/
  deep-learning-with-apache-spark-part-1-6d397c16abd

Table of Contents	t
Exposé	ESC
Full screen slides	e
Presenter View	p
Source Files	s
Slide Numbers	n
Toggle screen blanking	b
Show/hide slide context	c
Notes	2
Help	h

Que es Big Data?

Damián Barsotti

Facultad de Matemática Astronomía Física y Computación Universidad Nacional de Córdoba

Tiene que ver con cantidad de datos

y aun más

Servidor de disco en red

Discos locales en cada nodo

Modelo Data Flow

Replicación de Datos

+iteraciones = + I/O

- Analitics (datos estructurados)

- Machine Learning

- Análisis de Redes (grandes grafos)

- Streaming (real time)

- Visualización

Deep Learning en modelos Data Flow (Spark)

Table of Contents

Help

Facultad de Matemática Astronomía Física y Computación
Universidad Nacional de Córdoba