This work is licensed under a
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Veremos
Gentileza Esteban Feuerstein 2014
Hablemos sobre la necesidad de BigData
5 Petabytes = 5000 Terabytes de información
= mp3 de 5000 años de duración.
1 Petabyte = 1000 Terabytes
= lo que CERN procesa en 1 día(1)
= 20 millones de archivos de 4 cajones llenos de texto
5 Exabytes = 5000 Petabytes
= todas las palabras habladas por la humanidad
1 Zettabyte = 1000 Exabytes
1 Yottabyte = 1000 Zetabytes
(Se necesitarían aproximadamente 11,000,000,000,000 años para descargar un archivo de 1 Yottabyte)
Esteban Feuerstein 2014 | (1) http://home.cern/about/computing
http://datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p1_efeuerstein.pdf
The digital Universe in 2020 http://www.emc.com/collateral/ analyst-reports/idc-the-digital-universe-in-2020.pdf
https://www.seagate.com/files/www-content/ our-story/trends/files/idc-seagate-dataage-whitepaper.pdf
(1) NAS: Network-attached storage.
Leyes parecidas a ley de moore
Ley de Moore: procesamiento crece 60% cada año
(pero con techo)
(o doble cada 18 mese)
Esto es exponencial
Sacado de Storage & the Mobility Gap (or, why I hate filers)
http://dev.pistoncloud.com/2013/04/storage-and-the-mobility-gap/
No es bueno para algoritmos iterativos
- muchos MR.
- page Rank, descenso por el gradiente, clustering, etc. (la mayoría)
Primitivas poco eficientes para compartir datos
- datos entre iteraciones en FS distribuido
- lento por uso de disco y replicación
Patrones como grafo de operaciones de alto nivel
Deep Learning With Apache Spark https://towardsdatascience.com/ deep-learning-with-apache-spark-part-1-6d397c16abd
Table of Contents | t |
---|---|
Exposé | ESC |
Full screen slides | e |
Presenter View | p |
Source Files | s |
Slide Numbers | n |
Toggle screen blanking | b |
Show/hide slide context | c |
Notes | 2 |
Help | h |