Paralelismo, modelos, límites y problemas

Presenter Notes

Resumen:

  • Roofline Model.

  • Moore's Law

    • Dennard scaling.
  • The free launch is over.
  • Bill Dally quote.

  • Taxonomía Flynn: SISD, SIMD, MIMD.

  • Amdahl's Law vs. Gustafson-Barsis' Law

    • Strong vs. weak scaling.

Nicolás Wolovick 20140327

Presenter Notes

Roofline model

Intensidad Aritmética, Ancho de banda de memoria, FLOPS

Arithmetic intensity, memory bandwidth, FLOPS

FLOPS/Intensidad = BW

Si conozco la intensidad aritmética de mi problema la relación entre el BW y FLOPS es lineal.

FLOPS = BW * Intensidad

Limitado por el pico teórico de FLOPS de la máquina.

Attainable GFLOPs/sec

Presenter Notes

Ejemplo: Opteron X2

Ancho de banda de 16 GiB/s.
Performance pico de 16 GFLOPS.

FIGURE 6.18 Roofline Model [Williams, Waterman, and Patterson 2009]

Presenter Notes

Ejemplo: Opteron X2 vs. Opteron X4

FIGURE 6.19 Roofline models of two generations of Opterons

Típico: aumentar cores sin tocar el subsistema de memoria.

Computadora desbalanceada.

Presenter Notes

Otras zonas donde moverse

Como cambia el modelo según el grado de optimización (FLOP & Memoria).

FIGURE 6.21 Roofline model with ceilings, overlapping areas shaded, and the two kernels
from Figure 6.18

Presenter Notes

Comparación de varias máquinas

Roofline model of current hardware and computational intensity of various representative algorithms

(Lorena A. Barba, Rio Yokota, How will the fast-multipole method fare in the exascale era?, 2013)

Presenter Notes

Moore's Law

La cantidad de transistores se duplica cada 18 meses.

Moore, Electronics 38(8) April 19, 1965

(Moore, Electronics 38(8) April 19, 1965)

Es una observación de mercado, no una ley de la física.

Presenter Notes

Y sigue girando ...

asd

Nada cambió.

Presenter Notes

Dennard scaling

Esta si es una ley de la ¿física? ¿electrónica?
Posibilitó "ley" de Moore se mantuviera a lo largo de los años.

Dennard Scaling

Observar: transistores son más pequeños y densidad de potencia es constante.

MOSFETs continue to function as voltage-controlled switches while all key figures of merit such as layout density, operating speed, and energy efficiency improve – provided geometric dimensions, voltages, and doping concentrations are consistently scaled to maintain the same electric field.

Presenter Notes

El fin de ILP

En el 2001 se acabó la veta del ILP.

Dally, The Last Classical Computer

(Dally, The Last Classical Computer, 2001)

Presenter Notes

El fin de Dennard scaling

An Update on Moore's Law

(Gordon Moore, An Update on Moore's Law, Keynote Presentation at ISSCC 2003)

Presenter Notes

El gran gráfico

Figure 1: Intel CPU Introductions (graph updated August 2009; article text original from December 2004)

(Herb Sutter, The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software, 2005)

Presenter Notes

El gran gráfico, continúa

The end of Scaling

(Bill Dally, Efficiency and Programmability: Enablers for ExaScale)

Presenter Notes

Imprimirse una remera con esto

All performance is from parallelism

-

Machines are power limited

(efficiency IS performance)

-

Machines are communication limited

(locality IS performance)

.

.

(Bill Dally, Efficiency and Programmability: Enablers for ExaScale, SC13)

Presenter Notes

Potencia de Aritmética y Comunicación

Comunicación, distancia y potencia en un chip típico de 20mm*20mm=400mm².

Communication Takes More Energy Than Arithmetic

(Bill Dally, Efficiency and Programmability: Enablers for ExaScale, SC13)

Presenter Notes

Paralelismo

Presenter Notes

Taxonomía de Flynn

Taxonomía de Flynn

Si, enseñamos Taxonomía de Flynn en Lic. en Cs. de la Computación.

Presenter Notes

Speedup, eficiencia

Mejora en crudo

speedup

Visión más económica

efficiency

  • Lo que queremos: linear speedup, =100% de eficiencia.
  • Lo que obtenemos: sublinear speedup, <100% de eficiencia.
  • A veces, solo a veces: superlinear speedup >100% de eficiencia.

Presenter Notes

Escalabilidad

Presenter Notes

(escalabilidad de la) Eficiencia

Presenter Notes

Escalabilidad

Escalabilidad

Gráfico de Guillermo Ortiz, exámen de WHPC13.

Presenter Notes

El límite: Amdahl's Law

…the effort expended on achieving high parallel processing rates is wasted unless it is accompanied by achievements in sequential processing rates of very nearly the same magnitude.
— Gene Amdahl

Fórmula

  • S(N): aceleración para N procesadores.
  • P: porción paralelizable.
  • N: número de componentes paralelas.

Figure 1: In Amdahl's Law, speedup is limited by the non-parallelizable serial portion of the work.

Presenter Notes

Amdahl's Law: larga vida al unicore

¡Siempre necesitaremos buena preformance en 1 hilo!

Amdhal's Law

(Wikipedia, Amdahl's Law)

Presenter Notes

Ejemplo

Problema

  • Quiero un speedup de 80x.
  • Con 100 procesadores.
  • ¿Qué fracción de la computación original puede ser secuencial?

Respuesta

0.25%

(Hennessy, Patterson, CAAQA4, p.202)

AGGGGGGGGGGGG!

Presenter Notes

Aceleración en escala

La ley de Amdahl's pone límites muy fuertes en la paralelización.

Pero...

  • Es para un tamaño de problema fijo.
  • Usualmente a mayor poder de procesamiento, más grande es el set de datos que quiero procesar!

Presenter Notes

Gustafson's Law

…speedup should be measured by scaling the problem to the number of processors, not by fixing the problem size.
— John Gustafson

Supone que el data-set aumenta linelmente con la cantidad de procesadores.

Gustafson's Law

  • S(P): aceleración para P procesadores.
  • P: número de procesadores.
  • α: fracción secuencial.

Presenter Notes

Ni tanto, ni tan poco

Although simply scaling the data size with processor count is rarely appropriate, assuming a fixed problem size for a much larger processor count is often inappropriate as well, since it is likely that users given a much larger multiprocessor would opt to run a larger or more detailed version of an application.

(Hennessy, Patterson, CAAQA4, p.259)

Presenter Notes

Strong vs. Weak Scaling

Strong scaling

El tiempo de procesamiento baja a medida que agregamos "cores" para un problema de tamaño fijo.

Weak Scaling

El tiempo de procesamiento no aumenta a medida que agregamos "cores" para un problema de tamaño variable.

Presenter Notes

Bibliografía

Presenter Notes

Bibliografía

Presenter Notes

La clase que viene

  • SIMD (aka SSE{2,3,4} AVX{2})

Presenter Notes