Hands-on:

   - Compilação (clinfo, esqueleto)
   - Rodando clinfo e verificando plataformas, dispositivos e suas propriedades
   - Alterar o esqueleto para fazer AXPY: y = ax + y
                     lembrando que temos: y = sqrt(y)
   - Incluir profiling e comparar CPU x GPU para 2^12, 2^16, 2^20 e 2^24
   - y = sum_(i=0)^(i=100)(i * x)
   - Resolver o mesmo problema, mas agora usando memória local; definir local_size
   - Parametrizar a carga de trabalho por WI (cuidado com coalescing):
