Este tutorial pretende presentar varios ejemplos sencillos que permitan familiarizarse con los conceptos fundamentales del desarrollo de programas en el entorno MapReduce de Java, concretamente, en la implementación proporcionada por Hadoop. Se asume que ya se conocen los aspectos básicos del modelo MapReduce. En caso contrario, se recomienda consultar los apuntes de clase y el artículo original que propone este modelo de programación paralela (MapReduce: Simplified Data Processing on Large Clusters de Jeffrey Dean y Sanjay Ghemawat), en cuyas ideas se basa la implementación de MapReduce de libre distribución incluida en Hadoop.
Este tutorial supone una pequeña introducción al mundo de Hadoop, pero deberías consultar en Internet si deseas disponer de más información.
El tutorial describe como instalar Hadoop, como escribir una primera aplicación, como compilarla, ejecutarla y comprobar la salida:
- Instalación de Hadoop y ejecución del MapReduce nulo
- Ejemplo WordCount y primeros ejercicios
- Aspectos adicionales y ejercicio final
Este tutorial se ha realizado basándonos en gran medida en los siguientes tutoriales:
- Introducción a la programación MapReduce en Hadoop. Universidad Politécnica de Madrid (UPM).
- Hadoop Tutorial Stanford University.