Traitement du Big Data

Les mégadonnées ou Big Data sont des collections d'informations qui auraient été considérées comme gigantesques, impossible à stocker et à traiter, il y a une dizaine d’années.

Plan de ce cours

Partie 1

Cette section concerne le volet stockage des fichiers au sein du framework Apache Hadoop

TP 1 : Installation et prise en main

TP 2 : Administration de HDFS

Partie 2

Cette section se concentre sur le modèle de programmation parallèle de Hadoop : Map Reduce

TP 3 : Créer un job MapReduce en se basant sur le fameux exemple : Word Count.

TP 4 : Travaux pratiques : Créer un job MapReduce permettant d'analyser le dataset : olympix.

Partie 3

Découverte de quelques outils de l'écosystème de Hadoop

TP 5 : Comprendre les concepts de base et les commandes de Pig.

Enseignant

Nassim BAHRI

Enseignant TD