Problématique :
On cherche à analyser les données d'une fromagerie sur 3 axes :
Lot 1 : Ressortir les 100 meilleures commandes de 2006 à 2010 dans les départements 53, 61 et 28 Format : Excel
Lot 2 : Ressortir les 5 ( 100 x 5% ) meilleures commandes de 2011 à 2016 dans les départements 22, 49 et 53 avec la moyenne des quantités commandées pour chaque article Format : Excel
Sortir un graph "camembert" des villes avec le plus de commandes Format : PDF Lot 3 : Intégrer des les données du datawarehouse dans PowerBI via une base HBase
Importer les datas et les scripts pythons via filezilla sur la vm linux
utiliser la commande docker cp pour échanger des fichiers entre la vm et le docker hadoop-master:
- docker cp /repertoire/initial/monfichier1 /repertoire/destination/
envoyer le csv sur hdfs via hadoop fs copyfromlocal
lancer la commande hadoop streaming en lui donnant le mapper et reducer en paramètre
hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar -file /root/mapper_lot2.py -mapper "python3 mapper_lot2.py" -file /root/reducer_lot2.py -reducer "python3 reducer_lot2.py" -input /user/root/datafromage.csv -output /user/root/sortie
Prérequis : Putty Filezilla
mettre le csv depuis la machine locale
./start_docker_digi.sh
./lance_srv_slaves.sh
docker cp ./dataw_fro03.csv hadoop-master:/root/datafromage.csv
./bash_hadoop_master.sh
./start-hadoop.sh
./happybase.sh
./hbase_odbc_rest.sh
hbase shell
create 'data_fromage',{NAME=>'cf'}
exit
Script pour ajouter le numéro de ligne au début de chaque ligne du csv
awk -v OFS=',' '{print NR,$0}' /root/datafromage.csv > /root/datafromage_prepare.csv
hadoop fs -copyFromLocal /root/datafromage_prepare.csv /user/root/
hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=',' -Dimporttsv.columns='HBASE_ROW_KEY,cf:codcli,cf:genrecli,cf:nomcli,cf:prenomcli,cf:cpcli,cf:villecli,cf:codcde,cf:datcde,cf:timbrecli,cf:timbrecde,cf:Nbcolis,cf:cheqcli,cf:barchive,cf:bstock,cf:codobj,cf:qte,cf:Colis,cf:libobj,cf:Tailleobj,cf:Poidsobj,cf:points,cf:indispobj,cf:libcondit,cf:prixcond,cf:puobj' data_fromage /user/root/datafromage_prepare.csv
Ajouter le bon hostname / port en fonction de votre serveur
Et voilà, le driver ODBC est maintenant utilisable par PowerBI !
( fichier de nettoyage et structuration des données PBI fourni )