Big Data : La jungle des différentes distributions open source Hadoop « Le Blog d'Ippon Technologies | Libre de faire, Faire Libre | Scoop.it

En 2004, Google a publié un article présentant son algorithme de calcul à grande échelle, MapReduce, ainsi que son système de fichier en cluster, GoogleFS. Rapidement (2005) une version open source voyait le jour sous l’impulsion de Yahoo.

Aujourd’hui il est difficile de se retrouver dans la jungle d’Hadoop pour les raisons suivantes :

Ce sont des technologies jeunes.

Beaucoup de buzz et de communication de sociétés qui veulent prendre le train Big Data en marche.

Des raccourcis sont souvent employés (non MapReduce ou un équivalent n’est pas suffisant pour parler d’Hadoop).

Beaucoup d’acteurs différents (des mastodontes, des spécialistes du web, des start-up, …).

Dans une distribution Hadoop on va retrouver les éléments suivants (ou leur équivalence) HDFS, MapReduce, ZooKeeper, HBase, Hive, HCatalog, Oozie, Pig,  Sqoop, …

Ces solutions sont des projets Apache et donc disponibles mais l’intérêt d’un package complet est évident : compatibilité entre les composants, simplicité d’installation, support, …

Dans cet article on évoquera les trois distributions majeures que sont Cloudera, HortonWorks et MapR, toutes les trois se basant sur Apache Hadoop.

On peut toutefois les distinguer en fonction de la distance qu’elles prennent avec cette base :

MapR : noyau Hadoop mais repackagé et enrichi de solutions propriétaires.

Cloudera : fidèle en grande partie sauf pour les outils d’administration.

HortonWorks : fidèle à la distribution Apache et donc 100% open source.

Il existe d’autres distributions, voire des offres cloud, mais qui n’offrent pas l’ensemble des fonctionnalités d’une plate forme Hadoop ou ne sont pas open source (ou a minima gratuites) comme Intel Distribution for Hadoop ou bien Greenplum (Pivotal HD).