PhotoBox industrialise son Big Data grâce au cloud
Conscient de l'importance du Big Data, Photobox a décidé de passer le pas. Pour gagner en efficacité et en simplicité, le site a fait confiance au cloud pour stocker et analyser ses données.
PublicitéPhotobox est un des leaders européens du stockage, du partage et du tirage de photos en ligne. Présent dans 19 pays, le site compte 25 millions de clients et stocke plusieurs milliards de photos. En 2012, Photobox a décidé de se mettre au Big Data pour mieux répondre aux demandes de ses clients et affiner leur ciblage. Maxime Mézin (en photo entre Romain Chaumais d'Ysance, à gauche, et Laurent Guiraud d'AWS), data scientist et expert BI de Photobox a expliqué, lors d'une rencontre organisée par Ysance, comment il s'y est pris pour mettre en place cette stratégie et comment lui est venu l'idée du cloud.
Un investissement faramineux pour le stockage et le traitement
Quand Maxime Mézin a commencé son travail chez Photobox, le site n'était équipé que d'un vieux datawarehouse. « Il fallait huit heures pour le rafraîchir » raconte le data scientist qui revient sur les contraintes qu'aurait occasionné le développement d'une stratégie Big Data en interne. « On était limité en stockage, il fallait mettre en place un environnement de développement, recruter un administrateur de base de données et acheter de nouvelles licences notamment pour les outils de décisionnel », explique Maxime Mézin. Il aurait fallu investir 100 kE en hardware et la même somme en software pour mettre tout en place.
Des capacités très limitées en analyse
Et si stocker et traiter les données est une chose, les analyser en est une autre. Sur les bases qu'il possédait, Maxime Mézin a tenté de mettre en place une solution Hadoop faite maison. « On a passé six mois difficiles à mettre au point un début de solution avec Hive et Hbase, sans toucher une donnée » raconte-t-il à ce sujet. L'idée a finalement été mise de côté. « Je ne me voyais pas gérer 15 000 erreurs java lors de la mise en production » explique le data scientist avec humour.
Le cloud : le choix de la facilité et l'efficacité...
Le cloud : le choix de la facilité et l'efficacité...
Face à ces nombreuses difficultés, Photobox a décidé de se tourner vers le cloud. « On a fait un POC sur RedShift d'Amazon Web Service, j'ai été conquis » raconte Maxime Mézin. La simplicité et l'efficacité de la solution du géant américain a, en grande partie, joué pour elle.
« Quand on a commencé à utiliser Redshift, j'ai cru que c'était noël » lâche Maxim Mézin. Pour appuyer ses propos, le data scientist met en avant la simplicité d'utilisation et les performances qu'offre AWS : « pour lancer une analyse, il suffit juste de choisir un cluster et de lui allouer un certain nombre de noeuds en fonction de ses besoins ». Cette simplicité de traitement est possible grâce à Elastic Map Reduce, une solution d'analyse d'AWS, 100 % Hadoop.
Publicité
Du coté des performances, Maxim Mézin avoue, qu'au début, il n'y croyait pas. « Pour charger les donnés sur notre vieux datawarehouse, on mettait 4 jours mais sur Redshift on met 50 minutes » explique-t-il avant de surenchérir : « avant notre base SQL ne nous permettait pas de faire de count [compter les lignes de données, ndlr], maintenant ça prend trois secondes ».
...à moindre coût
D'après les estimations faites par Photobox, l'installation d'une solution de Big Data interne aurait coûté 90 kE par an. À l'utilisation, Redshift coûte à l'entreprise 13 kE par an, soit sept fois moins. De plus, le déploiement du service d'AWS s'est fait très facilement selon Maxime Mézin et n'a pris qu'un mois.
Une solution fiable et sécurisée
Photobox est relié à ses données stockées aux États-Unis via un VPN et celles-ci sont chiffrées en SSH afin que seules les personnes autorisées puissent y accéder. De plus, le service d'Amazon semble très fiable. D'après Maxime Mézin, AWS n'a planté qu'une heure en un an, et c'était de la faute d'un client de Photobox qui avait lancé la duplication de ses photos en boucle. Et si par malheur, les datacenters américains d'AWS venaient à être détruits par on ne sait quelle catastrophe, les données seraient immédiatement transférées vers d'autres serveurs.
En somme, Maxime Mézin estime qu'en développant ses infrastructures Big Data dans le cloud, plutôt qu'en interne, Photobox a gagné en fiabilité, multiplié ses performances d'analyse par 10 et sa capacité de stockage par 32 et dépensé 7 fois moins.
Article rédigé par
Oscar Barthe
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire