Netflix tente de piloter les coûts d'usage de son cloud
Près de 7 ans après sa migration sur AWS, Netflix rencontre toujours des difficultés à déterminer et piloter les coûts de son cloud. Sur un de ses blogs, la plateforme de streaming vidéo partage sa démarche actuelle qui s'appuie sur une équipe de data scientists et deux outils maison pour collecter et auditer la data.
PublicitéConnaître les coûts réels de son usage du cloud public reste un sujet majeur pour la plupart des organisations. Pour preuve, même un géant comme Netflix, dont l'activité repose sur la technologie, se heurte encore à ces difficultés. L'histoire entre la plateforme de streaming vidéo et le cloud public remonte à 2008, quand celui qui n'était encore que vendeur de DVD a subi une panne dans un de ses datacenters. Netflix a alors pris la décision de migrer vers le cloud, plus précisément celui d'AWS. Après près de 7 ans de cette démarche, la plateforme a toujours du mal à identifier les ressources utilisées chez son fournisseur et surtout à en déterminer les coûts.
Dans une publication de blog, Jenifer Han et Pallavi Phadnis, respectivement ingénieurs seniors en analytique et data chez Netflix, ont partagé la manière dont le site de streaming arrive à piloter l'efficience du cloud. En préambule, elles rappellent que Netflix se sert d'AWS pour ses besoins en infrastructures cloud (calcul, stockage, réseau) et que les développeurs disposent d'une plateforme libre-service pour créer et déployer des applications. Pour les deux ingénieurs, « ce paysage technologique génère des données nombreuses et riches provenant de diverses entités d'infrastructure. » Il est donc crucial, selon elles, de trouver un moyen « de démocratiser dans les services et équipes de Netflix l'accès à des sources de données très documentées qui éclairent les schémas d'utilisation et les coûts. »
Deux outils pour piloter les coûts et l'efficacité du cloud
Pour cela, la société a mis en place une équipe de data scientists afin de créer, à destination des ingénieurs, des outils « de compréhension des ressources qu'ils utilisent, de leur efficacité et du coût associé ». Dans ce cadre, deux outils ont été développés. Le premier est une plateforme de données fondamentales (FDP), fournissant « une couche de données centralisée » agrégeant « des informations d'inventaire, de propriété et d'utilisation » provenant de plusieurs fournisseurs de plateforme de données. L'objectif étant d'avoir « des modèles de données cohérents et des traitements normalisés. »
Netflix a développé une plateforme de collecte des données d'usage du cloud et de calcul de coûts à différents niveaux de granularité métier. (Image : Netflix DR)
Le second outil, baptisé CEA (cloud efficiency analytics), construit au-dessus de FDP, se sert des données centralisées (via Apache Spark) et applique « des logiques métiers pour fixer des coûts et attribuer des droits de propriété à différents niveaux de granularité ». Cette méthode apporte de la transparence, soulignent les ingénieurs : « nous voulons que les clients en aval comprennent pourquoi ils voient des ressources apparaître sous leur nom ou organisation, et comment ces coûts sont calculés. » Avec un autre avantage à la clé, à savoir « la capacité à s'adapter en cas de changement ou de nouvelles logiques métiers. »
PublicitéDe multiples défis à relever
Si les outils existent, la tâche de l'équipe de data scientists reste difficile. En effet, les jeux de données de Netflix sont très complexes « en raison de l'ampleur et de la portée de l'infrastructure commerciale et des caractéristiques spécifiques de la plateforme. » Jenifer Han et Pallavi Phadnis observent que « les services peuvent avoir plusieurs propriétaires, l'heuristique des coûts est propre à chaque plateforme et l'échelle des données d'infrastructure est importante. » En conséquence, elles doivent relever plusieurs défis.
Le premier consiste à prendre en compte la personnalisation des plateformes de Netflix, le deuxième à s'assurer de l'exactitude et de la fiabilité des données avec la mise en place d'audits réguliers. Enfin, le troisième défi a trait au shadow IT, avec des solutions SaaS à façon créées par des développeurs dans d'autres entités de l'entreprise. « Ces démarches favorisent l'innovation et améliorent la rapidité de développement de solutions métier, mais elles peuvent aussi devenir un problème lorsqu'il s'agit de comprendre et d'interpréter les modèles d'utilisation et d'attribuer les coûts d'une manière qui a du sens pour l'entreprise et le client final », assurent les deux ingénieurs.
L'avenir se décline en prédictif et en machine learning
À court terme, l'équipe de data scientists va poursuivre l'intégration des deux outils FDP et CEA, pour « obtenir une couverture presque complète des coûts au cours de l'année à venir. » Ce qui révèle que, comme beaucoup d'entreprises, Netflix a du mal à connaître exactement l'usage de ses ressources et des coûts de son cloud. À long terme, la plateforme de données fondamentales devrait s'étendre à d'autres domaines comme la sécurité et la disponibilité.
Dans l'avenir, le Californien compte se pencher sur « des approches proactives via l'analyse prédictive et le machine learning pour optimiser l'utilisation des outils et détecter les anomalies dans les coûts. » En attendant, il faudra attendre quelques mois pour avoir des retours chiffrés sur le pilotage de l'efficience du cloud chez Netflix.
Article rédigé par
Jacques Cheminat, Rédacteur en chef LMI
Suivez l'auteur sur Linked In, Twitter
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire