Stratégie

Crowdstrike 9 mois après : les leçons d'une panne majeure

La panne provoquée par Crowdstrike a relancé le débat sur l’activation ou non des mises à jour automatiques poussées par les éditeurs. (Photo : Milad Fakurian/Unsplash)

Déjà tombée dans l'oubli, la panne provoquée en juillet dernier par Crowstrike a pourtant été la plus coûteuse de l'histoire des technologies de l'information. Et ce d'au moins un ordre de grandeur. Qu'avons-nous appris pour éviter qu'une telle crise ne se reproduise ?

PublicitéL'été dernier, une mise à jour défectueuse du logiciel Crowdstrike a mis hors service des millions d'ordinateurs, causant des milliards de dommages. Une mise en évidence des risques liés aux tiers qu'encourent les entreprises ou des limites de leur capacité de réaction aux perturbations. « Il s'agit d'une étude de cas intéressante sur l'impact cyber mondial », déclare Charles Clancy, directeur de la technologie de la société Mitre, spécialisée dans la cybersécurité (elle développe notamment la base de connaissances sur les cyberattaques Att&ck) et supportant des laboratoires de recherche pour plusieurs agences américaines.

En réponse à cette panne, 84 % des entreprises envisagent de diversifier leurs fournisseurs de logiciels et de services, ou le font déjà, selon une enquête de la société spécialisée dans le cycle de vie du logiciel Adaptavist publiée fin janvier. Pour les entreprises qui utilisaient Crowdstrike, changer de fournisseur peut sembler une solution évidente. « Mais alors, quelle plateforme de détection et de réponse sur les endpoints devriez-vous utiliser à la place ?, lance Charles Clancy. Les abandonner n'est pas la solution s'il s'agit du meilleur produit sur le marché. »

Pour bien comprendre la mécanique de la panne, il faut revenir à son déroulement précis. Selon l'analyse des causes menée par Crowdstrike, l'origine est à chercher du côté de son système Falcon, qui déploie un capteur sur les machines des utilisateurs pour surveiller les dangers potentiels. Le 19 juillet 2024, Crowdstrike a publié une mise à jour de Falcon, qui a fait planter les machines des utilisateurs. L'entreprise a publié un correctif 78 minutes plus tard, mais les utilisateurs devaient accéder manuellement aux appareils concernés, redémarrer en mode sans échec et supprimer un fichier défectueux. Un correctif automatisé n'a été publié que trois jours plus tard.

Des dizaines de Md$ selon un cyberassureur

Au total, 8,5 millions d'ordinateurs ont été touchés. En raison de la panne, des milliers de vols ont été annulés et des dizaines de milliers retardés dans le monde entier. Plusieurs hôpitaux ont également annulé des opérations chirurgicales, et des banques, des aéroports, des systèmes de transport public, des centres d'appels d'urgence et de nombreuses agences gouvernementales américaines - dont le ministère de la sécurité intérieure (Department of Homeland Security) - ont également subi des pannes.

Le coût total a été estimé à 5,4 milliards de dollars pour les seules entreprises du classement Fortune 500, selon une analyse de l'assureur spécialiste du cloud Parametrix, et le total des dommages économiques pourrait atteindre des dizaines de milliards, a déclaré à Reuters Nir Perry, PDG de la plateforme de cyberassurance Cyberwrite. À titre de comparaison, le précédent record du temps d'arrêt le plus coûteux était la panne d'AWS en 2017, qui avait coûté aux clients un montant estimé à 150 millions de dollars.

PublicitéÀ elle seule, la compagnie Delta a subi plus de 500 millions de dollars de pertes en raison de la paralysie de ses opérations et de milliers d'annulations et de retards de vols. Dans une action en justice intentée par la compagnie aérienne en octobre, elle affirme que la mise à jour défectueuse a été diffusée de manière dangereuse et que Crowdstrike devait payer pour les pertes subies. Dans une contre-attaque, Crowdstrike blâme Delta pour les problèmes qu'elle a rencontrés, affirmant que d'autres compagnies aériennes ont pu se rétablir beaucoup plus rapidement, et que le contrat entre les deux sociétés indique que Delta n'est pas autorisée à intenter une action en dommages et intérêts contre l'éditeur.

Crowdstrike revoit ses procédures

Au total, le cours de l'action Crowdstrike est passé de 343 dollars la veille de la panne à 218 dollars le 2 août, soit une perte de plus de 30 milliards de dollars ou plus d'un tiers de sa capitalisation boursière totale. Toutefois, le 28 janvier suivant, le cours de l'action de l'entreprise dépassait les 400 dollars, un record historique, grâce à une note parfaite obtenue lors d'un test de détection des ransomwares. Crowdstrike a également amélioré ses processus de contrôle de la qualité en ajoutant une vérification spécifique au problème rencontré lors de la panne, ainsi que d'autres tests, couches de déploiement et vérifications. Les clients bénéficient également de contrôles supplémentaires sur la manière dont les mises à jour sont déployées.

En outre, Crowdstrike a engagé deux fournisseurs indépendants de sécurité logicielle pour examiner le code du capteur Falcon, son contrôle qualité et ses processus de déploiement de patchs, et a également modifié la manière dont ses mises à jour sont diffusées. Celles-ci sont désormais plus graduelles, avec des « anneaux concentriques de déploiement », explique Adam Meyers, vice-président sénior de Crowdstrike pour les opérations de lutte contre la menace. « Cela nous permet de surveiller les problèmes dans un environnement contrôlé et d'annuler les changements de manière proactive si des problèmes sont détectés avant qu'ils n'affectent une population plus large », a-t-il déclaré à une sous-commission du Congrès américain en septembre.

Pendant que Crowdstrike procédait à ces changements, les entreprises dans le monde entier ont réévalué la confiance qu'elles placent dans leurs fournisseurs, revu leurs processus de sécurité logicielle et recentré leur attention sur la résilience.

Faire confiance, mais vérifiez. Ou plutôt ne faire jamais confiance...

La panne a été un réveil brutal pour Akamai, société spécialisée dans la diffusion de contenu, déclare Kate Prouty, DSI et vice-présidente sénior. « Cela nous a rappelé à quel point le monde est incroyablement interconnecté », dit-elle. Akamai n'était pas directement client de Crowdstrike, mais utilise des services similaires proposés par des fournisseurs externes pour protéger ses systèmes. « La première chose que nous avons faite a été d'auditer toutes les solutions que nous avons qui reposent sur un agent qui s'installe sur une machine et qui a accès à un système d'exploitation pour s'assurer qu'aucune d'entre elles ne fonctionne avec des mises à jour automatique, dit la DSI. Lorsque vous avez un fournisseur qui envoie automatiquement des mises à jour sur vos systèmes, vous perdez le contrôle. »

Mais la désactivation des mises à jour automatiques peut poser un problème à certaines entreprises. Que faire en cas de correctif de sécurité urgent ? Tester chaque mise à jour pour s'assurer qu'elle fonctionne avant de la diffuser peut prendre du temps, un temps que des acteurs malveillants peuvent mettre à profit. « S'il existe une menace pour la sécurité et une exposition potentielle, vous devez passer par le processus de test aussi rapidement que possible, estime Kate Prouty. Il ne sert à rien de corriger un problème de sécurité si vous ne savez pas s'il va nuire à votre environnement ».

Dans la mesure du possible, Akamai évite d'utiliser des outils nécessitant des agents bien que, dans certains domaines, notamment la cybersécurité, ils soient nécessaires et que les avantages l'emportent sur les risques. « Nous n'en avions pas beaucoup à auditer et nous n'avons trouvé aucun souci de configuration », souligne la DSI. Akamai a également mis en place d'autres mesures pour réduire le risque lié à des logiciels tiers, notamment la micro-segmentation, l'authentification basée sur l'identité et le renforcement des contrôles d'accès.

Contrats, audits et SBOM

Au-delà de la protection de l'architecture de l'entreprise contre les mises à jour dangereuses et les logiciels présentant des risques structurels, les entreprises peuvent prendre d'autres mesures pour protéger leur supply chain applicative, à commencer par le choix du fournisseur et le contrat. « Je suis un DSI dans une position enviable, car nous vendons des solutions de sécurité qui fonctionnent très bien, explique Kate Prouty. Notre équipe juridique sait exactement ce qu'il faut demander lors de la négociation des contrats. Si une entreprise n'est pas disposée à nous fournir ce dont nous avons besoin pour assurer la sécurité de notre entreprise, nous ne faisons pas affaire avec elle ».

Selon l'Agence pour la cybersécurité et la sécurité des infrastructures (CISA pour Cybersecurity and Infrastructure Security Agency, qui appartient au Department of Homeland Security), il est difficile pour les fournisseurs d'investir dans la sécurité si les clients ne le demandent pas. Cela signifie que, outre la création d'une philosophie de type 'secure by design' chez les éditeurs, l'industrie a également besoin d'une philosophie 'secure by demand' émanant des acheteurs de solutions.

Dans le cadre de cet effort, la CISA a publié en août un guide d'acquisition de logiciels destiné aux entreprises gouvernementales, qui pourrait servir de modèle aux entreprises en général. Ce document aborde quatre aspects : les supply chain logicielles, les pratiques de développement, le déploiement et la gestion des vulnérabilités. L'agence indique que le document doit aider les organisations à mieux comprendre l'approche de leurs éditeurs en matière de cybersécurité et à s'assurer que l'approche 'secure by design' est bien au centre de leurs préoccupations.

Après la panne Crowdstrike, Akamai a commencé à revoir tous ses contrats avec ses fournisseurs pour s'assurer qu'ils intégraient bien toutes les protections nécessaires. « Nous sommes encore en train de tout examiner », précise Kate Prouty. Une fois encore, il ne suffit pas de croire les fournisseurs sur parole pour s'assurer de leur niveau de sécurité. Akamai, par exemple, utilise des outils qui vérifient la configuration des solutions logicielles dans le cloud et effectuent d'autres contrôles de sécurité. « Ces outils n'élimineront pas le risque, mais ils le réduiront de manière significative », explique la DSI.

Une autre approche à laquelle les entreprises ont de plus en plus recours consiste à demander aux fournisseurs une nomenclature des logiciels (SBOM pour Software bill of materials), qui permet de répertorier tous les composants et bibliothèques embarqués. Selon une étude d'Anchore, spécialisée dans l'analyse de la composition des applications, publiée en novembre dernier, 78 % des entreprises prévoient d'augmenter leur utilisation des SBOM au cours des 18 prochains mois.

Renforcer la résilience

Mais toutes ces précautions ne peuvent que réduire les risques, pas les éliminer. C'est pourquoi Akamai anticipe également les pires scénarios et organise des exercices pour évaluer sa capacité à réagir rapidement et isoler les domaines à améliorer. Immédiatement après la panne de Crowdstrike, par exemple, Akamai a organisé un exercice fictif. Objectif : analyser les conséquences d'une panne de type Crowdstrike sur ses activités.

« Si cela nous était arrivé, à quoi cela ressemblerait-il ? L'exercice a même consisté à exécuter le processus de remédiation de Crowdstrike. L'exercice a fonctionné et Akamai aurait été en mesure de se rétablir si la mauvaise mise à jour avait échappé aux contrôles », indique Kate Prouty.

Selon Charles Clancy (Mitre), les entreprises devraient être plus nombreuses à effectuer ce type d'exercices de préparation. « Vous devez maîtriser votre plan d'intervention en cas d'incident ainsi que votre plan de communication, et ne pas vous contenter de les mettre par écrit, mais les pratiquer pour que ces compétences soient affutées », dit-il.

En outre, il est important de ne pas impliquer uniquement l'équipe de sécurité dans ces exercices. « En cas d'incident, c'est toute l'entreprise qui est touchée, ajoute-t-il. Les DSI doivent faire participer les autres cadres de l'entreprise à ces exercices et aux plans d'intervention en cas de catastrophe. Dans le monde réel, ce sont eux qui prennent les décisions, et non un responsable de la réponse aux incidents, situé trois niveaux de hiérarchie plus bas. »

La résilience est d'autant plus importante que les entreprises ne peuvent pas toujours tester tous les logiciels tiers. « Il n'est pas possible d'auditer de manière indépendante chaque mise à jour de logiciel, explique Charles Clancy. La meilleure chose à faire est de mettre en place des plans d'action pour répondre et se rétablir si quelque chose comme [la panne de Crowdstrike] se produit. » L'enquête d'Adaptavist montre que 84% des entreprises n'avaient pas de plan de réponse aux incidents avant la panne du fournisseur d'outils de sécurité. Et parmi celles qui disposaient d'un tel plan, seules 16% l'ont jugé efficace pendant la crise. Heureusement, la situation est peut-être en train de changer.

Après la panne, 54% des entreprises ont déclaré être en train de mettre en oeuvre un plan de réponse à incident ou investir davantage dans celui qu'elles ont déjà. En outre, près de la moitié d'entre elles introduiront ou augmenteront leurs investissements dans diverses mesures de test et dans des technologies de monitoring ou d'observabilité au cours des 12 prochains mois.

En passer par la législation

Pour Guy Moskowitz, PDG et cofondateur de Coro Cybersecurity, le principal problème réside dans le fait que les fournisseurs privilégient la rapidité et les profits plutôt que les meilleures pratiques. « Crowdstrike publie une douzaine de mises à jour par jour », souligne-t-il. Autant d'occasions pour que les choses tournent mal. « J'espère que la législation recommandera, voire exigera, que toutes les entreprises de cybersécurité mettent immédiatement en oeuvre des garde-fous sur leurs environnements de test dans le cadre de leur processus de mise à jour des logiciels, ajoute-t-il. De cette façon, elles pourront détecter tout incident dans un environnement sécurisé avant de diffuser la mise à jour à grande échelle auprès de leurs clients.

Il n'est pas le seul à réclamer une action gouvernementale. Dans l'enquête d'Adaptavist, 47% des personnes interrogées déclarent qu'elles sont plus favorables qu'avant aux réglementations relatives à la cybersécurité et à la résilience. Une proportion similaire se dit également plus favorables aux réglementations relatives à l'assurance qualité des logiciels. En outre, 49 % des personnes interrogées plaident pour une obligation de signaler les incidents.

En août, un comité de l'Association for Computing Machinery (AMC, une association de professionnels du secteur regroupant plus de 110 000 adhérents) a publié une déclaration appelant à une enquête approfondie sur l'incident afin que les entreprises privées et les régulateurs puissent apprendre comment renforcer l'infrastructure cyber, améliorer les programmes de réponse aux incidents et les processus de remédiation, renforcer la coordination et la coopération internationales et développer des processus de réclamation pour ces incidents.

« Lorsque des erreurs se produisent, elles peuvent être graves - et il s'agissait en l'espèce d'un incident très grave », souligne Jody Westby, vice-présidente de ce comité (Technology Policy Committee) de l'AMC. « Les entreprises ont dû réinitialiser leurs systèmes et il leur a fallu des semaines pour s'en remettre », ajoute-t-elle

IA : la future catastrophe ?

Mais, individuellement, les clients ne peuvent pas faire grand-chose, dit-elle encore. « Les grands fournisseurs ne vont pas avoir 5 000 contrats différents pour leurs 5 000 clients. Dans certains cas, nous pouvons imposer des clauses contractuelles et dire : 'vous nous enverrez un rapport SOC 2 chaque année et vous attesterez que vous avez mis en place tous ces contrôles'. Il se peut que les fournisseurs acceptent, mais vous ne saurez pas vraiment ce qu'il en est. Il y a des limites à la due diligence ».

L'incident Crowdstrike a mis en évidence la nécessité d'une meilleure assistance de la part des pouvoirs publics, selon Jody Westby. L'AMC affirme qu'il existe déjà, aux Etats-Unis, une organisation qui semble particulièrement bien placée pour mener une enquête sur l'incident et en publier les résultats : le Cyber Safety Review Board (CSRB), dépendant de la CISA. Dans sa déclaration, l'ACM a exhorté le gouvernement américain à fournir au CSRB les ressources dont il a besoin pour mener à bien cette enquête. Au lieu de cela, le ministère de la sécurité intérieure l'a tout simplement dissous en invoquant une « mauvaise utilisation des ressources ». Tout comme a été démantelé le Bureau de la sécurité et de la sûreté de l'IA (AI Safety and Security Board).

Ce qui pose un problème car, comme dans le cas de Crowdstrike, il existe une dépendance croissante des entreprises à l'égard d'un petit nombre de fournisseurs. ChatGPT d'OpenAI, Claude d'Anthropic, Gemini de Google et Llama de Meta sont à la base de presque toutes les applications d'IA d'entreprise, souligne ainsi Chuck Herrin, RSSI de la société de sécurité F5. « Notre empressement à adopter l'IA sans investissement correspondant dans la sécurité et la résilience suggère que nous nous préparons à des échecs potentiellement catastrophiques qui pourraient faire passer, rétrospectivement, l'incident Crowdstrike comme un événement mineur », dit-il.