Technologies

L'incendie d'un datacenter en Corée relance le débat sur la sécurité de batteries Li-ion

L'incendie d'un datacenter en Corée relance le débat sur la sécurité de batteries Li-ion
Le datacenter du NIRS coréen à Daejeon, à 140 km au sud de Séoul. Le 25 septembre, l’équipement a été victime d’un incendie causée par l'explosion d'une batterie lithium-ion lors d'une opération de maintenance. (Photo : Google Maps)

Provoqué par l'explosion d'une batterie Lithium-ion, l'incendie d'un datacenter en Corée a mis hors-service plusieurs centaines de services du gouvernement. La restauration totale des systèmes va demander 4 semaines.

PublicitéOVH puissance 10 ? Un incendie catastrophique au datacenter du Service national des ressources informatique (National Information Resources Service ou NIRS) de Corée du Sud a paralysé 647 systèmes gouvernementaux pendant près d'une semaine. 96 d'entre eux ont été détruits et 551 ont été arrêtés préventivement. Ce sinistre a révélé des vulnérabilités critiques dans la reprise d'activité après sinistre et dans les protocoles de sécurité des batteries. Selon les analystes, ces vulnérabilités devraient attirer l'attention immédiate des DSI du monde entier.

L'incendie du 26 septembre, déclenché par l'explosion d'une batterie lithium-ion lors d'une maintenance de routine d'un onduleur dans le centre de Daejeon, à 140 km au sud de Séoul, a paralysé des services gouvernementaux essentiels, notamment les services bancaires, postaux, de vérification d'identité et d'urgence. Le 30 septembre, seuls 87 services avaient été rétablis, les autorités prévoyant un délai de rétablissement maximal des autres systèmes... de quatre semaines, selon l'agence de presse Yonhap. La restauration concerne 21 des 36 services jugés essentiels, du fait de leur impact ou de leur nombre d'utilisateurs, comme les services bancaires de la poste nationale ou le portail gouvernemental Gov.kr. La panne a perturbé la vérification d'identité pour les banques et les aéroports, les services postaux, les réseaux de transport et l'intranet interne Onnara du gouvernement.

Par ailleurs, le même jour, l'opérateur de réseau britannique Openreach a émis une directive d'urgence donnant aux fournisseurs de communications un délai de 48 heures pour retirer toutes les batteries au lithium des échanges BT « en raison des risques importants d'emballement thermique, d'incendie et d'explosion », selon ISPreview.

Un incendie qui a duré 22 heures

L'incendie s'est déclaré lors d'un exercice de réduction des risques : le déplacement de batteries d'onduleurs d'une salle de serveurs du cinquième étage vers le sous-sol afin de les isoler de l'infrastructure informatique critique. L'incendie trouve son origine dans une batterie d'onduleur débranchée pour être déplacée. L'explosion a déclenché un emballement thermique, libérant une chaleur extrême qui a compliqué les opérations de lutte contre le feu. Les autorités ont d'abord évité d'utiliser de l'eau pour éviter d'endommager les données, optant plutôt pour la suppression du feu au dioxyde de carbone - une décision qui a contribué à la durée de l'incendie (22 heures au total), selon le Korean Herald. 384 batteries lithium-ion ont été détruites, ajoute le rapport.

Les batteries, fabriquées par LG Energy Solution et installées en 2012-2013, avaient dépassé leur durée de vie de 10 ans malgré des inspections de sécurité réussies en juin, toujours selon le Korea Herald. Citant des experts du secteur, le rapport indique que des ouvriers pourraient avoir débranché des câbles sans couper correctement le courant, provoquant des pics de tension dans le système.

PublicitéLe président coréen Lee Jae Myung a présenté des excuses publiques dimanche, qualifiant l'incident de « prévisible » et critiquant l'insuffisance des systèmes de secours. Mardi, il a ordonné des inspections complètes des infrastructures de toutes les agences gouvernementales.

Le calcul du risque lié au lithium-ion

Les événements coréens mettent en lumière une évolution technologique à l'échelle du secteur. Les batteries lithium-ion devraient représenter 38,5 % du marché des batteries pour centres de données d'ici 2025, contre 15 % en 2020, selon le cabinet Frost & Sullivan « À mesure que les systèmes lithium-ion gagnent du terrain, les exigences de sécurité doivent être renforcées, souligne Tanvi Rai, analyste senior chez Everest Group. Il est essentiel d'isoler les modules de batterie des serveurs, de déployer des systèmes de détection précoce des écarts de température et des gaz, d'utiliser des systèmes d'extinction conçus pour les défaillances des systèmes lithium-ion et d'adopter des protocoles opérationnels rigoureux. »

Selon un article du Korean Herald, 55 incendies liés à des onduleurs ont été déclarés en Corée du Sud entre 2018 et octobre 2022. Le rapport souligne que les systèmes d'onduleurs présentent souvent des conceptions de sécurité plus simples que les systèmes de stockage d'énergie à grande échelle, les batteries étant fréquemment logées à proximité des serveurs. Chez NIRS, les batteries étaient positionnées à seulement 60 cm des serveurs.

Pour Himanshu Mhatre, analyste senior chez Everest Group, c'est l'ensemble des méthodes d'extinction d'incendies qui doivent être repensées. « Les systèmes à agent propre (ne laissant pas de résidus à l'évaporation, NDLR), tels que Novec 1230 ou Inergen, associés à un refroidissement par brouillard d'eau haute pression, sont bien plus efficaces que les sprinkleurs classiques contre les incendies de systèmes lithium-ion », dit-il. Les installations devraient aussi intégrer des panneaux de protection contre les explosions et une ventilation renforcée afin de réduire les risques de défaillance systémique, ajoute-t-il.

Mikhail Jaura, analyste spécialiste de l'infrastructure cloud chez IDC Asie/Pacifique, souligne que des incidents majeurs comme celui survenu en Corée pourraient temporairement ralentir l'adoption de ces technologies par les organisations réticentes au risque. « Cependant, je m'attends à ce que la dynamique générale du marché se poursuive, portée par le besoin d'une efficacité et d'une densité accrues dans les datacenters compatibles avec l'IA, pronostique-t-il. Les fournisseurs proposent de plus en plus de solutions de sécurité intégrées pour les systèmes d'alimentation sans interruption lithium-ion, et la surveillance réglementaire s'intensifie. »

Lacunes dans la reprise après sinistre

Au-delà de la chimie des batteries, l'incendie de Daejeon souligne ce que les analystes décrivent comme une vulnérabilité critique de l'architecture de reprise après sinistre. Le NIRS exploite trois sites géographiquement dispersés hébergeant environ 1 600 systèmes gouvernementaux. Cependant, plus de 647 systèmes, soit plus d'un tiers, étaient concentrés sur le site de Daejeon. Lorsque l'incendie s'est déclaré, ces 647 systèmes ont été mis hors service simultanément.

Le Korea Herald, citant des experts du secteur, a montré que le site ne disposait pas d'une architecture permettant un basculement en temps réel entre deux serveurs. Citant le ministre de l'Intérieur, Yun Ho-jung, l'article du journal coréen ajoute que la relocalisation des 96 systèmes détruits vers une infrastructure cloud située ailleurs prendrait quatre semaines, soit le double des estimations initiales.

« La récente panne confirme que la centralisation excessive favorise la vulnérabilité systémique », dit Tanvi Rai. Les entreprises devraient s'orienter vers une topologie hybride, en conservant des installations centrales évolutives lorsque cela est nécessaire, mais en les associant à des noeuds de basculement répartis régionalement, à une segmentation des services et à une reprise après sinistre intégrée. »

Tester et retester les plans de reprise

Kasthuri Jagadeesan, directrice de recherche chez Everest Group, indique que les entreprises devraient auditer les risques liés à la centralisation des systèmes en cartographiant les interdépendances entre les onduleurs, les systèmes de refroidissement et les zones d'alimentation partagée. « Le cas du NIRS illustre que la redondance seule ne peut pas protéger contre une compartimentation insuffisante », dit-elle, soulignant que les pannes peuvent coûter des millions par heure.

« La redondance géographique n'est efficace que si les processus de bascule sont testés et que le personnel est formé à les exécuter sous pression, ajoute Mikhail Jaura. Les DSI doivent valider que les plans de reprise après sinistre sont opérationnels et non théoriques. Cela implique des tests réguliers et réalistes, un engagement de plusieurs fonctions dans l'entreprise et une amélioration continue. »

Pour Tanvi Rai, « ce qui est susceptible de changer, c'est que les entreprises exigeront des certifications de sécurité et une responsabilisation des fournisseurs plus strictes, et accéléreront les investissements dans la planification de la reprise après sinistre, la redondance géographique et les frameworks de résilience. »

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis