Résilience des entreprises : des processus métier critiques au système d’information

Retours d'expérience
Comment construire et développer la résilience de son entreprise ?

Pourquoi doit-on parler de résilience des entreprises ?

Les entreprises évoluent dans un contexte d’incertitudes exacerbées sur les changements et aléas possibles issus de nombreux domaines :

  • Réglementaire (Français, Européen, Mondial)
  • Taxes et fiscalité (France et international)
  • International (conflits militaires ou économiques, taxes aux frontières, risques militaires et sociaux sur des routes de transport, risques sur les activités mondialisées …)
  • Technologiques (impact des évolutions technologiques, risques inhérents aux technologies, …)
  • Sécurité (physique, données, IT …)
  • Sociétal (évolution des comportement et modèles de décision / de consommation des individus / des entreprises ; évolutions des besoins et modes de consommation ; évolution des valeurs …)
  • Marché (baisse de la consommation, dégradation de l’image de marque de l’entreprise, concurrence prix, concurrence innovation, …)
  • Environmental (impacts des changements climatiques / impacts de la pollution / consommation des intrants et de l’énergie, …)
  • Fournisseurs (défaillance qualité, défaillance économique, changement stratégique …) 
  • Concurrence (innovation, fusions acquisitions, outsiders et startups …)
  • Pannes, sinistres, accidents (pannes des moyens industriels ou IT, incidents majeurs : incendie, inondation, coupure électrique, pollution locale, accident de personnes, ruptures de canalisations, accident de transport, maladie / pandémie / décès,  …)
  • Financier (notation des analystes, comportement du marché des porteurs et investisseurs, fluctuation des placements, confiance du marché et des banques, trésorerie, incidents de paiement, augmentation des charges fixes, baisse du CA, litige client ou collaborateur, …)

Ces incertitudes impactent les entreprises d’une part dans leur capacité à se projeter et à définir leur propre vision stratégique, d’autre part sur leur capacité à gérer les risques qui menacent leur activité.

Par ailleurs, les gouvernements poussent les entreprises « critiques » de chaque pays à apporter des garanties de continuité de leurs activités par des normes et des réglementations. Par exemple :

  • Dans le secteur bancaire/assurance avec la récente arrivée de DORA
  • Dans le secteur assurance : Solvency II
  • Dans le secteur de la santé : Les plans blancs, ORSAN
  • Dans le secteur des transports : Directives de cybersécurité ferroviaire, cadres d’homologation des SIV …
  • Dans le secteur public : La loi de programmation militaire « cyber »
  • Pour tous les secteurs : Les normes ISO 9001 (gestion qualité et résilience), ISO27001 (gestion des risques numériques – données et SI), NIS2 (cybersécurité), ISO 22301 (continuité d’activité), ISO 31000 (gestion des risques).

Ces aspects règlementaires imposent des exigences aux entreprises, sans nécessairement guider ces dernières sur la manière de faire.

C’est quoi la résilience d’une entreprise ?

La résilience d’une entreprise désigne sa capacité à anticiper, réagir et s’adapter face aux perturbations et aux crises. La résilience en entreprise prend tout son sens dans l’environnement actuel, particulièrement instable et incertain.

La résilience d’une entreprise repose sur 2 piliers :

  • la capacité à se relever en cas d’imprévu en “protégeant ses arrières”,
  • la capacité à parier sur l’avenir et se donner un « cap stratégique » en tenant compte de l’évolution de son écosystème. 

Gérer la résilience, ok, mais on fait comment ?

Pour gérer sa résilience une entreprise doit se plier à 3 exercices :

  • Identifier et se mettre en conformité avec les cadres réglementaires liés à son secteur d’activité. Ces exigences imposées par les gouvernements tendent à rendre les entreprises des secteurs critiques plus robustes et résilientes
  • Identifier et gérer ses risques. Une large majorité d’entreprise ont intégré dans leur organisation une “Direction des risques”.
    • La direction des risques est chargée d’identifier, d’évaluer (probabilité, impact), de classer (impact, criticité), d’élaborer des « plans de maîtrise » et de suivre les risques qui menacent l’activité de l’entreprise. Les approches résultant des directions des risques sont souvent préventives en mettant en place des mesures réduisant la probabilité d’occurrence ou l’impact par des approches de « doublement » des composants critiques. En cas de survenance réelle d’un incident avec impact, l’entreprise est contrainte d’en accepter les conséquences.
    • La complexité de cette démarche est qu’elle nécessite une large palette d’expertises pas toujours simple à réunir au sein d’une direction des risques.
  • Définir un cap stratégique pour l’entreprise propice à son développement. En effet sans développement, une entreprise est rapidement menacée par son marché, ses concurrents, …

Et le système d’information de l’entreprise, il faut le rendre résilient également ?

Je propose sur la suite de cet interview de nous concentrer sur le volet « système d’information » pour la résilience de l’entreprise. Car ce système d’information, placé au cœur de l’entreprise, est un organe clé de son bon fonctionnement.

Depuis plusieurs décades, les entreprises ont compris l’enjeu porté par le système d’information pour l’activité des métiers. En ce sens, ces dernières ont mis en place un ensemble d’approches « techniques » pour assurer la continuité d’activité, en garantissant la continuité du service délivré par le SI : mécanismes de tolérance aux pannes, mécanismes de reprise sur sinistre. Ces approches sont connues sous les dénominations de PCI / PRI au niveau du SI et PCA / PRA au niveau des activités de l’entreprise. Ces approches adressent :

  • d’une part la défaillance unitaire (tolérance aux pannes) par duplication des organes critiques en réduisant l’impact en cas de panne unitaire ou en réduisant la probabilité d’avoir un impact (nécessitant une double panne)
  • d’autre part la capacité à reprendre l’activité en cas de panne multiple ou de sinistre (destruction / panne de plusieurs organes critiques simultanée) requérant généralement la mobilisation de moyens alternatifs prévus à cet effet et de procédures permettant de basculer l’activité. 

A titre illustratif, la tolérance aux pannes du système d’information a été rendue possible par des moyens préventifs tels que : les clusters, les architectures scalables à équilibrage de charge, la réplication des données, le routage des données dans les réseaux, les VIP (Virtual IP address), … ces mécanismes sont préventifs de la « panne unitaire ».

La capacité de reprise du système d’information a été rendue possible par la mobilisation d’une part par la mobilisation de moyens complémentaires (actifs ou dormants) placés sur des sites de secours, interconnectés par une architecture réseau adaptée, combinés avec des mécanismes de copie de données (réplication, sauvegarde, …). Le tout est orchestré par des procédures pour la reprise d’activité en cas de survenance effective d’un incident avec impact.

Ainsi la réponse aux risques techniques s’est matérialisée par des solutions techniques permettant de réduire la probabilité d’occurrence du risque, sans chercher à travailler l’impact métier si l’outil informatique venait à ne plus être disponible. En d’autres termes, le « mode dégradé » n’est que très rarement envisagé ou préparé dans les entreprises.

Toutefois, l’évolution des usages, des technologies et des menaces vient fragiliser ces approches « techniques » dont les modèles d’architecture semblent robustes :

  • La volumétrie des données gérées par les Système d’Information a subi une inflation très importante (conséquences du Big Data, de l’IOT, des besoins de pilotage et plus récemment des usages liés à l’IA) et il n’est pas rare de parler de dizaines ou centaines de To, voire parfois Po de données à protéger. Cette inflation de données vient fragiliser la réponse de certains mécanismes de résilience comme la sauvegarde des données. Les délais de remise en service par « restoration » se rallongent et s’éloignent des objectifs fixés par les métier (DIMA : Durée d’Interruption Maximale Admissible) et peuvent atteindre plusieurs jours.
    • Les mécanismes de réplication des données sont plus performants que ceux de la sauvegarde, mais ces techniques « copies en temps réel » propagent également en temps réel les corruptions de données ou contamination virale … Ces mécanismes ne peuvent donc pas se substituer à la sauvegarde des données
  • Les sauvegardes de données sur disque ou sur bandes externalisées ont pendant longtemps été considérées comme « sûres ». Mais les menaces qui pèsent sur les données de l’entreprise ont fortement progressé en 10 ans et les cyberattaques sont devenues plus puissantes, plus fréquentes, plus destructrices. Les attaques de type « Cryptolocker / ransomware » ciblent désormais les données de sauvegarde avant de bloquer les données de production, privant les entreprises visées de tout recours pour reprendre leur activité.
  • Ces évolutions rapides des menaces conduisent les DSI à revoir leur stratégie de sauvegarde : changement de technologies, changement d’architecture, changement des politiques, mise en place de l’immutabilité, des modalités de contrôle qualité, création d’une forteresse de stockage des images de sauvegarde. Si les nouvelles approches apportent une meilleure protection contre les cyberattaques, elles dégradent hélas la performance globale de la chaîne sauvegarde / restoration et éloignent encore un peu plus la performance obtenue des attentes de service des métiers, notamment par la mobilisation d’une étape de « sas de décontamination ».

Nous voyons sur cet exemple de la sauvegarde que la réponse technologique seule peine à répondre aux besoins des métiers. Et même si la technologie va continuer d’améliorer la performance, la volumétrie des données et la pression des menaces externes ne va cesser de croître.

Il est nécessaire d’envisager le scénario où la reconstruction du SI n’est pas possible dans des délais acceptables, nécessitant l’apport d’une réponse alternative “non technologique” aux attentes des métiers pour la reprise de l’activité opérationnelle de l’entreprise :

    • La première approche pourrait consister à réduire drastiquement le périmètre “applications et données” à remettre en place pour la relance de l’activité. Hélas la forte intrication des systèmes applicatifs et la difficulté à “trier” les données chaudes et froides rendent cette approche difficile à opérationnaliser
    • La seconde approche consiste à travailler sur les processus clés de l’entreprise.

Téléchargez notre outil de diagnostic du système d'information

Y a-t-il un piège dans le traitement de la résilience du SI ?

Les équipes métiers et les équipes IT doivent s’accorder sur le fait que la technologie ne peut pas être la réponse unique aux risques qui pèsent sur le SI des entreprises. Ces équipes doivent impérativement prévoir et anticiper le cas où le SI ne pourra pas être remis en service en totalité. Cela peut sembler contre intuitif, mais ce type de risque existe chez les industriels en cas de perte d’un site de production (une usine), l’impact n’est pas contournable : il doit être absorbé, géré … et le sera d’autant mieux si il est anticipé et préparé.

Ce travail de préparation du « Plan B » ne doit pas concerner 100% des services du SI, mais uniquement les services « vitaux » pour reprendre l’activité « cœur de métier » de l’entreprise et accepter de faire certains gestes métier de manière « manuelle » ou potentiellement inconfortable. Les activités « cœurs de métier » doivent être considérées en premier (achat, approvisionnement, vente, produire et délivrer, facturer) et les fonctions régaliennes traitées dans un 2ème temps (fonctions RH, fonctions finance, fonctions juridique et réglementaire, gestion de l’offre, gestion des fournisseurs, …)

Prenons une situation concrète. En nominal une entreprise effectue des achats et commandes fournisseur selon un processus métier défini et utilise 2 ou 3 outils du SI pour préparer, valider et envoyer des bons de commandes. En « mode dégradé », le processus de commande peut être simplifié : moins de contrôles et de validations, génération de commandes manuelles (par mail ou document bureautique) et suivi par un tableau XL (ou équivalent) le temps que le Système d’Information puisse être restitué.

L’enjeu lié à l’activation d’un mode dégradé est la reprise de l’activité de l’entreprise pour sa propre survie. Ce mode dégradé peut induire des actions manuelles, de l’inconfort, une vitesse d’exécution ralentie … mais son utilisation est transitoire, le temps pour l’entreprise de trouver la trajectoire de retour au nominal, dont la durée peut aller de quelques jours à quelques mois, voire années.

Que dois-je retenir sur les bonnes pratiques de gestion de la résilience ?

En conclusion, la résilience d’une entreprise ne peut pas être exclusivement construite sur une réduction des risques car un jour un sinistre privera l’entreprise d’un moyen clé (outil industriel, outil informatique, moyen financier, ressource experte …). L’entreprise doit, pour ses processus les plus critiques, imaginer et anticiper le « pire » et prévoir un ou plusieurs « plan B » – Sans nécessairement en faire une description détaillée, mais au moins définir les modalités de « survie ». 

L’élaboration de « Plan B » peut s’avérer simple pour certains sujets, beaucoup plus complexe pour d’autres. Prenons quelques exemples :

  • La remise en place d’un service de messagerie pour les collaborateurs peut être rapidement souscrit chez un provider : création de boite aux lettres. La situation sera dégradée car l’historique ne sera pas repris, l’identité mail sera changée … mais les collaborateurs pourront à nouveau échanger.
  • La défaillance d’un fournisseur « clé » peut être atténuée par un sourcing multi-fournisseurs et par le report des commandes sur les fournisseurs alternatifs
  • La défaillance d’un outil de production industriel peut être en tout ou partie contournée par accord avec des industriels équivalents et la mise en place de flux logistiques, le temps de réparer ou reconstruire le site sinistré
  • Sans outil de paye, la reconduite des virement de salaire du mois M-1 avant incident peut permettre d’assumer l’obligation de versement fin de mois, tout en prévoyant des ajustements à postériori une fois le retour au nominal effectué
  • La « perte » d’un collaborateur clé peut être plus ou moins rapidement substituée par la mobilisation de services d’interim ou de management de transition pour les postes clés

La « philosophie » de la résilience doit être guidée par deux principes de base :

  • Rien n’est éternel … donc tout peut s’écrouler ou être défaillant
  • Rien ni personne n’est irremplaçable  … donc il existe toujours un contournement possible, moyennant l’acceptation des imperfections associées

Le lancement d’une démarche de résilience dans une entreprise nécessite l’appui du comité de direction pour mobiliser l’ensemble des compétences de l’entreprise, dans un approche transverse. L’approche itérative et progressive est souhaitable afin d’apporter des résultats rapidement en sélectionnant les périmètres d’activité de l’entreprise à protéger. Le succès de son déroulement est étroitement lié à la compréhension des enjeux et de la problématique par les partis-prenants. 

En quoi Projexion peut vous aider à travailler sur la résilience de votre entreprise ?

Projexion peut accompagner les entreprises à mettre en place une démarche de résilience en analysant les processus clés de l’entreprise, en identifiant les dépendances fortes de ces processus à des « moyens » porteurs de risques pour les principes de « fonctionnement en mode dégradé » (approche de substitution, moyens alternatifs nécessaires, performance et faiblesses du mode dégradé, modalités de retour au nominal…), en priorisant les composants / ressources critiques de l’entreprise et en analysant les options alternatives (plan B) envisageables en cas de perte / défaillance de ces ressources critiques. Cette démarche doit donner naissance à des processus récurrents dans l’entreprise pour la maintenance et l’amélioration continue, dans la durée, de cette capacité de résilience.

Le « plan de résilience » doit être formalisé, consigné en lieux sûrs pour guider la direction de l’entreprise en situation de crise et bien entendu testé pour en valider le bon fonctionnement. 

Projexion dispose de toutes les compétences requises pour adresser le sujet de la résilience : compétences sur la modélisation et l’ingénierie des processus métier, compétences sur le système d’information, compétences en Architecture d’Entreprise, capacité d’acculturation et de formation sur le sujet !