Tribunes

Classifier les informations pour en faire un véritable actif d'entreprise

PublicitéLa quantité exponentielle d'informations produite par les entreprises exige de nouveaux outils pour mieux la comprendre, la gérer et en faire un vecteur de création de valeur. La classification est une technologie permettant de solutionner cet enjeu - devenu un véritable challenge de management. La classification rend en effet les informations plus intelligibles ; les entreprises sont alors en mesure de les gérer plus globalement, de définir différents niveaux et principes de stockage et de mener de nouvelles activités de découverte, de mise en conformité réglementaire et de gestion documentaire au sens large. Plus facile à dire qu'à faire objecterez-vous... Historiquement, les outils de classification ont essentiellement servi à catégoriser des applications - y compris celles reposant sur des bases de données structurées - pour leur affecter des cibles de stockage spécifiques. Ce type de classification répond généralement à des objectifs de continuité, de disponibilité et d'activité de support de haut niveau. En revanche, les directions informatiques ne disposaient pas d'outils simplement accessibles de découverte et de récupération d'informations par fichier ou contenu spécifique. Cette problématique se pose avec une particulière acuité pour les données non structurées qui restent les plus complexes à classifier - pour les directions informatiques comme pour les éditeurs de logiciels de gestion documentaire. En effet, dépourvues des traditionnelles lignes et colonnes, elles sont susceptibles d'intégrer des documents de traitement de texte, des fichiers PDF, des images, etc. Des technologies ont récemment émergé pour aider les entreprises à créer plus économiquement de la valeur à partir de leurs informations ; ce processus débute par la compréhension et la classification des informations qui conditionne leur degré de priorité et leur administration proactive. Comprendre avant de gérer... Revenons tout d'abord sur les définitions des principaux termes de la classification documentaire, à savoir : catégorisation, catalogage, classification, mise en cluster et taxonomie.  Catégorisation, catalogage et classification - La classification était utilisée dans une acception légèrement différente mais ce sont aujourd'hui trois termes généralement interchangeables. En matière de gestion documentaire, il s'agit de processus associant des fichiers à des métadonnées et/ou contenus (thème, nom utilisateur, dates de création et modification, contenu, types de contenus, etc.). Cette organisation permet aux utilisateurs de mener des recherches en fonction de divers paramètres pour récupérer des informations enregistrées et les administrer en fonction de classifications spécifiques - qui identifient également les éléments communs afin d'éliminer les redondances.  Mise en cluster - Fichiers de groupes de cluster basés sur des similitudes de mots ou d'autres informations connexes. Les algorithmes de mise en cluster intègrent le traitement du langage naturel, des analyses statistiques bayésiennes, etc.  Taxonomie - Les taxonomies structurent les informations en hiérarchies logiques pour séparer les données en classes spécifiques en fonction de caractéristiques communes. Chaque entreprise peut ainsi construire une hiérarchie spécifique à ses besoins : par département (siège, R&D, juridique, etc.), par application (base de données, e-mail, back-office, etc.), par type (information, transaction, gouvernance), etc. Les données appartiennent souvent à plusieurs catégories de la taxonomie. Les entreprises peuvent élaborer des taxonomies basées sur les phases du cycle de vie et, au sein de ces taxonomies, classer les informations par métadonnées et contenus. La structure taxonomique permet en outre de mettre en oeuvre des schémas de stockage multi-niveaux avec classes hiérarchiques. La classification permet aussi de regrouper les informations à des fins d'administration - en fonction de règles associées à chaque catégorie - et facilite les recherches dans des catégories plus fines basées sur la classification initiale. Les outils de classification existent depuis quelque temps déjà et leur sophistication va de simples processus manuels au terme desquels les utilisateurs ouvrent « physiquement » les fichiers pour consulter leur contenu et les affecter à une catégorie, jusqu'à des outils plus avancés et automatisés capables d'identifier la nature des informations à partir d'un certain nombre de paramètres (ou règles). Certaines entreprises prétendent pouvoir classifier automatiquement plusieurs centaines de types de fichiers. Cependant, en tant que telle, la classification n'est pas une fin en soi : l'enjeu ultime est l'utilisation finale des informations ainsi catégorisées. Par le passé, les outils de classification ont été intégrés à des outils d'administration des processus. Les fonctionnalités de classification utilisables par les directions informatiques pour gérer le stockage, la conformité réglementaire et les recherches d'entreprise ne sont cependant pas monnaie courante - même si cela commence à changer. Classification - Un tout nouveau modèle Penchons-nous sur les nouvelles technologies de classification offertes aux entreprises et sur les différents thèmes d'implémentation : stockage multi-niveaux, gestion du cycle de vie des informations, réduction des risques, conformité, découverte automatisée, gestion de projet. Scénario 1 - Stockage multi-niveaux/Gestion du cycle de vie des informations Les stratégies d'administration du cycle de vie supposent de déployer des solutions de stockage multi-niveaux en fonction de la priorité des informations, de leur valeur et de leur état de cycle de vie. Avant d'affecter les données à un niveau de stockage et de créer des politiques de migration, l'entreprise doit donc classer ses informations en fonction de critères de cycle de vie. Certains d'entre eux (date de création) sont très simples à identifier mais les objectifs de création de valeur et les contraintes réglementaires imposent des challenges beaucoup plus conséquents aux environnements étendus de gestion documentaire. Dans ce contexte les outils modernes de classification jouent un rôle crucial dans la stratégie générale de gestion du cycle de vie des informations. Scénario 2 - Réduction des risques Les banques utilisent la classification pour réduire leur exposition au risque. Leur approche consiste à gérer des droits d'accès numériques, cryptés et hautement sécurisés aux différentes catégories d'informations. À l'aide de logiciels de classification fonctionnant avec n'importe quelle structure de données, les établissements bancaires peuvent définir plusieurs catégories : des plus sensibles et à haut risque, aux informations moins sensibles mais soumises à réglementation présentant un risque moyen, et enfin les informations marketing et autres données de support présentant un risque plus faible. Les informations les plus sensibles exigent des niveaux avancés de sécurisation, de protection et de cryptage. Dans un contexte où les enregistrements transactionnels de millions de clients doivent être sauvegardés, ce processus doit se fonder sur un logiciel de classification performant. Scénario 3 - Conformité réglementaire et découverte Les compagnies d'assurance sont coutumières du suivi des réglementations et de la « découverte légale » environnant les investigations et poursuites liées à leurs clients. Les nouveaux logiciels de classification permettent d'organiser ces informations dans une taxonomie fondée sur les exigences réglementaires et les cibles habituelles de découverte. Dans la structure taxonomique, l'entreprise peut ensuite affiner le classement des informations en fonction du type de données ou du contenu. Cette organisation préserve la conformité et aide à traiter rapidement et économiquement les requêtes de découverte. Scénario 4 - Gestion de projet Les laboratoires pharmaceutiques classent leurs informations de R&D dans un portefeuille de projets afin de parfaitement administrer et maîtriser les informations au cours d'un processus de développement étroitement contrôlé. Sans la possibilité de classer et retrouver intelligemment de grandes quantités d'information, les laboratoires s'exposeraient à des poursuites, de lourds dédommagements et/ou à d'importantes pénalités de non-conformité. Principes de fonctionnement Les dernières technologies de classification apparues sur le marché permettent de catégoriser les informations d'entreprise et ne sont plus confinées à un seul type de structure de donnée ou de cible de stockage. Cependant, même ces nouvelles solutions, sont incapables d'« inventer » une classification en partant de rien... Les directions informatiques et métier doivent donc décider des structures de classification et de taxonomie à adopter pour maximiser la création de valeur pour l'entreprise. Il convient notamment de se poser les questions suivantes :  Qui a le droit d'accéder aux informations ?  Comment ces droits sont-ils affectés à différents stades du cycle de vie ?  Qui est responsable de la maintenance des informations ?  Quels sont les enjeux légaux ou réglementaires de la protection des informations ?  Quelle est la valeur des informations ?  Quel est le niveau de risque de vol, de perte ou de dommage ?  Où les informations doivent-elles être stockées ?  Quels schémas et taxonomies de classification sont les mieux adaptés ? Il est indispensable de connaître les réponses à ces questions pour définir des politiques et des règles grâce à des logiciels de classification de prochaine génération et pour réaliser un déploiement permettant de comprendre, classifier et affecter tous les types d'informations rencontrés. Après la définition des règles, les solutions de classification permettent aux entreprises d'affecter automatiquement les informations aux classes idoines ; pour cela, le logiciel scanne les sources de données pour traiter les informations (y compris celles qui préexistent). Il est alors possible de réaliser de manière simple et économique les opérations clés d'archivage, de gestion du cycle de vie et de définition de niveaux de stockage. La clé d'une gestion performante des informations consiste avant tout à les comprendre... Compte tenu du volume considérable de données que doivent manipuler les entreprises, cette compréhension exige de nouvelles technologies de classification - utilisables avec des données structurées ou non - afin de maximiser la création de valeur, de satisfaire les exigences de découverte et de conservation des données et de limiter l'inflation des besoins de stockage. Cette prise de conscience aide les entreprises à réduire les coûts d'administration des informations à tous les niveaux.