Vous vouliez le faire pour votre BI. Vous envisagez de le faire avec l’IA. L’exploitation de vos données froides, à des fins d’analyse, de conception de nouveaux services, de compréhension des évolutions de marché et des habitudes de consommation a des allures d’arlésienne. Entre les difficultés de localisation et d’accès aux données archivées et le coût potentiel des infrastructures dédiées à vos projets IA, les données froides continuent surtout de dormir profondément.
Pourtant, avec la puissance de ses algorithmes, l’IA change vraiment la donne. Plus pertinente, plus performante, la technologie représente un potentiel d’extraction de valeur jamais atteint jusque-là. Le moment de réveiller son patrimoine informationnel est peut-être arrivé.
Une mémoire de l’entreprise en dormance
Les organisations conservent et archivent la donnée pour des raisons principalement réglementaires. Variables selon la nature des documents et les textes applicables, les durées de rétention imposées ont vocation à permettre tout contrôle utile, sur de nombreuses années en arrière parfois.
Avec l’augmentation galopante de la donnée produite en entreprise, l’archivage est un enjeu sans cesse renouvelé, à plusieurs titres : le choix des technologies de stockage, leur coût et leur évolution, leur pérennité, la mise en œuvre d’une gestion documentaire, la gouvernance de la donnée, et bien évidemment, leur potentiel d’exploitation.
S’il est relativement facile de faire travailler la donnée de production avec une gouvernance bien étayée et la présence effective d’un chief data officer (CDO), la donnée froide, stockée sur des supports lointains et parfois déconnectés, échappe généralement à tout traitement. Une fois que les délais réglementaires sont écoulés, dans quelle mesure alors est-il pertinent de conserver encore la donnée ? Au fond, la conscience de l’existence d’un patrimoine informationnel riche inexploré subsiste dans l’entreprise. Sa suppression n’est jamais naturelle. Elle induit le risque de faire disparaître une mémoire que l’on espère toujours pouvoir exploiter. Mais elle s’oppose également à de nouvelles obligations, tout aussi impérieuses, telles que la protection de l’environnement et le combat contre le réchauffement climatique, qui interrogent le sens d’une conservation de lourds volumes de données inexplorées.
L’approche « au cas où » et l’avènement de l’intelligence artificielle
Toutes les organisations font le pari de l’apparition d’un algorithme suffisamment puissant pour monétiser la donnée archivée. Les promoteurs de l’intelligence artificielle sont d’ailleurs convaincus de sa réussite à terme.
Pour l’entreprise, l’exercice repose sur 3 piliers : la démonstration d’une valeur ajoutée, le secteur concerné, l’accessibilité de la donnée. Les demandes d’infrastructures de stockage dédiées à l’IA sont très clairement en augmentation. Nous constatons une sortie des phases de tests auprès des hyperscalers et le lancement d’études pour l’édification d’architectures spécifiques à l’IA on-premise. La problématique principale repose sur le sizing de ces infrastructures, qui ne peut s’appuyer ni sur un besoin clair (que les entreprises ne parviennent pas toujours à définir) ni sur la structure des ressources requises par les algorithmes employés. À ce jour, il serait simple de déclarer que l’IA requiert les plus hautes performances, les meilleurs composants, les réseaux les plus rapides… une analyse qui se heurterait vite au mur de la réalité, fait de budgets serrés et de compétences datascientists rares.
Les IA génératives généralistes, basées sur les grands modèles de langage, n’ont pas d’autre vocation que de devenir des outils de productivité et de bureautique. Seuls les modèles spécialisés peuvent présenter un intérêt concret aux entreprises souhaitant faire travailler leurs données selon leurs activités et leurs secteurs : le BIM dans la construction, la collecte de données de santé des infrastructures en services managés, le legaltech sur les fonds juridiques propres des éditeurs juridiques, la détection précoce de maladies, etc. Les avantages des modèles de petite taille sont par ailleurs nombreux : une empreinte carbone, des coûts opérationnels et une consommation d’énergie plus faibles ainsi qu’une sensibilité moindre au risque hallucinatoire.
L’accessibilité longue durée aux données en question
Reste l’accessibilité de la donnée archivée. Si « l’argent n’est pas un problème », la donnée archivée en ligne est naturellement la promesse d’une ré-exploitation facilitée. Ce n’est généralement le choix de personne compte tenu des coûts associés.
Les volumes sont tels que le coût du stockage doit rester maîtrisé, c’est pourquoi la bande a longtemps eu la préférence, conservée dans un site distant protégé des conditions de dégradation les plus variées. Rejeton de l’archivage papier, la bande continue d’avoir quelques adeptes et d’être régulièrement proposée. Mais sa fragilité et surtout sa ré-exploitation particulièrement délicate (compte tenu de l’absence de technologie de restauration en entreprise) n’en font pas le candidat idéal à la consommation de données froides à des fins de datascience.
Sous format fichier à 99 %, les données froides sont conservées désormais sur du disque. Les deux grands protocoles fichiers (NFS sous Unix et Linux et CIFS/SMV sous Windows) ont peu évolué et autorisent, dans une majorité de cas, une lisibilité pendant de nombreuses années. Toutefois, parce que l’archivage repose sur des durées longues, de l’ordre de 20 ans, il demeure complexe de garantir la lecture de formats très vieillissants. La problématique se pose notamment dans tous les secteurs exploitant des logiciels exotiques mais également pour des versions très anciennes de logiciels aussi courants que Microsoft Office.
Stocker en rythme
En conséquence de quoi, le temps reste le paramètre intangible des données froides. Si l’on a pu lire, ici ou là, que les données perdaient de leur valeur de production de plus en plus vite ces dernières années, ce n’est pas ce que nous remarquons sur le terrain, auprès de nos clients. La constitution des plans de sauvegarde montre que les délais de rétention des données actives n’ont pas particulièrement évolué. En revanche, les entreprises ont tendance à conserver leurs données à portée de main plus longtemps afin d’en faciliter la ré-exploitation.
C’est pourquoi, du strict point de vue de l’architecture de stockage, il devient pertinent de se doter d’une infrastructure composée d’un tiers de stockage de production performant désormais basé sur des technologies Flash de type TLC, d’un tiers de stockage capacitif basé sur des technologies de type disques dur ou Flash de type QLC, stockage orienté objet, et d’un tiers d’archivage sur bandes, disques ou dans le Cloud, associés à des outils d’automatisation du déplacement de la donnée. Si le rôle des CDO est de faire parler les données, l’exercice impose une gymnastique de déplacement des stocks, une réplication nécessaire sur du stockage performant ainsi qu’une gouvernance rigoureuse veillant à détruire cette donnée répliquée une fois son exploitation réalisée. La gestion électronique documentaire et l’archivage électronique des documents sont des solutions métiers qui complètent efficacement le processus, au service de la conformité certes mais aussi de la ré-employabilité de la donnée.
Entre progrès des algorithmes et innovations dans les technologies de stockage, les efforts consentis dans la bonne gestion du patrimoine informationnel de l’entreprise porteront à terme leurs fruits.