Retour

L’importance de l’intégrité des données avant de lancer un projet d’intelligence artificielle

Gabrielle Olivier 

Rédactrice-réviseure

29 avril 2022

L’importance de l’intégrité des données avant de lancer un projet d’intelligence artificielle

Depuis les dernières années, nous avons pu assister à une montée en popularité de l’intelligence artificielle (IA) et, par extension, de l’apprentissage automatique (AA). Ensemble, l’IA et l’AA donnent un sens aux quantités de plus en plus importantes de données mises à la disposition des entreprises en leur permettant de modéliser, prédire et prescrire pour aborder des problèmes de nature variée. Par exemple, elles permettent d’améliorer la planification des itinéraires et la prévision des retards pour les processus logistiques sensibles au facteur temps, tels que la gestion de flotte, en plus de faciliter la sélection de sites pour maximiser les ventes en fonction de la demande locale et de la concurrence.

Selon Gartner, le nombre d’entreprises ayant adopté l’intelligence artificielle a explosé de 270 % au cours des dernières années et, à ce jour, plus de 37 % d’entre elles ont intégré cette technologie sous une forme ou une autre. D’ici 2028, le marché de l’IA devrait atteindre 641,3 G$, ce qui représente une augmentation spectaculaire par rapport à 2020, où le maché était évalué à 51 G$.

Intégration de l'IA statistique

 
Toutefois, l’IA et l’AA peuvent rapidement tomber dans la catégorie « shiny objects », soit quelque chose qui semble prometteur et excitant à première vue, mais qui ne vous apporte aucune valeur ajoutée au bout du compte. Il est vrai que lorsque bien utilisées, ces technologies peuvent être un atout de taille ayant l’aptitude de débloquer de nouvelles occasions d’affaires, de générer des gains d’efficacité opérationnelle importants, de rendre plus rapide et efficace la prise de décision, et d’améliorer l’expérience utilisateur en matière de produits et de services.

Malheureusement, plusieurs entreprises se sont laissé tenter d’investir dans ces nouvelles technologies sophistiquées alors qu’elles — ou plutôt leurs données — n’étaient pas nécessairement prêtes à faire ce grand saut. Par conséquent, avant d’être en mesure de bénéficier de l’AI et de l’AA, les entreprises doivent d’abord s’assurer de l’intégrité de leurs données.

Les enjeux de données dans les organisations

Plusieurs entreprises entament un projet d’intelligence artificielle sur un coup de tête en pensant, à tort, que son succès repose uniquement dans la technologie en soi ou dans le fournisseur avec qui elles font affaire. Étant impatientes d’intégrer cette nouvelle technologie dans leurs processus, elles ont tendance à brûler des étapes sans prendre en considération l’état de leur environnement de données.

Fréquemment, les organisations n’ont pas conscience que les entrepôts de données représentent le début et la fin d’un processus, et qu’il leur manque ce qu’on devrait retrouver au centre pour transformer les données brutes en informations utilisables. Cette couche du milieu, dédiée à la normalisation de ces données et passablement moins populaire que l’AI et l’AA, représente souvent un terrain inconnu pour les décideurs s’occupant de la stratégie informatique. Ainsi, les organisations doivent se contenter de données non standardisées et entreposées de manière inadéquate, ce qui complexifie leur accessibilité et leur utilisation.

Bien entendu, l’enjeu relatif au manque de normalisation des données s’accentue d’autant plus avec l’ajout de nouvelles sources de données externes, car des données multiples signifient aussi des problèmes multiples. Les entreprises courent également le risque que ces données fraîchement acquises ne soient pas de qualité. N’ayant pas en place un processus efficace de traitement des données, les scientifiques de données doivent consacrer en moyenne 80 % de leur temps à rechercher, nettoyer, normaliser et contrôler les données plutôt qu’à les contextualiser et à les enrichir. Par ailleurs, 76 % des spécialistes voient l’étape de préparation et de gestion des données comme la partie la moins agréable de leur travail.

Préparation des données pour l'analyse statistique blogue

 
Ce n’est pas sans rappeler que certaines entreprises doivent faire face à un manque flagrant de ressources et d’expertise au sein de leurs équipes en raison de la pénurie de main-d’œuvre et des coûts liés à la montée en compétence. Cette situation les empêche d’exploiter pleinement les technologies émergentes.

Tôt ou tard, ces initiatives se soldent donc par un échec ou n’atteignent pas tout leur potentiel en raison d’un manque de préparation opérationnelle et de lacunes relatives à la matière brute : les données.

Comment bien préparer ses environnements de données

Avant de se laisser tenter par des solutions technologiques sophistiquées, les entreprises devraient plutôt résoudre leurs problèmes en lien avec la variété de leurs données en investissant dans leur intégrité, soit dans leur exactitude et dans leur validité tout au long de leur cycle de vie.

« La qualité et l’intégrité des données sont essentielles pour garantir la cohérence globale des données au sein du lac pour une veille stratégique, une science des données et un apprentissage automatique précis et utiles », explique Databricks.

Heureusement, plusieurs méthodes peuvent être employées afin de contourner cet enjeu.

1. L’intégration des données à l’échelle de l’entreprise

Tout d’abord, un entreposage adéquat d’une variété de données est essentiel pour résoudre les problèmes de volume et de vitesse, lesquels affectent grandement une intégration efficace des données dans une entreprise. L’objectif ici, c’est de transformer de manière cohérente des données similaires provenant de plusieurs endroits en une norme commune et de les rassembler ensuite dans un seul lac de données.

Cela permet alors la création d’une base de données propre et standardisée au cœur d’une plateforme infonuagique d’entreprise unique, comme Databricks, Snowflake, Google BigQuery, AWS Redshift et Azure Synapse, pour n’en citer que quelques-uns. En effet, la disponibilité d’un entrepôt de données en nuage, d’analyses des données massives et de plateformes d’intelligence artificielle et d’apprentissage automatique rend la « partie technique » beaucoup plus facile, mais la dépendance à la qualité des données persiste.

Avec ce type de plateforme, les entreprises savent alors comment et où leurs données sont stockées, sous quel format et en quelle quantité. Mieux encore, étant toutes regroupées au même endroit dans un environnement entièrement automatisé, les données peuvent être facilement accessibles, ce qui optimise grandement leur utilisation.

2. L’exactitude et la qualité des données

Ensuite, les procédures d’alerte sur la qualité des données et le contrôle régulier de leur exactitude sont essentiels pour garantir la viabilité et la stabilité des algorithmes d’intelligence artificielle. Avoir accès à des données fiables est donc nécessaire pour une IA fiable. Sans IA fiable, il est impossible pour les entreprises de bénéficier de sa valeur promise, à savoir des décisions commerciales automatisées et éprouvées. À l’heure actuelle, 84 % des PDG sont préoccupées par l’intégrité de leurs données. Ce chiffre est particulièrement alarmant considérant que c’est sur celles-ci qu’ils fondent la plupart de leurs processus décisionnels. Une étude de Gartner a même trouvé que les organisations perdent 15 M$ annuellement en raison de données de mauvaise qualité.

Intégrité des données statistique

 
L’exactitude des données est d’autant plus importante étant donné que les algorithmes d’apprentissage automatique sont particulièrement vulnérables à des données manquant de fiabilité. En effet, puisque ces algorithmes utilisent de grandes quantités de données pour ajuster leurs paramètres internes et pour distinguer des modèles similaires, de petites erreurs peuvent entraîner des erreurs à grande échelle dans les résultats du système.

La qualité des données d’une entreprise est donc directement corrélée à ses résultats et à sa crédibilité. De plus, en perdant moins de temps à trier des données tierces, les scientifiques peuvent en profiter pour se concentrer sur des tâches à valeur ajoutée pour l’entreprise.

3. La contextualisation et l’enrichissement des données

Finalement, il va de soi que la technologie géospatiale est considérée comme un outil de taille dans l’arsenal des scientifiques de données. Le géocodage, les opérateurs géospatiaux et l’enrichissement des données permettent non seulement d’établir des liens et des relations entre divers éléments, mais aussi de valider rapidement les données et de leur donner un contexte.

Pour alimenter les modèles d’intelligence artificielle et d’apprentissage automatique, l’ajout d’attributs par l’intermédiaire du géo-enrichissement est, bien souvent, plus que nécessaire. En enrichissant les données avec des informations supplémentaires, comme des données géographiques, mobiles ou démographiques, une entreprise peut plus facilement contextualiser l’environnement, ce qui lui permet par la suite de valider et de corriger ses données pour, ultimement, augmenter l’efficacité de ses analyses prédictives.

Les avantages d’une entreprise géospatiale comme Korem

Pour les organisations, le fait d’acquérir, en interne, l’expertise professionnelle nécessaire à une opérationnalisation rapide des données, puis à une intégration efficace de l’intelligence artificielle peut s’avérer complexe, coûteux et énergivore. L’intelligence artificielle n’est habituellement pas une finalité, mais plutôt un moyen d’atteindre un objectif d’entreprise. On peut penser, par exemple, à la modélisation pour l’aide à la décision ou à la prescription et à la décision automatique pour augmenter l’efficacité organisationnelle.

Avant de se lancer dans une initiative coûteuse en IA ou en AA, les entreprises devraient non seulement s’assurer que leurs données sont prêtes à l’utilisation, mais aussi explorer comment la contextualisation et l’enrichissement de ces données avec des données externes peuvent améliorer à la fois leur utilisabilité et leurs capacités géospatiales. Ainsi, les entreprises pourront complémenter et améliorer leurs algorithmes de modélisation et de décisions automatiques.

En vous fiant à l’expertise de Korem, qui englobe l’intégration de données, le géocodage, l’enrichissement de données externes, l’analytique géospatiale, le Data-as-a-Service (Daas) et la science des données spatiales, vous pourrez rapidement vous assurer de ne pas sous-exploiter les options pouvant assurer l’intégrité de vos données — elle-même déterminante dans le succès, le retour sur investissement et la réduction du risque de votre initiative en intelligence artificielle.

Parlez à un expert »

Restez connecté!

Inscrivez-vous à notre infolettre :

CLAVARDEZ