Retour

Comment prédire l’avenir avec des données géo enrichies

Mathieu Nicolet 

Statisticien - Analyste de Données

22 mai 2019

Comment prédire l’avenir avec des données géo enrichies

Utiliser et valoriser les données géographiques enrichies pour améliorer la modélisation prédictive et la segmentation.

De nos jours, le simple mot « donnée » se décline de multiples façons, et ce, dans tous les secteurs d’affaires. Afin de se démarquer dans un environnement de plus en plus concurrentiel, chaque entreprise doit agir plutôt que réagir afin non seulement de préserver sa croissance, mais d’assurer sa survie. L’avènement de nouvelles techniques issues du domaine des sciences de la donnée permettent de découvrir de nouvelles perspectives en technologies de l’information ainsi que de nouveaux termes, tels que Big Data, Apprentissage Machine et Intelligence Artificielle.
Aujourd’hui, les gestionnaires sont conscients des possibilités infinies que les données, au sens large, peuvent apporter à leur entreprise. Cependant, la variété et la quantité d’informations qu’ils possèdent sont si imposantes que de simplement tenter de trouver le point de départ représente une difficulté majeure.

En d’autres termes, ils sont confrontés à deux questions principales: que puis-je faire avec mes données et quelles réponses peuvent-elles me donner? En tant que spécialistes des données, nous devons évaluer à la fois les questions et les réponses en lien avec la donnée, ce qui représente uniquement la partie visible de l’iceberg.

Dans les faits, une entreprise de vente au détail a accès à toutes les données historiques sur les ventes et les transactions enregistrées sur ses différents sites à travers le pays. L’objectif d’affaires est évident: croissance du marché et augmentation des bénéfices. À partir de là, des indicateurs de performance clé peuvent être établis et comparés à leur base de données client. C’est là que l’analyse prédictive entre en jeu: prévoir les ventes et les transactions futures en utilisant leurs données transactionnelles aidera l’entreprise à comprendre ses activités, agir au lieu de réagir, voire mieux: anticiper!
infographic

Mixage Big Data

Data analytics infographic

Analyse

Business output data

Productivité

Les données de l’entreprise, la ligne de départ

Concevoir un modèle à partir de nos propres données n’est que la pointe de l’iceberg. C’est comme posséder une belle voiture sans rien avoir sous le capot. Si le moteur est en panne, vous n’irez pas loin malgré la beauté de votre véhicule… Il y a ainsi deux aspects importants à considérer: les données et les techniques de modélisation.
Premièrement, la qualité des données est un élément clé de l’analyse prédictive, que l’on peut résumer simplement par « garbage in, garbage out ». Mes sources de données sont-elles fiables? Ai-je des données manquantes? Si oui, comment devrais-je les gérer? À priori, ce sont des questions importantes qui doivent être abordées. Deuxièmement, il est important de valider toutes les hypothèses qui dépendent directement des algorithmes sélectionnés (normalité des données, le cas échéant, distribution et type des données). Même si vous travaillez avec des données de qualité, vous risquez d’obtenir de faux résultats et de mal les interprétés si vous négligez ce dernier aspect.

Enfin, un autre élément à considérer est le choix des variables prédictives du modèle.

Au-delà du fait d’être significatif, l’évaluation de tous les paramètres du modèle dans le futur est une condition préalable à la modélisation.

Pour revenir à notre exemple d’entreprise de vente au détail, les conditions météorologiques, les catastrophes naturelles (pluie, orages, fortes chutes de neige, tornades) ainsi que les événements imprévisibles externes (travaux routiers, grèves, pannes) ont un impact significatif sur les ventes. Cependant, il n’est pas possible de calculer ces paramètres dans une perspective de prévision, car il est impossible de connaître a priori leurs occurrences dans le futur. Au total, la partie modèle ne représente encore qu’une faible proportion de l’ensemble du processus.

La valeur ajoutée de l’enrichissement des données géographiques

Une fois la conception du modèle initial complétée, la première étape est terminée. Laissez-nous maintenant personnaliser le moteur de votre véhicule et proposer les meilleures pièces pour obtenir l’ajustement et les performances optimales. En effet, en enrichissant les éléments existants d’informations supplémentaires, telles que des données géographiques, l’entreprise aura une meilleure compréhension ce qui permettra d’augmenter l’efficacité de ses analyses prédictives.

Par données géographiques, nous entendons des données ayant une composante géographique, comme des coordonnées X / Y, une géométrie (point, ligne, polygone) ou liées à une entité géographique (code postal, région, province). On parle ici de sources de données de recensement gouvernementales bien connues (StatsCan), de celles de fournisseurs de données géographiques produisant des données de trafic (HERE Traffic Analytics) ou encore de POI et autres types de données contextuelles (HERE, TomTom, Precisely (anciennement Pitney Bowes), Environics Analytics).

En parallèle, l’avènement des données sociales ajoute également de nouveaux défis à cette problématique. En effet, le vaste inventaire de jeux de données disponibles implique un nombre considérable de variables et d’informations allant du général (revenu moyen, niveau d’éducation, type de logement) au plus spécifique (fonds médian mensuel consacré à la restauration rapide).

Vous désirez des jeux de données d’enrichissement supplémentaires? Les experts de Korem peuvent vous aider à sélectionner le meilleur jeu de données selon vos besoins.

Mettre un visage sur vos clients

En pratique, l’entreprise de vente au détail peut combiner des ventes et des transactions avec les clients à partir de leur nom et de leur adresse. Le niveau suivant consiste essentiellement à répondre à ces trois questions: qui sont mes clients, sont-ils et comment puis-je les rejoindre (voir image ci-dessous)? Les réponses à ces questions permettront de percevoir autrement la manière dont l’entreprise gère les stratégies en place et l’aideront à cibler les efforts de marketing en passant de l’analyse prédictive à l’analyse prescriptive. Cela n’est possible qu’en permettant l’enrichissement des données existantes en combinant des données géographiques et non géographiques à l’aide d’outils spatiaux (jointure spatiale, correspondance ou traitement spatial, regroupement, etc.).
Customer data infographic
Concrètement, cette procédure peut impliquer plusieurs opérations débutant par le géocodage des adresses de vos clients afin d’obtenir des coordonnées X / Y. Cette nouvelle dimension spatiale pourra ensuite être analysée avec des polygones de temps de conduite définis autour de chacun de vos sites. Cela permet de déterminer où habitent vos clients, de déterminer leur proximité de vos sites à l’aide des polygones de temps de conduite et d’enrichir chaque fiche client avec des variables socio-démographiques provenant de banque de données externes. En comparant vos zones de temps de conduites avec l’entièreté de vos marchés, il sera possible de procéder à une analyse de marché, de localiser les zones « sous-performantes » et de trouver une façon de solutionner cette problématique.
Dans le même exemple, sachant que l’entreprise de vente gère de plus en plus ses risques en utilisant le caractère géographique de ses données, il en ressort que de le faire au niveau de l’aire de diffusion ne satisfait plus le niveau de précision recherché. Les entreprises de ce secteur d’affaires souhaitent mieux segmenter ces risques en tenant compte de la composante géographique de toutes leurs localisations commerciales. L’utilisation de techniques de regroupement telles que le k-means permet de regrouper des actifs partageant des similarités, et par le fait même d’améliorer l’efficacité de la détermination du risque et de la précision des analyses. L’exemple ci-dessous illustre une modélisation géographique des risques dérivés de la localisation d’une liste d’adresses.

Intégration globale des données et modélisation, la meilleure recette du mix pour le meilleur résultat

Le principal défi permettant l’utilisation de données géographiques dans l’analyse prédictive consiste à formuler les hypothèses les plus réalistes possible, qui accompagnent la mise en œuvre et l’utilisation de ces données. Notamment, le croisement des données commerciales brutes avec les informations spatiales est crucial en termes d’évolutivité (niveau géographique), de dimension (définition du centre de gravité, de généralisation des polygones) et d’opérations sur les entités spatiales des données (création de zones tampons et du temps de conduite, proximité, analyse de zones de superposition des zones de temps de conduite).
Overall data integration infographic

Construire les meilleurs modèles prédictifs nécessite la mise en place des meilleures pratiques, telles que les procédures par étapes intégrées en lien avec la méthodologie DM-CRISP qui considèrent l’ensemble des hypothèses ultérieures (sélection de variables, multicolinéarité, corrélation vs causalité).

Les défis liés à l’analyse prédictive dans un contexte géographique sont énormes, le prix à payer est assurément élevé, au sens propre comme au sens figuré.

Par ailleurs, le retour sur investissement (RSI) de l’enrichissement des données géographiques est beaucoup plus important et permet de découvrir des voies inexplorées pour tous les types d’entreprises leur permettant d’être au-devant de leur propre futur. Par exemple, l’efficacité du géocodage est cruciale dans la gestion des inondations et des risques associés, économiquement parlant. D’autres cas d’utilisation ont aussi montré un RSI multiplié par trois après l’implantation de solutions impliquant l’enrichissement de données géographiques. Korem dispose d’un vaste portfolio de données d’enrichissement, d’outils géospatiaux et d’une expertise inégalée pour vous aider à les intégrer dans votre modèle.

Restez connecté!

Inscrivez-vous à notre infolettre :

CLAVARDEZ