Paroles d’experts

Business-to-Business : analyser les sites Web des clients existants pour prospecter
par Francis Salerno

A partir des informations disponibles sur les clients actuels, comment trouver de nouveaux clients qui deviendront rentables ? C’est l’une des questions les plus classiques du marketing direct. Les méthodes traditionnelles d’évaluation des fichiers de prospection potentiels sont bien connues, en BtoC comme en BtoB.

Et si les informations « extractibles » des sites Web d’entreprises permettaient de faire du « scoring » de prospection en BtoB…

Une approche originale développée en VAD pour cet environnement BtoB a permis d’identifier les nouvelles entreprises à prospecter et d’estimer les rentabilités de ces futurs clients ((Analyzing existing customers’ websites to improve the customer acquisition process as well as the profitability prediction in B-to-B marketing, Dirk Thorleuchter, Dirk Van den Poel, Anita Prinzie,
Expert Systems with Applications 39 (2012) 2597–2605, journal homepage: www.elsevier.com/locate/eswa). Dans cette approche, l’information sur les clients existants provient des systèmes classiques de gestion de la relation client qui permettent facilement d’obtenir des classes de clients en termes de volume de ventes et de tenir compte de plusieurs périodes pour décrire les rentabilités. La plupart de ces clients utilisent des sites web pour communiquer de l’information sur leurs gammes de produits et de services à leurs propres clientèles. Cette masse d’informations peut être analysée par du Datamining de contenu pour servir ensuite au repérage systématique de nouveaux « bon clients » potentiels ; à condition d’être « préparée » car elle se présente sous une forme brute, non structurée et, bien entendu, non orientée sur l’aide à l’acquisition de nouveaux clients.

L’entreprise (allemande) a commencé par identifier 150 000 clients dans sa base puis à les agréger car plusieurs clients appartiennent souvent à la même entreprise. En final, 60 000 entreprises ont été identifiées. Ce chiffre a ensuite été ramené à 35 568 entreprises disposant d’un site web en langue allemande. Afin d’identifier des caractéristiques textuelles spécifiques (concepts) aux sites web de ces entreprises clientes, une analyse de ces sites été réalisée par indexation sémantique latente (ou LSI, de l’anglais : Latent Semantic Indexing) avec décomposition en valeurs singulières (ou SVD : Singular Value Decomposition) des matrices termes-documents.

Un algorithme est ensuite utilisé pour regrouper les sites web des clients sur la base des concepts et pour sélectionner les mots qui, premièrement, prévalent dans les concepts qui apparaissent principalement dans les sites des clients rentables de l’entreprise et qui, deuxièmement, apparaissent le plus rarement dans les sites des clients non-rentables. Deux exemples d’interprétation de dimensions SVD sont présentés ci-dessous avec traduction des mots en français :

  • Développe (y compris développement, développeur, etc.) et Système (y compris systèmes, etc.) sont deux termes qui apparaissent ensemble dans les sites des clients rentables de l’entreprise, en même temps que l’occurrence fréquente des termes suivants : Planning, Materiel , Technique, Construire, Produit, Machine, Protection, Industrie et Atelier. De plus, d’autres termes (Histoire, Expérience, Business, Assurance, Energie, Qualité et Mobile) ne doivent pas apparaître fréquemment pour augmenter la probabilité qu’un site soit celui d’un client rentable.
  • Service (y compris services, servi, servir, etc.) et Projet (y compris projets, etc.) sont deux termes qui apparaissent fréquemment ensemble dans sites de clients rentables, en même temps que l’apparition fréquente des termes suivants : Conférence, Conseil, Loi, Information, Données, Management, Meeting, Contrat, Partenaire et Direction. De plus, d’autres termes (Prix, Client, Offre, Paiement, Marché, Taxe) ne doivent pas apparaître fréquemment pour augmenter la probabilité qu’un site soit celui d’un client rentable.

Dans la phase de regroupement, sept groupes ainsi que les mots représentant les labels de ces groupes ont été identifiés. On sélectionne ensuite les groupes les plus performants en termes de « précision » (nombre de sites de clients rentables dans le groupe / nombre total de sites de clients dans le groupe) et de « rappel » (nombre de sites de clients rentables dans le groupe / nombre total de sites de clients rentables). Les mots associés aux groupes sélectionnés sont utilisés pour la suite du traitement. Un groupe peut ainsi être identifié avec les meilleures valeurs de précision (58%) et de rappel (37%) et dix mots extraits de ce groupe (Travail, Affaires, Système, Personnel, Zone, Construction, Technique, Contenu, Produit, Client).

Ces mots sont ensuite utilisés pour faire du Web Content Mining et repérer d’autres entreprises (prospects) dont le site contient des concepts similaires. Ainsi :

  • Au moyen de l’API d’un moteur de recherche, on repère les sites qui contiennent au moins un certain nombre de « mots clés ».
  • Un modèle prédictif (régression logistique) est construit sur la base des concepts extraits des sites des clients existants pour prédire la rentabilité de nouveaux clients.
  • Les entreprises correspondantes à ces adresses sont ensuite identifiées manuellement pour former le fichier de nouveaux clients potentiels pour l’entreprise de VAD.

D’après les réalisateurs de cette exploration, les résultats sont meilleurs que le taux de 5% de nouveaux clients rentables obtenus habituellement par l’entreprise avec des fichiers loués. Il convient naturellement de prendre en compte le coût de mise en œuvre de l’approche et d’éviter toute extrapolation trop rapide. Ce nouveau mode « digital » de traitement d’une question classique illustre surtout très bien les aspects fondamentaux du marketing direct.

Francis Salerno