L’analyse du signal faible, une richesse à explorer…

La statistique du 21ieme siècle commence à manger son chapeau.

Depuis son origine elle est basée sur le postulat que les algorithmes ont pour mission initiale de résumer l’information afin d’en tirer les dimensions principales, d’ou le nom de certaines techniques. Or il est de plus en plus admis que l’information « utile » ne se trouve pas dans la masse, aux épicentres, mais à la périphérie des « évidences ». Je reviendrais plus loin sur cette notion d’utilité.

Il y encore fort peu de temps, la qualité d’une plateforme statistique se jugeait à sa robustesse, à son insensibilité aux points atypiques, aux « outliers ». D’ailleurs la traduction littérale de ce mot anglais est lourde de sens : le « dehors qui ment », par opposition sans doute au « dedans qui donne la vérité ». Bel euphémisme.

Effectivement, il fallait nettoyer la donnée, passer au filtre ce qui dépasse, enlever les bruits, les scories des réponses « extra » ordinaires. Ensuite, réduction à feu doux, normalisation pour bien tasser, et hop, une recette classique comme dans tous les manuels de cuisine statistique. Le produit final avait bon goût, une description un peu « crémeuse » de la population, une typologie « pas trop épicée » en 7 classes (c’est fou le nombre de typo à sept classes que l’on trouvait… par hasard).  Le client était content, le résultat correspondait bien au menu, donc pas de question au chef, mais pas de pourboire non plus 🙂

Cela m’a toujours laissé sur ma faim, mais c’était l’usage, surtout ne pas en sortir, le demandeur serait perturbé !

On en faisait quoi ?  Pas grand chose je pense, les statistiques ou modèles étaient la cerise sur le gateau du bon sens, et permettaient de résumer en 2 ou 3 graphiques d’avant propos les X tomes de rapports remplis de flèches vertes et rouges.  Je qualifierais cette époque de bien-être des Etudes et du Marketing l’époque « macro ». L’observation se faisait au dessus des individus, méta-approche qui cherchait à regrouper des publics, à y construire des cibles. La ménagère avait moins de 50 ans, Les CSP+ gagnaient plus que les CSP -, et les deux premiers axes d’une l’analyse factorielle le guide Michelin de la stratégie produit. Et pourtant les réseaux de neurones existaient déjà, les modèles micro également, mais les champs d’investigation limités, la donnée rare.

Aujourd’hui, notre nouvelle société digitale est en ébullition. Les puissances des calculateurs se sont décuplées, mais en parallèle le comportement individuel de chacun a irrémédiablement changé : l’individu ne se reconnait plus dans des groupes ou catégories « types »  (l’individualisation galopante), et surtout les comportements sont  mesurés avant leur déclencheur probable (les fameuses traces digitales), ce qui inverse les paradigmes de la relation causale. Il faut maintenant imaginer la cause, et non plus modéliser l’effet de cette cause.

La donnée est devenue un véritable océan qui enfle en permanence, la cartographie des courants qui anime cet océan de plus en plus familière de tous.  La véritable utilité recherchée réside de mon point de vue dans l’observation des phénomènes (comportementaux) rares, car ils peuvent parfois nous faire remonter jusqu’à une cause, un facteur déclenchant qui, si compris et replicable, peut inversement démultiplier les comportements atypiques pour en faire des nouveaux courants de consommation. Mécanisme inversé : je cherche les effets pour isoler une cause.

En parallèle, les méthodes d’analyse et les statistiques doivent être également inversées. Comment  isoler les atypismes ? Comment chercher les signaux faibles ? Comment ne pas se faire « polluer » par les comportements centraux, par les formes fortes ? Comment parfaire une approche statistique « micro », qui sera plus projective que la « macro », très/trop descriptive ?

Les premiers modèles prédictifs sont là, certaines techniques de « clustering » basées sur ce principe apparaissent (la théorie des graphes…), mais l’analyse ne se fait pas encore assez par exception. Nous essayons encore trop souvent de reconstruire les groupes par les individus, sans doute par souci de réassurance.

Apprenons à renverser nos approches, faisons évoluer nos arbres de décision (« trees ») vers des feuilles d’apprentissage.

Exercice de style sans doute, mais riche de promesses, certainement !

En continuant à utiliser le site, vous acceptez l’utilisation des cookies. Plus d’informations

Les paramètres des cookies sur ce site sont définis sur « accepter les cookies » pour vous offrir la meilleure expérience de navigation possible. Si vous continuez à utiliser ce site sans changer vos paramètres de cookies ou si vous cliquez sur "Accepter" ci-dessous, vous consentez à cela.

Fermer