Les gros maux du Big Data

Les gros maux du Big Data

Ce post est le premier d’une série de petits papiers que je me suis enfin décidé à écrire, suite à de nombreux échanges sur la « tarte à la crème » qu’est le Big Data.
Tarte à la crème car j’aime l’analogie à la cuisine. Un titre générique de recette, des déclinaisons plus ou moins réussies, des ingrédients pas tous connus, et finalement quelque chose de digeste… ou pas.

Finalement, partons de la fin (et de la faim dans le monde de la donnée) pour re-tricoter ce pull-over.

Aujourd’hui nous sommes dans une situation ou un dictionnaire ne suffirait pas pour lister les définitions toutes différentes que l’on met derrière ce (gros) mot, et donc les maux de tête que cela engendre. Il m’arrive très souvent de rencontrer des « Directeurs du Big Data », ou des « Chiefs » de data (sans parler des Data Scientists,  mouton à x pattes assez difficiles à dénombrer). Et à chaque fois la même question : « mais au fait, tu fais quoi ? », ce qui est paradoxal et illustre bien le flou, le mystère, voire le côté mystique de la chose.

Niveau 1, le prisme de l’informatique

Parfois, très souvent même quand on parle à des entreprises technologiques, le terme englobe les solutions informatiques déployées (ou nécessaires à déployer) pour le stockage des données disponibles au sein d’une entreprise, et plus largement les données accessibles à l’extérieur de l’entreprise. Je parle là de l’Open Data,  ainsi que l’on qualifie les données ouvertes à tous telles que la météo, l’environnement géopolitique, économique, industriel, ainsi que quelques études de références publiées par tel et tel ministère. L’INSEE est également généreux sur la distribution de données. C’est « Open bar », consommation gratuite à toute heure, encore faut-il connaitre la carte des cocktails et la recette du barman car il y a beaucoup de mauvaises interprétations…

Dans le maelström des données « internes », on y trouve pêle-mêle les données recueillies par les sociétés de Recherche en Marketing (les panels, les études adhoc, les trackers), les données issues du « Web social » – nouveauté de la décennie apportée par le W2.0 et  ses déclinaisons ultérieures -, les KPI’s (Key Performance Indicators) de chaque entreprise (ratio financiers), les données issues du CRM… bref toute type de données (j’ai pas dit d’informations) que l’on trouve de façon classique dans une entreprise en 2015.

Petit aparté sur le Web Social : le Consommateur, le citoyen, le quidam, parle de plus en plus, émet beaucoup d’informations via sa panoplie d’objets connectés, de façon plus ou moins spontanée ou consciente. Là encore, beaucoup à dire, et certainement à écrire… le nouvel Eldorado disent certains. Seul petit bémol, le langage est riche et difficile à analyser hors contexte, les « traces » numériques vraiment à l’état de traces, et les fins limiers « pisteurs » ne sont pas légion…

Sur ce niveau 1 de définition technologique du Big Data, le seul « sine qua non » vient de la volonté politique de partager au pot commun « sa » data. Pas encore évident pour tous, la donnée est trop souvent synonyme de pouvoir… mais être assis dessus ne signifie plus assoir son pouvoir…

C’est pour moi la rampe de lancement du Big Data, mais pas encore sa raison d’être.

Niveau 2, le Big Data « c’est des Stats »

A ce niveau, on parle à des sociétés spécialisées en Analytics, BI… bref les anciens du Data Mining qui ont évolué, un peu souvent malgré eux, et qui se mettent au diapason des terminologies. J’ai l’air de critiquer mais c’est un peu souvent cela.

Cette population utilise des termes très compliqués qui font peur et qui occasionnent également des maux de tête. Les réseaux de neurones, les Bayésiens, sont recyclés au niveau du tournevis de la boite à outil, et pour parler le langage de son époque il faut faire du « learning », qu’il fût  « deep », « auto », bref il faut apprendre en profondeur et tout seul. Ces outils sont aux mathématiques ce que les MOOC sont à l’éducation, ils doivent marcher tout seul 🙂

On voit de plus en plus d’apprenti-sorciers, revêtus d’un vernis marine water-proof capable de résister à n’importe quelle condition  « data » extrême.

Néanmoins, il y a dans ce courant de la vraie science qui évolue, tout un courant de convergence de techniques qui auparavant ne se parlaient pas, de la Recherche Opérationnelle, de l’Intelligence Artificielle, de la Modélisation Comportementale, du Forecast, et une communauté OPEN (l’open source) qui n’hésite pas à travailler sur un vrai mode collaboratif (ce mot est clé, il reviendra).

Le Big Data revêt là ses plus beaux atours « scientifiques » et c’est tant mieux… Néanmoins ce n’est pas encore suffisant !

Niveau 3, la raison d’être

Prenons un peu de recul..

Quel est le vrai BIG CHALLENGE ? A qui le crime doit-il profiter ?

Le Big Data n’est pas que du Hard ou du Soft, n’est pas non plus l’usage intensif de la science pour le plaisir de faire évoluer  la (ou les) science(s). Le Big Data est tout cela, mais travaillé autour d’un fil rouge mieux défini, une direction précise, un vrai but.

Le Big data dans son essence doit être tourné vers l’individu. Nos amis anglo-saxons parlent de « Consumer Centric ». J’aime l’idée mais je la trouve réductrice car réduite au consommateur, ce qui pourrais signifier que si je ne consomme pas je ne suis pas dans le scope. Je préfère le « People Centric ».

L’utilisation de toute donnée, sa transformation en information et l’usage de cette information en SERVICES s’adresse à chacun d’entre-nous, que nous soyons consommateur ou pas, juste simplement individu avec nos propres besoins, nos habitudes, nos modes de vie.

Un raisonnement Big Data est un raisonnement qui part du principe que l’on doit faire évoluer positivement l’écosystème de toute personne, en l’analysant et en le comprenant, par l’utilisation de toute la panoplie de données disponibles, et ainsi créer un environnement propice à un meilleur échange, à une meilleure synergie individu / entreprise / société.

Souvent la notion de liberté individuelle est mise en avant, la protection des données personnelles… et ce à juste titre. Il y a beaucoup trop d’usages masqués « Big data <-> Big Brother » qui polluent nos vies quotidiennes, qui nous freinent dans notre souhait de partage de nos propres informations.

Gaffe aux GAFA et autres « goinfres » de la donnée ? Que font-ils ou que vont-ils faire ? Les questions se posent, les législateurs s’agitent. A eux de démontrer que le « mieux-vivre » fait partie de leur ADN.

Le terme Big Data n’est pas bon, tant pis, il a le mérite d’exister… à nous tous de le clarifier afin de le rendre moins opaque !

0 réponses

Répondre

Se joindre à la discussion ?
Vous êtes libre de contribuer !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Blocage des indésirables par WP-SpamShield