Big Data & Analytics : les technologies derrière la révolution des data

Le Big Data et les Analytics s’appuient sur un ensemble de progrès technologiques tout au long du cycle de vie de la donnée. Zoom sur les 5 technologies majeures derrière la révolution des data !

Yoann Pages 16 octobre 2022

On identifie généralement cinq forces majeures à l’origine de la révolution Big Data :

L’automatisation des échanges de données
La révolution du Cloud Computing
L’arrivée d’une nouvelle science des données (les Analytics avancés)
Les progrès de la DataViz
Les nouvelles possibilités de monétisation

Mais plus que leur contribution individuelle, c’est l’interaction entre ces éléments qui est à l’origine de l’accélération du mouvement Big Data et Analytics.

Avec l’augmentation du volume et la multiplication des types de données échangés, le stockage et l’exploitation de ces nouveaux contenus est devenu une problématique clé pour les entreprises, qui se sont alors appuyées sur des progrès dans le traitement et la visualisation d’information pour valoriser leurs données.

Sommaire :

1. Les objets connectés et l’automatisation des échanges

La multiplication des systèmes et des appareils capables de générer et de transmettre automatiquement des données est une des raisons fondamentales de l’explosion du volume et de la variété des données.

Le transfert extrêmement massif d’informations multimodales (vidéos, images, sons, localisation en plus du texte et des données structurées) via les smartphones, les appareils connectés, les réseaux sociaux, mais aussi les opérateurs de e-commerce, est un des facteurs fondamentaux à l’origine des problématiques Big Data.

Le domaine du e-commerce justement est un bon exemple : chaque fois que vous visitez un site, que vous cliquez sur un lien, depuis un ordinateur ou un smartphone, votre comportement sur le site est automatiquement enregistré et analysé pour déterminer votre profil, vos goûts et vos intentions d’achat. Chaque étape de votre parcours peut être analysée pour comprendre les facteurs qui ont influencé votre décision d’achat et les critères qui vous sont indifférents. ( Pour en savoir plus sur la collecte de données dans le e-commerce, consultez ce blog d’actualité web & high-tech)

De la même façon, votre décodeur TV analyse et transmet en temps réel des informations sur vos comportements devant la TV, savoir ce que vous regardez, si vous zappez dès le début des pubs, si vous regardez plus souvent la télé seul ou à plusieurs. Même un senseur servant à contrôler la santé de bovins dans des élevages transmet jusqu’à 200M de données de santé et comportementales par an.

L’automatisation de la génération de données multiformes est une des causes majeures de l’explosion volume et à la richesse des données qui sont aujourd’hui à la disposition des entreprises et des individus.

big data Cloud Computing

VOIR AUSSI : Smart City : quels sont les grands enjeux et défis de la ville connectée ?

2. Le Cloud Computing, Hadoop et NoSQL, la révolution du stockage de données

La massification de ces échanges de données et la multiplication des types de contenus a rapidement dépassé les possibilités stockage des entrepôts de données des entreprises, alors basées sur le modèle SQL/mySQL, adapté à des bases de données relationnelles structurées. Dès les années 2000, des ruptures importantes se sont produites dans la façon de stocker l’information, du fait du passage à l’Internet.

D’une part, des Pure Players du Web comme Google, Amazon ou Yahoo commencent à proposer aux entreprises et aux particuliers des espaces de stockage flexibles « dans les nuages » à des prix très compétitifs, accessibles à travers des interfaces en ligne. Dans la foulée, le modèle du Software as a Service prend son essor, avec des applications de plus en plus complexes hébergées en ligne et accessibles à travers un navigateur. Le cloud-computing est né, et permet aux entreprises d’externaliser une partie du stockage de ses données à moindre coût et à faire plus sereinement à l’explosion de leur volume.

Dans un deuxième temps, la variabilité des contenus et la culture d’innovation de Google et Amazon ont contribué à l’essor d’une nouvelle philosophie de stockage intelligent de données, sous le vocable NoSQL (not only SQL), permettant des requêtes plus rapides et plus flexibles. En résumé, le NoSQL repose sur une simplification des procédures d’indexation associée à une approche massivement distribuée (Hadoop) adaptée au type d’architecture (propagation arborescente pour les réseaux sociaux, HBase ou Cassandra pour les sites de e-commerce).

Grâce aux progrès technologiques du Cloud computing et du NoSQL, le stockage et l’exploitation de larges volumes de données hétérogènes devient une opportunité plutôt qu’un obstacle pour les entreprises.

3. Les Analytics Avancés

L’accélération du mouvement Big Data va de pair avec l’avènement d’une « Nouvelle Science des Données ». La valorisation des immenses volumes de données hétérogènes passe par la mise en œuvre d’analyses sophistiquées (Analytics Avancés), véritable « passage à l’échelle » dans la conception des modèles d’analyse et la mise en œuvre des différents algorithmes.

Le terme Analytics Avancés englobe les méthodes et techniques suivantes (dont certaines sont des extensions de techniques de Data Mining classiques) : statistiques non-paramétriques, règles d’association, réduction de dimension, classification non supervisée (cluster analysis), analyse de données réticulaires (network analysis), algorithmes génétiques…

Grâce aux Analytics avancés, au lieu d’avoir quelques corrélations fortes au sein d’un ensemble relativement homogène, on tire parti du très large volume pour chercher des « signaux faibles » au sein d’une arborescence de catégories (ce qui revient à peu près à cherche une aiguille dans une botte de foin).

big data analytics visualisation

VOIR AUSSI : Qu’est-ce que le review management et comment activer cette stratégie marketing ?

4. La Visualisation de données

Comme il est mentionné dans l’étude sur le Big Data du McKinsey Global Institute, il est fondamental de pouvoir interpréter les résultats d’une analyse d’un large volume de données complexes. La visualisation graphique est l’un des principaux moyens permettant d’aider à l’interprétation de données, et les outils de visualisation et de manipulation de graphes ont connu, après des années de progrès lents, une révolution dans les dernières années, tant dans leur capacité à visualiser des ensembles de données volumineux que dans les calculs inhérents à leur compréhension (plus court chemins, flots de coupe, modularisation…). Et la visualisation de données doit répondre à deux impératifs : d’une part, être suffisamment complexes pour gérer des corrélations complexes dans des ensembles de données très volumineux. D’autre part, pouvoir traduire ces corrélations en visualisations pertinentes mais assez simples pour réellement appuyer la prise de décision en entreprise. L’émergence d’outils comme Tableau, Qlikview ou Gephi (open source), qui permettent de visualiser simplement et de manière interactive des corrélations complexes entre des ensembles de données, a largement participé à la démocratisation des analytics avancés et a permis de remettre la donnée au centre de la prise de décision.

5. Les nouvelles possibilités de monétisation

L’une des conséquences majeures de l’abondance de données transactionnelles et comportementales sur les consommateurs et les prospects est la possibilité d’affiner sa segmentation de manière radicale, jusqu’à faire apparaître des micro-segments. Les avancées des Analytics permettent de trouver des signaux faibles dans de larges volumes de données et d’extraire des prédictions comportementales. Et au fur et à mesure que les entreprises minent les données de leurs clients, elles découvrent des niches spécifiques basées sur des paramètres analytiques. Et le marketing s’adapte à cette nouvelle vision, avec des campagnes localisées et taillées spécifiquement pour un micro-segment.

Le bénéfice de cette micro-segmentation est double : optimiser les dépenses marketing en augmentant considérablement le taux de conversion des campagnes, et augmenter le panier moyen des consommateurs en proposant des produits « personnalisés ».

Et même pour les entreprises qui ne font pas de vente directe, la collecte et la revente de d’informations comportementales (anonymisées), voir de prospects qualifiés, peut devenir une activité lucrative. Par exemple, Bouygues Telecom, permet à des centres commerciaux d’obtenir des informations sur la provenance géographique des visiteurs, et plus largement, éco-système entier de petites et grandes entreprises se sont engouffrées dans le domaine de la collecte et l’analyse de données pour en faciliter la monétisation.

5/5 - (1 vote)

Yoann Pages

View More Posts

Passionné de technologie, d'informatique et de jeux vidéo, je vous partage les dernières tendances. "La technologie ouvre les portes de l'infini." - Alan Turing