Big data : la nouvelle donne

By 12 février 2017Actualité

 

L’époque du Big data constitue, comme jamais auparavant, un défi pour notre mode de vie et modifie notre relation avec le monde : « il ne s’agit plus de connaître le pourquoi, mais seulement le quoi. La révolution ne réside pas dans les calculs effectués par les machines mais dans les données elles-mêmes et la façon de nous en servir »[1]

Le Big data, littéralement « grosses données », désigne des ensembles de données qui deviennent si volumineux qu’ils en deviennent difficiles à traiter avec les seuls outils de gestion de base de données ou les outils classiques de gestion de l’information. Le Big data désigne aussi l’ensemble des technologies, infrastructures et services permettant la collecte, le stockage et l’analyse de données recueillies et produites en nombre croissant, grâce à des traitements automatisés et au recours aux technologies de l’intelligence artificielle. Le Big data s’appuie sur le développement d’applications à visée analytique, qui traitent les données pour en extraire du sens.

Ces analyses sont appelées Big analytics ou « broyage de données » et sont à l’origine de nouvelles technologies de traitement de données comme par exemple MapReduce de Google. Le Big data se réfère ainsi à ce qui peut être accompli à grande échelle et ne peut pas l’être à une échelle plus petite. L’augmentation de la masse de données numériques s’explique par trois facteurs principaux : Volume – Vélocité – Variété[2]

  • Volume : Le volume de données émises explose, à titre d’exemple, en 2013 le volume de données collectées ou manipulées a dépassé les quatre zettaoctets ;
  • Variété : Une multiplicité de sources produit une masse non structurée des données au travers d’une variété d’objets connectés. Les données proviennent principalement de la généralisation des outils numériques performants et connectés (smartphones, ordinateurs, etc.) ainsi que de l’accès à l’information (réseaux sociaux, open data, etc.) mais surtout de l’augmentation très importante des données issues d’objets interconnectés (par exemple, du fait des puces RFID).
  • Vélocité : la vélocité de l’information et la vitesse de traitement simultanée des données augmentent.

Aux trois « V » du Big data s’ajoute celui de la valeur que représentent ces données pour l’entreprise ou l’individu. En 2011, un zettaoctet de données a été enregistré, soit 200 fois plus en une seule année que ce qui avait pu être mesuré jusqu’alors[3].  En 2013, 4,4 zettaoctets de données ont été générées. Il a été estimé que cette quantité serait de 44 zettaoctets[4] en 2020.

La baisse des coûts de stockage joue aussi sur le développement du Big data. Selon la société Nova Scotia, le prix de stockage du gigaoctet pour un disque dur est passé d’environ 13,50 euros en février 2000 à 0,09 euros en août 2010, puis à 0,06 euros en juillet 2013. L’avènement d’outils comme le cloud computing permet par ailleurs de stocker ces données à moindre coût. On notera ainsi que de nombreux projets se concentrent sur des technologies de communication à bas débit et longue distance, utiles pour réunir des informations de réseaux de capteurs déportés[5]. Cloud et Big data deviennent aujourd’hui deux éléments indissociables.

Le phénomène du Big data est aussi marqué par :

  • les marchés émergents qui produiront bientôt plus de données que les pays développés : actuellement, 60 % des données numériques sont issues des marchés matures ;
  • un volume de données qui augmente plus vite que la capacité de stockage disponible ;
  • des entreprises majoritairement responsables des données créées par les consommateurs : si deux tiers des données de la sphère numérique sont générées ou utilisées par les consommateurs et les salariés, 85 % sont créées par les entreprises.

 

[1] D’après le rapport de l’Institut Montaigne « Big Data et objets connectés » – avril 2015

[2] Connus sous la formulation des « 3V »

[3] Il est extrêmement difficile de se faire une représentation claire d’un tel volume de données. Seraient-elles sous forme de livres imprimés qu’elles couvriraient la superficie totale des États-Unis sur 52 strates d’épaisseur. Sous forme de CD-Rom empilés, elles s’étireraient jusqu’à la lune en cinq piles séparées, d’après Viktor Mayer-Schönberger et Kenneth Cukier

[4] 1 zettaoctet = 1 x 1021 octets

[5] Par exemple Sigfox se définit comme le premier opérateur cellulaire bas débit au M2M et à l’Internet des objets

Leave a Reply