Mai / Juin 2015

GNU/Linux Magazine HS 78

Analyse de données & Big Data

Le guide pour manipuler et analyser vos données efficacement !

En savoir plus

12,90 € TTC

Anciens Numéros

LIVRAISON OFFERTE en France Métropolitaine à partir de 50€
GNU/Linux Magazine 272

GNU/Linux Magazine 272

Novembre / Décembre 2024
9,90 €
GNU/Linux Magazine 271

GNU/Linux Magazine 271

Septembre / Octobre 2024
9,90 €
GNU/Linux Magazine 270

GNU/Linux Magazine 270

Juillet / Août 2024
9,90 €
GNU/Linux Magazine 269
9,90 €
GNU/Linux Magazine 268

GNU/Linux Magazine 268

Mars / Avril 2024
9,90 €
GNU/Linux Magazine 267

GNU/Linux Magazine 267

Janvier / Février 2024
9,90 €
GNU/Linux Magazine 266

GNU/Linux Magazine 266

Novembre / Décembre 2023
9,90 €
GNU/Linux Magazine 265

GNU/Linux Magazine 265

Septembre / Octobre 2023
9,90 €
Sommaire  :

Introduction

p. 08  Stockage et exploitation : des données aux « big data »

Stocker

p. 14  Hadoop
p. 26  HBase

Exploiter

p. 42  Indexez vos données sans limites à l'aide de Infinispan
p. 58  Teiid, unifiez vos données et simplifiez votre architecture

Analyser

p. 86  Introduction au data mining en Python avec scikit-learn
p. 94  Analyse statistique de données avec R
p. 116  Visualisation interactive de données avec VisPy

Préface :

Pour le meilleur et pour le pire, nous vivons dans un monde de données. Que cela soit bénéfique ou néfaste, suivant l’origine des données ou leur utilisation, nous n’y pouvons rien changer, c’est un fait : nous produisons de plus en plus de données.

Comme ce fait ne peut être modifié, nous devons nous adapter, adapter nos comportements et nos outils pour pouvoir stocker et traiter une telle masse d’informations. 

Ces outils vont se répartir en deux catégories :

  • les outils de stockage qui permettront de conserver les données et d’y accéder de manière efficace au vu de leur taille ;
  • les outils d’analyse sans lesquels les données ne nous seront d’aucune utilité.

Nous avons élaboré ce hors-série de manière à ce que vous puissiez être efficace dans chacune de ces étapes. Les outils présentés ne représentent bien sûr qu’une infime partie des logiciels et systèmes disponibles, mais ils sont représentatifs de ce que l’on peut faire dans le domaine et devraient vous aider à cibler vos besoins et vous donner des pistes pour des solutions répondant à vos propres problématiques.

Bien sûr, nous parlons de « big data », puisque le terme est à la mode, mais ne croyez pas que nous soyons dupes, l’aspect marketing sous-jacent ne nous a pas échappé et vous vous en rendrez compte au fil de la lecture du magazine. Ce qui nous intéresse et ce sur quoi ce magazine se focalisera, ce sont les données, les adaptations nécessaires pour pouvoir traiter de gros volumes d’informations et les analyser. Les perspectives offertes par la possibilité de collecter ces données et de les analyser sont énormes et permettent d’accélérer notre vitesse d’acquisition de nouvelles connaissances ou plus simplement de les valider. Mais il faut prendre garde à un écueil qui nous guette dans cette frénésie de données : la qualité des données récoltées ! Il est possible, sciemment, de manipuler les nombres, de les orienter dans une direction particulière à dessein. C’est du détournement d’information, mais la démarche est consciente. Des données erronées peuvent amener à des conclusions tout autant fausses, mais sans en avoir forcément conscience. 

Avec l’augmentation drastique des données, il faut donc non seulement posséder une infrastructure informatique capable de soutenir leur « poids », mais en plus être extrêmement vigilant en terme d’analyses. En somme il y a du travail, mais ce magazine devrait vous aider...

La Rédaction

Le magazine de référence technique pour les développeurs sur systèmes open source et les ingénieurs R&D !

GNU/Linux Magazine s'adresse aux professionnels et aux particuliers désireux de mieux maîtriser les techniques et problématiques liées à la programmation et à l’utilisation de solutions open source. Tous les deux mois avec ses articles techniques, la publication couvre les thématiques suivantes : programmation système, algo, bas niveau, sécurité du code, développement web...

Analyse de données et Big Data : la préface du guide pour manipuler et analyser vos données efficacement
GNU/Linux Magazine n°78

Pour le meilleur et pour le pire, nous vivons dans un monde de données. Que cela soit bénéfique ou néfaste, suivant l'origine des données ou leur utilisation, nous n'y pouvons rien changer, c'est un fait : nous produisons de plus en plus de données. Comme ce fait ne peut être modifié, nous devons nous adapter, adapter nos comportements et nos outils pour pouvoir stocker et traiter une telle masse d'informations.

Visualisation interactive de données avec VisPy
GNU/Linux Magazine n°78

VisPy est une librairie Python de visualisation scientifique spécialisée dans les importants volumes de données et la 3D. VisPy utilise la puissance du processeur graphique (GPU) à l'aide de la librairie OpenGL pour afficher efficacement et de manière interactive des données volumineuses et complexes. Cet article propose une vue d'ensemble de VisPy pour la visualisation interactive de données.

Teiid, unifiez vos données et simplifiez votre architecture
GNU/Linux Magazine n°78

En ces années « Big Data », ce n'est pas seulement la taille ou la quantité de données qui représente un nouveau défi, mais aussi leur nature. En effet, que ce soit pour des raisons techniques de tenue de charge ou par souci de simplicité, les données sont sauvegardées dans de plus en plus de systèmes différents. Si l'on pouvait, au début des années 2000, estimer que nos données applicatives seraient stockées, la plupart du temps, dans une base de données relationnelle, ou éventuellement extraites d'un système historique (mainframe), le paysage a assez radicalement changé.

Ce magazine est intégralement disponible sur Linux Magazine Connect
© 2024 - LES EDITIONS DIAMOND