12,90 € TTC
p.06 PyText, le framework de traitement du langage de Facebook passe en Open Source
p.08 Côté livres...
p.10 Évolution de PostgreSQL en version 11
p. 20 Les « spurious correlations » ou comment faire dire absolument n'importe quoi à ses données
p. 40 Orange, un outil graphique pour analyser ses données en toute simplicité
p. 62 La création d'add-ons pour Orange en Python
p. 70 Identifier des groupes de données par classification
p. 92 Quels outils pour représenter graphiquement des données ?
p.104 Entretien avec Christian Surace, responsable du Centre de données astrophysiques de Marseille
p.118 Google Knative : le futur standard du déploiement d'applications serverless ?
Il y a des chercheurs et des ingénieurs qui, dans un travail long et fastidieux, cherchent des corrélations complexes, qui veulent faire parler les données et les lier entre elles. Leur objectif est d’extraire un maximum d’informations et de bien comprendre les articulations existant entre celles-ci.
Et puis, il y a l’expérience de sites web administratifs ou d’entreprises qui détiennent sur nous tous des milliers de données. En nous rendant sur des sites proposant différents services, il n’est pas rare de s’interroger sur la réflexion qui a eu lieu quant à l’usage de données complètement basiques telles que l’état civil. Que dire en effet lorsque vous contactez un service client par téléphone (nécessairement parce que l’option chat/mail est défaillante sur le site) et que le serveur vous communique votre numéro de contrat à transmettre au téléconseiller qui va vous répondre ? Pour connaître ce numéro de contrat, le serveur a effectué une requête à partir de votre numéro de téléphone ; et, c’est ce même serveur qui va vous mettre en relation avec un téléconseiller... Alors pourquoi ne transmet-il pas directement le numéro de contrat à notre interlocuteur qui doit lui aussi être identifié dans la base ?
J’avais déjà exprimé mon étonnement lorsqu’après avoir rempli une demande de carte d’identité il faut donner les mêmes renseignements pour obtenir un acte de naissance (GNU/Linux Magazine n°214). On ne se retrouve pas ici dans des cas où l’on tente d’inférer de nouvelles connaissances depuis un jeu de données existant, il faut simplement transmettre l’information entre applications ! Il est assez sidérant de constater la cassure entre ces deux mondes : d’un côté, on va utiliser couramment des méthodes de prédiction, du clustering, etc., et de l’autre les requêtes SQL de base ne sont pas mises en place.
Imaginons parallèlement des sociétés maîtrisant tous les processus d’analyse de données et conservant les informations relatives au comportement de ses clients. Cela semble irréel, mais c’est un bon exemple... restons dans l’imaginaire et supposons qu’une telle entreprise puisse exister. Cette société vendrait un peu de tout et elle aurait donc accès aux informations suivantes :
▪ le nom, le prénom et l’adresse de ses clients, ce qui peut facilement conduire à une estimation du niveau de vie en fonction du quartier dans lequel se trouve le logement et du type de celui-ci ;
▪ la liste des recherches des clients ainsi que, bien entendu, leurs commandes. En supposant que la société vende vraiment toutes sortes de produits, on peut en déduire :
- les habitudes alimentaires ;
- les goûts musicaux, littéraires et cinématographiques ;
- les hobbies et éventuellement la profession.
Imaginez toutes les informations qui pourraient en être inférées : allergies, tendances politiques, etc. ! Tout cela pouvant éventuellement être renforcé en proposant des services complémentaires d’écoute de musique et de visionnage de films et séries à la demande. Bien entendu, ladite société arguerait du fait que toute l’analyse n’est effectuée que dans le but d’améliorer l’expérience utilisateur en lui proposant des produits adaptés à ses envies. Et nous pourrions imaginer pire avec une entreprise ayant accès à des données plus « sensibles » : mails, photos, position, recherches sur le Web, etc. Heureusement que tout cela ne reste que pure spéculation !
Dans ce numéro hors-série, nous ne vous proposerons pas de simplement transférer des données entre applications, ça nous savons que vous savez le faire ! Nous ne développerons pas non plus de programme permettant de profiler les gens. Nous nous attacherons à comprendre comment extraire des connaissances d’un jeu de données et quels outils employer. Et si par hasard vous croisez l’un des sombres individus responsable de ces applications inergonomiques, n’hésitez pas à lui prêter votre magazine pour porter la bonne parole ! Sur ce, je vous souhaite une bonne lecture !
Tristan Colombo
GNU/Linux Magazine s'adresse aux professionnels et aux particuliers désireux de mieux maîtriser les techniques et problématiques liées à la programmation et à l’utilisation de solutions open source. Tous les deux mois avec ses articles techniques, la publication couvre les thématiques suivantes : programmation système, algo, bas niveau, sécurité du code, développement web...
Lorsque l’on parle d'analyse de données, de big data, on en revient invariablement à la problématique initiale de la qualité des données.
Produire une représentation graphique de ses données, c'est se donner la possibilité de mettre en relief des relations qui ne sont pas forcément triviales et pour cela, de nombreux outils sont disponibles... et s'ils sont en plus capables de traiter des volumes importants de données, ce n'est que mieux !
Christian Surace est ingénieur de recherche en astrophysique au CNRS, dans un domaine où l'analyse de volumes importants de données est habituelle. Il répond ici à nos questions.