Mai / Juin 2021

Gnu/Linux Magazine HS 114

Déployez vos agents sur la toile...

Web scraping & agents de recherche

En savoir plus

14,59 € TTC

Anciens Numéros

LIVRAISON OFFERTE en France Métropolitaine à partir de 50€
GNU/Linux Magazine 272

GNU/Linux Magazine 272

Novembre / Décembre 2024
9,70 €
GNU/Linux Magazine 271

GNU/Linux Magazine 271

Septembre / Octobre 2024
9,70 €
GNU/Linux Magazine 270

GNU/Linux Magazine 270

Juillet / Août 2024
9,70 €
GNU/Linux Magazine 269
9,70 €
GNU/Linux Magazine 268

GNU/Linux Magazine 268

Mars / Avril 2024
9,70 €
GNU/Linux Magazine 267

GNU/Linux Magazine 267

Janvier / Février 2024
9,70 €
GNU/Linux Magazine 266

GNU/Linux Magazine 266

Novembre / Décembre 2023
9,70 €
GNU/Linux Magazine 265

GNU/Linux Magazine 265

Septembre / Octobre 2023
9,70 €
SOMMAIRE :

Outils

p.08 Réalisez des programmes aux performances optimales avec Valgrind

Dossier : Web scraping & agents de recherche

p.30 Introduction au dossier
p.32 Les différents frameworks de web scraping
p.56 Lâchez vos agents sur la Console de Recherche Google !
p.74 Un bot qui surveille le Web et envoie des alertes
p.84 Web scraping avec Node.js

Bas Niveau

p.96 Persistance et objets en C++

Repères

p.110 Écrire des mathématiques en LaTeX

ÉDITO :

Joyeux anniversaire Python !

Cette année Python fête ses 30 ans ! Il me semblait donc important de lui consacrer un édito pour revenir sur le succès de ce langage.

Un apprentissage simple, de très nombreux modules permettant de ne pas réinventer la roue carrée et un écosystème cohérent et performant, voilà ce qui a propulsé Python au sommet du classement des langages de programmation.

Tout au long de ces 30 ans, Python a su évoluer, se remettre en question afin de ne pas stagner. Le système de propositions PEP (Python Enhancement Proposals), dont l’index peut être consulté dans le PEP 0 (https://www.python.org/dev/peps/), a montré toute sa robustesse et son intérêt. Certaines propositions furent maintes fois rejetées pour ensuite aboutir à une intégration dans le langage après discussions acharnées des partisans et des opposants. On peut ainsi prendre pour exemple le très récent PEP 634, intitulé « Structural Pattern Matching : Specification », qui sera intégré dans la version 3.10 de Python. Le titre ne vous dit sans doute rien, le code suivant, extrait du PEP 636 et que Steve Jobs aurait sans aucun doute qualifié de « révolution », vous éclairera sans doute plus :

Eh oui, le switch / case réclamé depuis de nombreuses années par les développeurs arrive enfin ! Il sera désormais inutile de bidouiller [1] ! Python est donc un langage bien vivant ! Cela peut repousser certains développeurs arguant de prétextes fallacieux (« mon code ne sera plus compatible »), mais pour ma part je trouve cela très positif et encourageant : il y a toujours quelque chose à apprendre, un code à optimiser.

En parlant d’apprentissage, j’espère que vous trouverez dans le présent numéro de ce hors-série de quoi nourrir votre curiosité et satisfaire votre soif de savoir. Bonne lecture !

Tristan Colombo

[1] T. COLOMBO, « Python et le cas du switch (ou the switch case en anglais) », GNU/Linux Magazine n°199, décembre 2016 : https://connect.ed-diamond.com/GNU-Linux-Magazine/GLMF-199/Python-et-le-cas-du-switch-ou-the-switch-case-en-anglais

Le magazine de référence technique pour les développeurs sur systèmes open source et les ingénieurs R&D !

GNU/Linux Magazine s'adresse aux professionnels et aux particuliers désireux de mieux maîtriser les techniques et problématiques liées à la programmation et à l’utilisation de solutions open source. Tous les deux mois avec ses articles techniques, la publication couvre les thématiques suivantes : programmation système, algo, bas niveau, sécurité du code, développement web...

Introduction au dossier : Déployez vos agents sur la Toile... Web scraping & agents de recherche
GNU/Linux Magazine n°114

Le web scraping, encore appelé parfois harvesting, n’est pas une pratique nouvelle. Elle consiste à utiliser des programmes ou des scripts pour extraire des données de sites internet. En soi, cela n’est pas réellement difficile, à condition que l’on sache quelles sont les opérations à effectuer et dans quel ordre.

Lâchez vos agents sur la Console de Recherche Google !
GNU/Linux Magazine n°114

Comment organiser un projet mettant en œuvre du web scraping ? Pour répondre à cette question, le plus simple est de se confronter réellement à un problème d’extraction de données, et de voir comment l’analyser et le résoudre.

Côté livres…
GNU/Linux Magazine n°114

Voici une sélection d'ouvrages pour la plupart récemment sortis ou sur le point de sortir et qui ont attiré notre attention.

Ce magazine est intégralement disponible sur Linux Magazine Connect
© 2024 - LES EDITIONS DIAMOND