Janvier / Février 2018

Gnu/Linux Magazine HS 94

Machine Learning

Le guide pratique pour démarrer en intelligence artificielle

En savoir plus

12,90 € TTC

Anciens Numéros

LIVRAISON OFFERTE en France Métropolitaine à partir de 50€
GNU/Linux Magazine 272

GNU/Linux Magazine 272

Novembre / Décembre 2024
9,90 €
GNU/Linux Magazine 271

GNU/Linux Magazine 271

Septembre / Octobre 2024
9,90 €
GNU/Linux Magazine 270

GNU/Linux Magazine 270

Juillet / Août 2024
9,90 €
GNU/Linux Magazine 269
9,90 €
GNU/Linux Magazine 268

GNU/Linux Magazine 268

Mars / Avril 2024
9,90 €
GNU/Linux Magazine 267

GNU/Linux Magazine 267

Janvier / Février 2024
9,90 €
GNU/Linux Magazine 266

GNU/Linux Magazine 266

Novembre / Décembre 2023
9,90 €
GNU/Linux Magazine 265

GNU/Linux Magazine 265

Septembre / Octobre 2023
9,90 €
SOMMAIRE :

Découvrez… le machine learning, le mécanisme d'apprentissage des intelligences artificielles

p. 08 Petite introduction au Machine Learning

Choisissez… le framework adapté à vos besoins

p. 20 Évaluez efficacement les frameworks de Machine Learning

Préparez… vos données grâce à des outils mathématiques simples

p. 36 Utilisez la régression linéaire pour la prédiction
p. 56 La malédiction de la dimension

Appliquez... 4 exemples concrets pour utiliser le Machine Learning :

p. 74 Comment coder un système de recommandation en Python : l'exemple de Mangaki
p. 88 L'Univers, ses galaxies et le machine Learning
p. 112 Prédiction de structures secondaires de protéines
p. 120 Recherche de molécules innovantes

Préface :

Avec l’explosion du nombre de données disponibles, il faut trouver des méthodes efficaces de traitement pour parvenir à en faire émerger des connaissances. En effet, posséder des milliards et des milliards de données dans différents domaines n’a strictement aucun intérêt en soi si l’on est incapable de les faire « parler », d’établir des relations entre elles ou des inférences. Si nous prenons l’exemple de la biologie, à quoi bon posséder des génomes séquencés si nous nous arrêtons à leurs séquences de nucléotides ? Cela ne nous renseigne en aucune manière sur le fonctionnement de l’organisme étudié. Il faut pour cela passer par les acides aminés, les gènes et leur organisation sur le génome, les protéines, leur structure et leur fonction, etc. Et lorsque les données croissent drastiquement, il n’est plus question d’annotation manuelle et d’expériences (si ce n’est pour valider des hypothèses), il faut un outil informatique puissant qui va aider à faire des prédictions. Cet outil, utilisé par le data scientist (l’expert scientifique chargé de l’analyse de données), peut être le machine learning, thème de ce guide.

De nombreux frameworks permettent d’utiliser le machine learning relativement simplement et ils vous seront présentés de manière plus ou moins avancée dans les différents articles que vous pourrez lire dans les pages suivantes. Il faut toutefois noter deux éléments fondamentaux :

  • La donnée est la clé de tout ! Cela peut sembler trivial, mais si vos données ne sont pas de bonne qualité, vous aurez beau appliquer l’outil le plus performant du monde, vous n’en tirerez aucune information. Et comme le machine learning passe par une phase d’apprentissage, il est quand même assez intéressant que cet apprentissage soit effectué sur des données valides... sous peine de reproduire des erreurs, d’introduire des biais dans vos données et donc de biaiser vos données présentes et futures. Ces données sont donc des éléments à traiter avec beaucoup de considération, à ordonner, nettoyer, enrichir (feature engineering qui peut parfois être automatisé par deep learning dans certains cas spécifiques), etc. C’est d’ailleurs une grande partie du travail de data scientist, si ce n’est la plus importante. 
  • Utiliser un framework permet de gagner du temps... ou pas ! Vous vous rendrez compte que suivant les frameworks, la documentation sera plus ou moins précise et accompagnée d’exemples. Il existe des frameworks très puissants, mais très mal documentés et il est alors plus rapide par exemple de réaliser un clustering K-means à la main qu’à l’aide de méthodes toutes prêtes. Bien entendu, il faut mesurer le rapport gain/risque puisque si vous implémentez un algo que vous ne maîtrisez pas, vous pouvez obtenir des résultats erronés qui vous feront également perdre du temps...

Pour que ce guide soit complet, nous avons voulu le bâtir de manière à proposer des articles présentant les bases théoriques et des exemples pratiques, illustrant comment appliquer le machine learning sur des données et quelles informations en retirer. Vous devriez donc avoir entre les mains tout ce qu’il vous faut pour vous lancer, il ne reste plus qu’à trouver les données...

Tristan Colombo  

Le magazine de référence technique pour les développeurs sur systèmes open source et les ingénieurs R&D !

GNU/Linux Magazine s'adresse aux professionnels et aux particuliers désireux de mieux maîtriser les techniques et problématiques liées à la programmation et à l’utilisation de solutions open source. Tous les deux mois avec ses articles techniques, la publication couvre les thématiques suivantes : programmation système, algo, bas niveau, sécurité du code, développement web...

Machine Learning : la préface du guide pratique pour démarrer en Intelligence Artificielle
GNU/Linux Magazine n°94

Avec l'explosion du nombre de données disponibles, il faut trouver des méthodes efficaces de traitement pour parvenir à en faire émerger des connaissances.

L'Univers, ses galaxies et le machine Learning
GNU/Linux Magazine n°94 Free

Le ciel offre une variété étonnante d'objets célestes. Ces variétés ont fait l'objet depuis l'antiquité de classifications plus ou moins précises au fur et à mesure que les observations élargissaient le champ de nos connaissances. L'oeil et le cerveau humain ont su regrouper, expliquer et inventorier les éléments de l'Univers. Essayons alors d'utiliser la puissance du Machine Learning pour caractériser automatiquement ces galaxies lointaines et mystérieuses.

Utilisez la régression linéaire pour la prédiction
GNU/Linux Magazine n°94
Face à la complexité d’un ensemble de données, le data scientist commence par les scruter sous tous les angles. Cette analyse graphique permet parfois de mettre en évidence des relations entre différentes dimensions. Dans ces cas-là, il est alors tentant de quantifier cette relation. Parmi les outils à la disposition du data scientist, la régression linéaire est l’un des plus simples, dont nous allons voir qu’il ne permet pas uniquement de lier des données selon une relation linéaire.
Ce magazine est intégralement disponible sur Linux Magazine Connect
© 2024 - LES EDITIONS DIAMOND