Exploitation de la donnée

Ref : AT1

Initiation au Machine Learning

Acquérir les connaissances de base du Machine Learning.

EN CLASSE VIRTUELLE

Présentation de la formation

Objectifs pédagogiques

  • Se familiariser et maîtriser les règles de base du Machine Learning
  • Connaître les familles d’algorithmes et développer quelques algorithmes pour appréhender le travail sur les variables et l’optimisation des erreurs de modélisation.
  • Comprendre ce que représente le Machine Learning en termes de possibilité et de savoir-faire.
  • Discerner les besoins de son entreprise, là où elle peut faire monter en compétences ses propres équipes et là où il sera plus efficace de faire appel à de l’expertise externe.

Méthodes pédagogiques

Utilisation d'outils de visioconférences - étude de cas.
Assistance pédagogique assurée par le formateur pour une durée de 2 mois suivant la formation.

Moyens d'évaluation

Evaluation des connaissances via un questionnaire avant et après la formation.

Profil du formateur

Data scientist / expert du Machine Learning

Personnel concerné

Ingénieur et technicien en bureau d’études ou tout autre personne utilisant de la modélisation de données

Prérequis

Connaissances en programmation Python. Les librairies scikit-learn et pandas seront utilisées

Le programme de la formation

  • Les grands principes du Machine Learning
    • Les modélisations supervisées, non-supervisées et par renforcement
    • Les étapes de construction d’un modèle
    • L’évaluation des modèles
    • Travaux pratique : évaluer et comparer des modèles préparés pour l’exercice
  • Préparation des variables
    • La nature statistique des données et leurs dimensions
    • Représenter les variables, détecter les données aberrantes
    • Le ré-échantillonnage de variables
    • Réduire le set de variables pour un modèle, faire avec les multi-colinéarités
    • Traiter les classes rares
  • Les algorithmes
    • Présentation de modèles :
      • régression linéaire simple, multiple, polynomiale, régression logistique ;
      • classification hiérarchique et non hiérarchique (K-means) ;
      • classification par arbres de décision et ensemble Naïve Bayes, Random Forest ;
      • machines à vecteurs supports ;
      • méthodes à noyaux ;
      • Gradient Boosting ;
      • réseau neuronal
    • Mise en pratique

Chaque modèle est accompagné d'un exemple pré-codé. Les exercices s'intercalent dans la présentation pour permettre à chaque équipe de tester les modèles sur leur propre jeu de données.

 

Matériel nécessaire :

Les accès à un outil informatique en ligne adapté seront fournis au stagiaire avant le démarrage de la formation. Aucun logiciel spécifique n'est à installer. Seule une connexion à Internet est requise