Exploitation de la donnée

Ref : AT1

Initiation au Machine Learning

Acquérir les connaissances de base du Machine Learning.

Présentation de la formation

Objectifs pédagogiques

  • Se familiariser et maîtriser les règles de base du Machine Learning
  • Connaître les familles d’algorithmes et développer quelques algorithmes pour appréhender le travail sur les variables et l’optimisation des erreurs de modélisation.
  • Comprendre ce que représente le Machine Learning en termes de possibilité et de savoir-faire.
  • Discerner les besoins de son entreprise, là où elle peut faire monter en compétences ses propres équipes et là où il sera plus efficace de faire appel à de l’expertise externe.

Méthodes pédagogiques

Utilisation d'outils de visioconférences - étude de cas.
Assistance pédagogique assurée par le formateur pour une durée de 2 mois suivant la formation.

Moyens d'évaluation

Evaluation des connaissances via un questionnaire avant et après la formation.

Profil du formateur

Data scientist / expert du Machine Learning

Personnel concerné

Ingénieur et technicien en bureau d’études ou tout autre personne utilisant de la modélisation de données

Prérequis

Connaissances en programmation Python. Les librairies scikit-learn et pandas seront utilisées

Le programme de la formation

  • Les grands principes du Machine Learning
    • Les modélisations supervisées, non-supervisées et par renforcement
    • Les étapes de construction d’un modèle
    • L’évaluation des modèles
    • Travaux pratique : évaluer et comparer des modèles préparés pour l’exercice
  • Préparation des variables
    • La nature statistique des données et leurs dimensions
    • Représenter les variables, détecter les données aberrantes
    • Le ré-échantillonnage de variables
    • Réduire le set de variables pour un modèle, faire avec les multi-colinéarités
    • Traiter les classes rares
  • Les algorithmes
    • Présentation de modèles :
      • régression linéaire simple, multiple, polynomiale, régression logistique ;
      • classification hiérarchique et non hiérarchique (K-means) ;
      • classification par arbres de décision et ensemble Naïve Bayes, Random Forest ;
      • machines à vecteurs supports ;
      • méthodes à noyaux ;
      • Gradient Boosting ;
      • réseau neuronal
    • Mise en pratique

Chaque modèle est accompagné d'un exemple pré-codé. Les exercices s'intercalent dans la présentation pour permettre à chaque équipe de tester les modèles sur leur propre jeu de données.

 

Matériel nécessaire :

Les accès à un outil informatique en ligne adapté seront fournis au stagiaire avant le démarrage de la formation. Aucun logiciel spécifique n'est à installer. Seule une connexion à Internet est requise

Pour les sessions animées en classe virtuelle

Principe

La formation en ligne est animée « en direct » par un formateur présent en permanence. Les formateurs ont reçu une formation spécifique à l’animation d’une classe virtuelle. Ils proposent des interactions, exercices, échanges de pratiques fréquents afin de favoriser l’engagement et la montée en compétences des participants.

L’animateur utilise les logiciels Classilio Via ou Teams et la taille des groupes est de 6 à 8 participants en général.

Le lien de connexion à la classe virtuelle vous sera envoyé quelques jours avant le début de la formation. 

Équipement nécessaire

Un ordinateur (Mac, PC) ou tablette si possible équipé d’une webcam, un micro, un haut-parleur ou de préférence d’un micro-casque.

Une connexion internet (ADSL, fibre - filaire préconisée) autorisant l’utilisation de la voix et l’image (assurez-vous que l’accès WEB que vous allez utiliser permet les liaisons vidéo, entre-autres que les ports ne sont pas bloqués par votre serveur)

Une adresse mail valide et qui sera utilisable pendant la séance.

Une ligne téléphonique directe ou un numéro de portable pour être joignable rapidement pendant la séance en cas de problème technique.