Aller au contenu

Big Data


Objectifs de la formation en Big Data

À l’issue de cette formation, vous serez en mesure de :

  • Développer des applications de Big data et Machine Learning avec Spark et Python
  • Utiliser la programmation parallèle sur un cluster
  • Développer et optimiser des algorithmes standards de Machine Learning
  • Utiliser les bibliothèques Python pour le Machine Learning
  • Décrire le cycle de vie d’un projet en Data Science

Modalités, méthodes et moyens pédagogiques

La formation est dispensée en présentiel ou à distance (blended-learning, e-learning, classe virtuelle, présentiel à distance).

Le formateur alterne entre méthode démonstrative, interrogative et active (via des travaux pratiques et/ou des mises en situation).

Les moyens pédagogiques mis en œuvre varient selon les formations et incluent :

  • Ordinateurs Mac ou PC (sauf pour certains cours de l’offre Management), connexion internet fibre, tableau blanc ou paperboard, vidéoprojecteur ou écran tactile interactif (pour le distanciel)
  • Environnements de formation installés sur les postes de travail ou en ligne
  • Supports de cours et exercices
  • Nous consulter pour la faisabilité en distanciel

Prérequis

  • Connaissances en mathématiques algébriques pour interpréter les algorithmes à mettre en œuvre
  • Maîtrise du langage Python (des rappels seront faits pendant la formation)

Public concerné

Toute personne souhaitant acquérir des compétences dans le développement d’applications de Machine Learning.

Programme

Jour 1 : Vue d’ensemble du Big Data et du Machine Learning

  • Introduction au Big Data et au Machine Learning
  • Perspectives offertes par le Big Data
  • Les acteurs du Big Data
  • Exemples pratiques
  • Technologies concernées
  • Divers métiers liés au Big Data
  • Aspects économiques (OPEX, CAPEX, TRI) du Cloud vs On-Premise
  • Démonstration d’applications

Jour 2 : Machine Learning et IA : Algorithmes

  • Concepts du Machine Learning
  • Différences entre données supervisées et non supervisées
  • Bibliothèques : Scikit-learn, Tensorflow, PyTorch, Keras
  • Algorithmes : régression, modèles linéaires, classification, Naive Bayes, K-NN, clustering K-Means

Jour 3 : Algorithmes avancés

  • DBScan, arbres de décision et de régression, SVM, réseaux de neurones et Deep Learning

Jour 4 : Développer avec Spark

  • Introduction à Apache Spark
  • Machine Learning avec Apache Spark MLlib
  • Traitement des données en temps réel avec Apache Spark Streaming
  • Requêtes SQL avec Apache Spark SQL
  • Modélisation de réseaux sociaux avec des graphes et Apache Spark GraphFrames

Jour 5 : Outils de visualisation des données (Dataviz)

  • Définition et principes de la Dataviz
  • Acteurs principaux de la Dataviz
  • Exemples d’analyse avec des bibliothèques Python, Tableau Desktop/Public, Microsoft Power BI