Big Data
Objectifs de la formation en Big Data
À l’issue de cette formation, vous serez en mesure de :
- Développer des applications de Big data et Machine Learning avec Spark et Python
- Utiliser la programmation parallèle sur un cluster
- Développer et optimiser des algorithmes standards de Machine Learning
- Utiliser les bibliothèques Python pour le Machine Learning
- Décrire le cycle de vie d’un projet en Data Science
Modalités, méthodes et moyens pédagogiques
La formation est dispensée en présentiel ou à distance (blended-learning, e-learning, classe virtuelle, présentiel à distance).
Le formateur alterne entre méthode démonstrative, interrogative et active (via des travaux pratiques et/ou des mises en situation).
Les moyens pédagogiques mis en œuvre varient selon les formations et incluent :
- Ordinateurs Mac ou PC (sauf pour certains cours de l’offre Management), connexion internet fibre, tableau blanc ou paperboard, vidéoprojecteur ou écran tactile interactif (pour le distanciel)
- Environnements de formation installés sur les postes de travail ou en ligne
- Supports de cours et exercices
- Nous consulter pour la faisabilité en distanciel
Prérequis
- Connaissances en mathématiques algébriques pour interpréter les algorithmes à mettre en œuvre
- Maîtrise du langage Python (des rappels seront faits pendant la formation)
Public concerné
Toute personne souhaitant acquérir des compétences dans le développement d’applications de Machine Learning.
Programme
Jour 1 : Vue d’ensemble du Big Data et du Machine Learning
- Introduction au Big Data et au Machine Learning
- Perspectives offertes par le Big Data
- Les acteurs du Big Data
- Exemples pratiques
- Technologies concernées
- Divers métiers liés au Big Data
- Aspects économiques (OPEX, CAPEX, TRI) du Cloud vs On-Premise
- Démonstration d’applications
Jour 2 : Machine Learning et IA : Algorithmes
- Concepts du Machine Learning
- Différences entre données supervisées et non supervisées
- Bibliothèques : Scikit-learn, Tensorflow, PyTorch, Keras
- Algorithmes : régression, modèles linéaires, classification, Naive Bayes, K-NN, clustering K-Means
Jour 3 : Algorithmes avancés
- DBScan, arbres de décision et de régression, SVM, réseaux de neurones et Deep Learning
Jour 4 : Développer avec Spark
- Introduction à Apache Spark
- Machine Learning avec Apache Spark MLlib
- Traitement des données en temps réel avec Apache Spark Streaming
- Requêtes SQL avec Apache Spark SQL
- Modélisation de réseaux sociaux avec des graphes et Apache Spark GraphFrames
Jour 5 : Outils de visualisation des données (Dataviz)
- Définition et principes de la Dataviz
- Acteurs principaux de la Dataviz
- Exemples d’analyse avec des bibliothèques Python, Tableau Desktop/Public, Microsoft Power BI