Le programme complet est consultable sur la page du Master Statistique des Données pour la Décision Publique du site de l’ENSAI.
UE1 Machine Learning
Apprentissage statistique (Machine Learning)
Enseignant |
Sébastien Da Veiga |
Cours |
18h |
Ateliers |
12h |
Langue |
Anglais (cours) et Français (ateliers) |
- Modèles Linéaires : Régression et classification, techniques de pénalisation.
- Méthodes Locales : Approches basées sur la proximité des données.
- SVM (Support Vector Machine) : Modèle pour la classification et la régression avec le kernel trick.
- Forêts d’arbres décisionnels (Random Forest) : Méthode d’ensemble pour améliorer la précision des prédictions.
- Comparaison Empirique des Modèles : Techniques pour évaluer et comparer empiriquement la performance des modèles pour des tâches spécifiques.
Apprentissage profond (Deep Learning)
Enseignant |
Ikko Yamane |
Cours |
24h |
Langue |
Français |
- Principe des réseaux de neurones
- Propriétés des réseaux de neurones simples
- Descente de gradient
- Réseaux de neurones profonds
Webmining et Traitement du langage
Enseignant |
Guillaume Gravier (Irisa) |
Cours |
9h |
Atelier |
12h |
Langue |
Anglais |
- Collecter des données
- Extraire de l’information et apparier des sources textuelles
- Classification, Analyse de sentiment
- Modèles d’étude de la langue
UE2 Développement d’application et DataOps
Génie Logiciel
Enseignants |
Djamel Eddine KHELLADI et Alban GRÉAU |
Cours |
24h |
Atelier |
24h |
Commun avec les ID |
Oui |
- Patrons de conception, Bonnes pratiques
- Contenerisation et Orchestration
- Tests, TDD, Couverture de tests
- CICD
- Java - Maven - Spring Boot - JPA - Hibernate
- Cloud avec AWS (s3, RDS, Elastic Beanstalk)
Cours de Rémi (2023)
Développement Web
Les élèves doivent choisir entre ce cours et celui de DataOps.
Enseignant |
Olivier Chantrel |
Cours |
12h |
Atelier |
15h |
Commun avec les ID |
Oui |
- XML, DOM, SAX
- Web, HTML, CSS, Bootstrap
- PHP, MySQL, MariaDB
- AJAX, JavaScript (Angular, React, Vue.JS)
DataOps
Les élèves doivent choisir entre ce cours et celui de Développement Web.
- DataOps, MLOps et DevOps
- AWS Cloud platform
- Infrastructure as Code
- CI/CD
- Docker, Kubernetes
- Data pipelines et data observability
UE3 Big Data
Technologies NOSQL et Cloud
- SQL et NoSQL
- Système de fichiers distribué avec HDFS
- Traitement distribué avec Hadoop MapReduce
- Virtualisation et conteneurisation
- DynamoDB, Google BigTable, MongoDB, Neo4J
Indexation Web
Enseignant |
Lara Perinetti |
Cours |
9h |
Ateliers |
6h |
Langue |
Français |
Commun avec les ID |
Oui |
Ce cours couvre la collecte d’informations web, l’Information Retrieval, la constitution et l’organisation de corpus, et l’utilisation de l’algorithme PageRank. Les élèves apprendront des techniques de classification de documents textuels et d’opinion mining, incluant l’analyse de sentiments et l’évaluation de modèles.
- Information Retrieval :
- Concepts : tf-idf, stemming, Regex, kmeans.
- Pratique : Construction de term-document matrix, utilisation de PageRank.
- Opinion Mining :
- Concepts : Sentiment analysis, annotation syntaxique.
- Pratique : Constitution de corpus, annotation et classification de textes.
Publication de données respectueuses
Enseignant |
Tristan Allard et Julien Jamme |
Cours |
9h |
Langue |
Français |
Commun avec les ID |
Oui |
La publication de données respectueuses de la vie privée est essentielle pour permettre des analyses de données tout en protégeant les informations personnelles :
- Méthodes de Partitionnement : Techniques comme le k-anonymat et la l-diversité sont précieuses mais ont des limites.
- Confidentialité Différentielle : Aujourd’hui la norme de référence, elle offre des garanties formelles grâce à des techniques de perturbation des données.
- Vulnérabilités : Les schémas de publication restent vulnérables à des attaques telles que la ré-identification et l’inférence de membership.
- Défis Complexes : Les données personnelles posent des défis en matière de confidentialité, nécessitant des améliorations continues des techniques de protection.
- Évolution Historique : Comprendre l’évolution des méthodes aide à mieux appréhender les approches modernes.
- Cycle Sans Fin : La lutte pour la protection de la vie privée est un cycle sans fin, exigeant vigilance et innovation constantes.
UE4 Système et Réseaux
Initiation à Unix
Enseignant |
Sébastien Le Corre |
Cours |
15h |
Ateliers |
6h |
Langue |
Français |
- Introduction à GNU/Linux : Familiarisation avec le système d’exploitation GNU/Linux, son histoire et ses principes fondamentaux.
- Installation d’une distribution : Étapes pour installer une distribution GNU/Linux sur un système.
- Le shell : Utilisation et manipulation du shell (interpréteur de commandes) pour exécuter des tâches et automatiser des processus.
- Utilisateurs, groupes, permissions : Gestion des utilisateurs, des groupes et des permissions pour sécuriser l’accès aux fichiers et aux ressources système.
- La gestion des paquets : Méthodes pour installer, mettre à jour et supprimer des logiciels via les gestionnaires de paquets de GNU/Linux.
- La gestion du réseau : Configuration et gestion des paramètres réseau, y compris la connexion, la configuration IP et la résolution de noms.
- Méthodes de dépannage : Techniques et outils pour diagnostiquer et résoudre les problèmes courants rencontrés dans un environnement GNU/Linux.
Réseaux et Systèmes d’exploitation
Enseignant |
Thomas Correge |
Cours |
15h |
Ateliers |
6h |
Langue |
Français |
- Gestion des Ressources par les OS : Exploration des mécanismes par lesquels les systèmes d’exploitation gèrent le matériel et les ressources logicielles.
- Processus et Multithreading : Étude des processus, leur création, gestion et synchronisation, ainsi que l’utilisation efficace du multithreading pour améliorer les performances des applications.
- Topologies et Technologies Réseau : Analyse des différentes architectures réseau, telles que LAN, WAN, et des technologies sous-jacentes comme Ethernet, WiFi, et leurs implications.
- Modèles en Couches : Compréhension des modèles OSI (Open Systems Interconnection) et TCP/IP, et comment ces modèles organisent les communications réseau.
- Concepts de Sécurité : Introduction aux concepts de DMZ (Zone Démilitarisée), pare-feu et proxy pour sécuriser les réseaux, ainsi qu’une sensibilisation aux risques liés à la sécurité informatique.
Systèmes répartis
Enseignant |
David Gross-Amblard |
Cours |
15h |
Ateliers |
6h |
Langue |
Français |
Ce cours approfondit les architectures distribuées à l’échelle mondiale, avec une focalisation sur les grilles, les systèmes peer-to-peer (P2P) et le cloud. Les objectifs incluent la compréhension des concepts fondamentaux tels que la synchronisation et l’exclusion mutuelle, ainsi que l’étude des algorithmes associés à chaque type d’architecture.
- Introduction aux Architectures Distribuées : Exploration des différentes architectures réparties.
- Concepts Fondamentaux : Synchronisation, exclusion mutuelle, et autres concepts clés.
- Approches Centralisées et Semi-centralisées : Étude du cloud computing et des grilles.
- Approches Décentralisées : Analyse des systèmes P2P structurés, non-structurés et hybrides.
- Applications Pratiques : Utilisation dans les systèmes de partage de fichiers et les protocoles épidémiques.
Sécurité des données
Enseignant |
David Gross-Amblard |
Cours |
9h |
Ateliers |
9h |
Langue |
Français |
Ce cours explore les principes fondamentaux de la sécurité informatique, en mettant l’accent sur la protection des données dans un contexte d’actualité dynamique marqué par des attaques spectaculaires et l’évolution des législations. La cryptographie est présentée comme un outil essentiel pour prévenir la divulgation, la modification et l’accès non autorisé aux données.
- Introduction à la Sécurité : Analyse des besoins et des menaces en matière de sécurité informatique.
- Cryptography :
- Cryptographies à clés secrètes et publiques.
- Protocoles cryptographiques pour assurer la confidentialité, l’intégrité, la signature et l’authentification des données.
- Systèmes Utilisateurs :
- Applications Web et sécurité.
- Sécurité des transactions par carte bancaire.
- Sécurité des applications réseau.