
Hajar AIT EL KADI
ML Engineer
Compétences techniques
- Langages : Python, Scala
- Framework : Django
- API : RESTful
- Paradigme : OOP, Procédural
- Tests : unitaires, d’intégration, fonctionnels et AB Testing
- Clean Code : SOLID
- Pratiques : TDD, Pair Programming, Mob Programming
- Langage : SQL
- Traitement : Spark
- SGBD : Cassandra, MongoDB, Neo4j
- Machine Learning : Scikit-Learn, XGBoost, LightGBM, CatBoost
- Deep Learning : Pytorch, Keras
- Intégration continue : Git, Gitlab, Jira
- Déploiement : Ansible
- Cloud : GCP
- Agilité : Scrum, Kanban
Évaluation des compétences
Labs Move to Prod
QwikLabs
- GCP Big Data and ML Fundamentals (BigQueryML, CloudSQL SparkML, Cloud Dataflow, Cloud Vision API, AutoML)
- Modernizing Data Lakes and Data Warehouses with GCP (Cloud Storage, Building Data warehouse, data lake
- Building Batch Data Pipelines on GCP (Execute Spark on DataProc, Cloud Data Fusion and Cloud Composer, Cloud Dataflow)
- Building Resilient Streaming Analytics Systems on GCP (Cloud Pub/Sub, BigQuery, BigTable)
KataCoda
- Continuous Integration and Continuous Delivery (Jenkins)
- Infrastructure Automation and Configuration (Ansible)
- Container Runtimes, Builders and Registries (Docker)
Certifications
- 2020 - Google Cloud Certified – GCP Professional Data Engineer
Formation
- 2018 à 2019 : Ingénieur Civil de l’Ecole des Mines de Saint-Etienne, Spécialisation Science des Données et Big Data
- 2016 à 2018 : Ingénieur d’Etat en Informatique (Ecole Nationale Supérieure d’Informatique et d’Analyse des systèmes)
Veille technologique
- 2020 - Coursera – Data Engineering, Big Data and Machine Learning on GCP
Expérience professionnelle
Depuis Octobre 2020 Assistance Publique - Hôpitaux de Paris - (APHP)
Poste
- ML Engineer
Projet
- Caractérisation de bradycardie et d’arrêt cardiaque inopiné en réanimation lors de l’infection virale Covid-19
Contexte
- Caractériser et prédire les survenues de bradycardie et d’arrêt cardiaque au cours d’une infection virale par la Covid-19
Missions
- Compréhension de l’architecture des bases de données
- Conception du pipeline (data extraction, data analysis, modelling, prediction)
- Construction de la population des patients à étudier depuis l’entrepôt de données AP-HP
- Description des caractéristiques de cette population (DataViz, statistiques descriptifs)
- Prédiction de la survenue d’un arrêt cardiaque inopiné en réanimation au cours de l’infection virale par la Covid-19
- Mise en évidence des facteurs prédictifs de survenue de la bradycardie en réanimation au cours d’une infection virale par Covid-19
- Documentation des résultats
- Présentation et interprétation des résultats aux équipes médicales
Compétences techniques
- Langage primaire : Python
- Paradigme : Procédural
- Environnement : JupyterLab
- Stockage : Entrepôt AP-HP (Postgres)
- Traitements : Python (Numpy), SQL
- Algorithmes : Scikit-learn
- Tests : Tests unitaires
- Visualisation : Pyplot, Seaborn, Matplotlib, SHAP
Équipe
- 4 data scientists et un médecin chercheur
Avril 2019 à Septembre 2020 BOURSORAMA
Poste
- Développeur Python & Scala | Spark
Projet
- Optimisation du ciblage des communications marketing
Contexte
- Scoring d’appétences : Qualification de l’appétence d’un client à un produit donné via des modèles de scores d’appétence à travers la construction d’une API à base d’algorithmes de Machine Learning
- Moteur de recommandation : Qualification de l’appétence d’un client à l’offre des différents produits et services de Boursorama
Équipe
- Data Marketing, 10 personnes
Missions
- Compréhension de l'existant (sources de données, modèle de régression logistique legacy sur SAS,...)
- Conception et développement de l’API REST
- Conception du pipeline : preprocessing, training, predicting et monitoring
- Récupération des données et feature engineering
- Modélisation d’algorithmes de Machine Learning (Forêts aléatoires, XG-Boost, LightGBM)
- A/B testing
- Présentation et interprétation des résultats aux équipes Marketing et IT
- Passage de l’API en mode distribué (Scala/Spark) sur le nouveau Bac à Sable Boursorama
- Rédaction de documentation
Problématique
- Performance : amélioration des temps de traitement de calcul sur les machines locales (8 à 12 heures au démarrage à 10 minutes au final)
Compétences techniques
- Langages : Python, Scala
- Paradigme : OOP, Fonctionnel
- IDE : Pycharm, Jupyter Notebook
- Tests : AB Testing
- Stockage : HDFS (Hadoop), Cassandra
- Traitements : Spark
- Analyse : Zeppelin, Tableau
- Méthodes : Statistiques
- Manipulation : Numpy, Pandas
- Machine Learning : Scikit-Learn, XGBoost, LightGBM
- Intégration continue : Git, BitBucket
- Travail d’équipe : Confluence
- Bugs tracking : Jira
Juillet 2018 à Mars 2019 ISPITS
Poste
- Développeur Python | Analyse prédictive
Contexte
- Outil de scraping d’un site d’offres d’emploi dans le domaine de santé. Le but est d’analyser le marché de l’emploi pour les professions infirmières (infirmiers polyvalents, sages femmes…)
Missions
- Conception de la base de données
- Récupération des données
- Analyse de la syntaxe HTML
- Nettoyage et analyse des données récupérées
- Présentation des résultats
Problématique
- Données non renseignées sur le site
Compétences techniques
- Langage primaire : Python
- Paradigme : Fonctionnel
- Méthodes : Statistiques
- Manipulation : Numpy, Pandas, BeautifulSoup
- Stockage : MongoDB