Freelancer profile translated to English.

Description

Besoin d'aide pour exploiter vos données, créer des modèles de prédiction ou automatiser des tâches fastidieuses ? Besoin d'extraire des informations du web ou de travailler avec des API ?

Vous avez des données à ne plus savoir quoi en faire et avez besoin de les nettoyer, enrichir et mettre en valeur ? Vous êtes en quête d'automatisation du traitement ou de l'extraction de données ? Vous désirez mettre à profit vos données via des modèles de ML avancés ?

En tant que diplômé de master en Data Science & ML , je travaille régulièrement sur des projets impliquant du data processing, du scraping et de la data visualisation sur des dashboards interactifs. Je suis également très intéressé par des projets de ML, NLP etc.

Industry field of expertise

Languages

Arabic
Native or bilingual
French
Native or bilingual
English
Conversational

Workplace preferences

Remote only

Primarily works remotely

AWLYG Tech (ONCF)
Machine Learning Engineer
TRANSPORTATION
February 2023 - August 2023 (6 months)
Paris, France
1) Projet analyse des anomalies sur les trains en temps réel

Interlocuteurs : Client (Data Scientist) et Métier (Expert en transport ferroviaire)

Equipe Projet: 1 ML engineer/développeur python , 2 Data Scientist , 2 Développeur web

Ce projet a pour but de développer une application qui permet d'analyser les anomalies sur les trains en temps réel, en utilisant des modèles de détection d'objets et des algorithmes de traitement d'images avancés.

L'application permet d'identifier rapidement les anomalies dans les trains et de prendre des mesures immédiates pour corriger les problèmes, ce qui peut contribuer à améliorer la sécurité et la fiabilité du transport ferroviaire.

En utilisant la communication socket (SocketIO) pour assurer une transmission rapide et efficace des données, le projet permet une analyse en temps réel des images capturées par les caméras de surveillance dans les trains.

L'application est spécialement conçue pour être utilisée dans un environnement JETSON NANO/NVIDIA, qui est un dispositif informatique compact et puissant doté d'une capacité de traitement graphique élevée.

En fin de compte, le projet offre une solution efficace pour la surveillance des trains en temps réel, en utilisant des technologies de pointe pour améliorer la précision et la rapidité de la détection des anomalies, ce qui peut contribuer à réduire les risques pour les passagers et le personnel de transport.

Tâches effectuées :
Création d'une application qui se base sur la communication socket (SocketIO).
Parallélisation du traitement des événements et la possibilité de contrôler le traitement (ON/OFF) (Threading).
Possibilité d'exécuter les modèles ONNX (YOLOV5) et d'appliquer les modèles de type DeepSort pour enlever la redondance sur les détections.
Amélioration du processus en créant une queue pour les frames depuis le flux RTSP en même temps que la détection.
Adaptation du projet pour un environnement JETSON NANO/NVIDIA (GPU, TensorRT, CUDA...).
Possibilité de mettre à jour le projet et de redémarrer les machines Jetson connectées.
Dockerisation.
Documentation et scripts d'installation.

2) Amélioration de la Surveillance et de la Qualité du Transport Multimodal par le Machine Learning et l'Analyse de Données OpenDATA
Développement d’un modèle de machine learning permettant de prédire les catégories des messages envoyé par les concurrents du client.
Analyse des chaînes de données openDATA de l'offre de transport Multimodale.
Développement d’un outil d’analyse et de détection des écarts
Mettre en place des indicateurs de cohérence pour contribuer aux activités de mise en qualité des Tableaux d'Information Multimodale.
Python Multithreading CUDA TensorRT Pytorch YOLO OpenCV Socket.io Embedded Linux Systèmes embarqués kafka ONNX Jetson Docker Linux embarqué DevOps Deepsort
Wemblee
Data Scientist NLP / Python Developer
SOFTWARE PUBLISHING
March 2020 - January 2023 (2 years and 11 months)
Puteaux, France
Projets :
Automatisation de l'Extraction d'Entités Nommées dans l'Immobilier
Analyse des données hypothécaires
Projets en interne

1) Projet Automatisation de l'Extraction d'Entités Nommées dans l'Immobilier

Interlocuteurs : Client (Développeur) et Métier (Expert en vente immobilière et gestion documentaire)

Equipe Projet : 1 Data Scientist / 1 Tech Lead / 1 Développeur JAVA

Le projet RENER (Reconnaissance d'Entités Nommées dans l'Immobilier) a été développé en utilisant une combinaison de techniques de traitement du langage naturel (NLP) et d'expressions régulières (regex). Cette approche permet une extraction précise et efficace des entités nommées à partir de documents de vente immobilière, en identifiant les motifs et les schémas dans les textes.

Le projet RENER a été développé pour répondre aux besoins de l'entreprise QDN, qui est active dans le secteur immobilier. Il leur permet de traiter rapidement de grands volumes de données immobilières et d'extraire des informations clés à partir de documents de vente immobilière tels que les contrats, les titres de propriété et les relevés bancaires.

En utilisant le projet RENER, QDN peut améliorer l'efficacité de ses processus et réduire les erreurs humaines en fournissant des informations précises et pertinentes sur les propriétés immobilières. Les entités nommées extraites par le projet RENER peuvent inclure des noms de personnes, des adresses, des numéros de téléphone, des noms de rues, etc., ce qui leur permet de mieux comprendre les données immobilières et de prendre des décisions éclairées.

Le projet RENER est conçu pour être facile à utiliser et à intégrer dans les systèmes existants de QDN. Il est également évolutif et peut être adapté aux besoins spécifiques de l'entreprise. En somme, le projet offre une solution efficace pour l'analyse des entités nommées dans les documents de vente immobilière, contribuant ainsi à améliorer la qualité du service et la satisfaction des clients de QDN.

Tâches effectuées :
Collecte et extraction de texte à partir des documents pour constituer une vaste base de vérité terrain
Construction d'un tableau de bord et d'un pipeline pour comparer les modèles et la vérité terrain
Développement et test de différents types de modèles
Combinaison des meilleurs modèles avec des expressions régulières (REGEX)
Déploiement de la solution (Tornado & Docker)
Rédaction de la documentation
Amélioration continue

2) Projet Analyse des données hypothécaires (wemblee , hypotex.ai)

Interlocuteurs : Chef de projet et Métier (domaine immobilier et notarial)

Equipe Projet : 1 Data Scientist / 1 Tech Lead / 1 Développeur Back-end / 1 Développeur Front-end

Un état hypothécaire est un document qui décrit l'état d'une hypothèque sur une propriété. Il peut inclure des informations telles que le montant de la dette hypothécaire, le taux d'intérêt, les dates d'échéance, les conditions de remboursement, etc. Les états hypothécaires sont des documents importants pour les propriétaires de biens immobiliers et les institutions financières qui les émettent.

L'analyse des états hypothécaires à l'aide de l'IA peut permettre d'extraire rapidement et efficacement des informations clés à partir de documents volumineux. Les méthodes d'IA utilisées peuvent inclure le traitement de langage naturel (NLP), qui permet d'analyser le texte des documents pour en extraire des informations, l'apprentissage automatique (machine learning), qui permet de créer des modèles d'analyse à partir de données d'entraînement, et la vision par ordinateur, qui permet de reconnaître et d'analyser les images des documents.

En utilisant ces méthodes d'IA, il est possible d'extraire des informations clés sur l'état des hypothèques, telles que les taux d'intérêt, les dates d'échéance et les montants de paiement, avec une grande précision et efficacité. Cela peut permettre aux entreprises et aux institutions financières de prendre des décisions éclairées, d'identifier les risques potentiels et de gérer plus efficacement leur portefeuille hypothécaire.

En somme, l'analyse des états hypothécaires à l'aide de l'IA offre une solution efficace pour traiter rapidement de grandes quantités de données hypothécaires et d'extraire des informations clés à partir de documents volumineux. Cette solution peut contribuer à améliorer l'efficacité des processus et à réduire les erreurs humaines, ce qui peut avoir un impact positif sur les résultats financiers des entreprises et des institutions financières.

Tâches effectuées :
Conception d'une API Python pour analyser et traiter les états hypothécaires.
Utilisation des techniques de computer-vision comme OCR et OpenCV pour extraire le texte des documents.
Application du NLP pour affiner l'analyse du texte et extraire des informations pertinentes.
Exploitation d'AWS S3 pour le stockage des documents PDF et GCP pour traiter le texte manuscrit.
Parallélisation de l'extraction via multi-threading par document et par page.
Mise en œuvre de Tesseract pour des aspects OCR avancés.
Indexation des documents avec ELK (Elasticsearch, Logstash, Kibana) et création d'un moteur de recherche.
Déploiement de l'infrastructure cloud sur AWS et GCP pour une gestion optimale des données et capacités de calcul.
Conteneurisation pour un déploiement flexible et maintenance continue de l'API.

3) Divers projets

Interlocuteurs : Métier (domaine immobilier, notarial, Finance)

Equipe Projet : 1 Data Scientist / 1 Tech Lead / 1 Développeur Back-end / 1 Développeur Front-end

Tâches effectuées :
Collecte, modélisation et analyse des données depuis un scraper vers Redshift : scraping, SQLALCHEMY, AWS Redshift , Metabase et dataiku
Segmentation des clients en se basant sur leur CSP (Catégories socioprofessionnelles)
Création des flows sur dataiku pour analyser les données
Mise en place de la communication Kafka pour tous nos microservices (en Java et en Python)
Développement d'une application Java (Play) pour CREOSIA : (Implémentation du back-end d'une maquette, Mailjet, PayPlug, export PDF...)
Création des tableaux de bord sur Métabase et Dataiku
Création de flux sur Postman pour s'assurer de la performance des différents services
Web Scraping
Tests (unittest & TestRail)
Centralisation de tous les logs et messages Kafka sur Kibana : ELK Stack
Classification des documents (NLP & OCR)
OpenCV OCR Python Docker AWS AWS Lambda AWS Glue Bitbucket Multithreading Tornado BERT CamemBERT Nltk Spacy Named entity recognition ( NER ) Tesseract Google cloud Elasticsearch Elastic Stack (ELK) Web Scraping Selenuim Amazon Redshift SQLAlchemy MongoDB Postman TestRail Elastic Stack (ELK) OCR Apache Kafka Java Play framework Dataiku DSS Metabase Développement web flask FastAPI Streamlit