Thomas : Data Scientist
Disponibilité : Maintenant {[{ (freelance.date_available <= now() ? 'Maintenant' : freelance.date_available|date:'dd/MM/yyyy') }]} Maintenant disponible sous {[{ freelance.preavis }]} mois {[{ freelance.availability }]} Maintenant

Dernière connexion le : 11/10/2021
Il y a 10 jours
Contacter ce freelance Télécharger son CV
CE PROFIL M'INTÉRESSE !
COMMENT ÇA MARCHE ?

1- Je clique sur
"être mis en contact"
Ce profil m'intéresse!

2- Le consultant reçoit la proposition et décide de postuler

3- Vous effectuez une demande de contact puis LeHibou appelle le consultant pour valider ses compétences

4- Un RDV est organisé entre vous et le consultant

5- LeHibou effectue le suivi de mission et facture chaque fin de mois le nombre de jours travaillés
Thomas

Data Scientist

31 ans —  Paris

Note Globale    

Thomas

id : #13427

31 ans

Paris

Data Scientist

Thomas

Dernière expérience

 

CRITICAL FUTURE - Paris (75000)
DATA SCIENTIST

Mars 2021 - Août 2021

Amazon Vendor Central est une plateforme permettant aux entreprises de vendre directement à Amazon. Amazon se charge de faire le distribution sur la market place. Amazon envoie de manière quotidienne et automatique des quantités que l'entreprise doit livrer sous 10 jours. L'objectif de la mission est de prédire la demande mensuelle de chaque SKU sur un horizon année +1

  • Audit des data fournis par le client. Cette étape a été primordiale car elle nous a permis de bien centraliser les data disponibles en interne, les problèmes de cette dernière et aussi comment l'IT organise la base de donnée. L'audit des tables a aussi permis de mieux comprendre la manière dont Amazon fonctionne dans ses demandes
  • Extraction de variables externes, a savoir les prix, les notes, les ventes, et les caractéristiques des produits pour chaque SKU (environ 1300) pour tous les marchés servis, à savoir la France, LlAllemagne, Italie, Espagne et UK. D'autre part, j'ai téléchargé les données de Google trend pour chaque catégorie et marque vendue par le client. Il a fallu prendre en compte la langue d'origine pour extraire les bons volumes de données. Par exemple, pour connaitre le trend des ordinateurs en France, il faut utiliser mot clé "ordinateur", mais au UK, il faut le traduire par "computer".
  • Création de la donnée de modélisation en préparant, nettoyant et regroupant toutes les tables nécessaires. Lors de cette étape, des techniques de controle et de qualité de la donnée ont été mis en place pour s'assurer que l'ingestion et la préparation en vue du training ne possède pas de problème.
  • L'un des plus gros challenge lorsque l'on travaille avec Amazon, c'est de devoir faire une prédiction réalisée par l'IA d'Amazon. Les quantités demandées par Amazon sont intermittentes, avec une large variabilité (il est possible d'avoir une progression de plus de 1000% sur certains SKU, sans raison apparente). Le modèle devait donc etre capable de capturer au mieux les spikes. L'entrainement du modèle s'est fait en deux étapes. Tout d'abord, j'ai construit une loss fonction adaptée au challenge (pénalise les underfitting, meme si le sMAPE le pénalise déjà), incorporation de la métrique de forecast utilisée en interne par le client. Pour trouver les hyperparameters qui optimisent l'accuracy tout en limitant les gros écarts de prédictions entre les différents ré-entrainements de modèle, je me suis basé sur une optimisation bayesienne, avec une étude des standard deviations via le cross validation. Les données commencent en 2017 et sont dispo jusqu'à aujourd'hui. Donc pour l'entrainement et la validation, j'ai gardé la time series, par exemple 2017 jusqu'à mars 2021 (split train/test) et validation avril. Ce processus a été répété jusqu'à fin juin (de manière itérative). Des que les hyperparameters ont été trouvé, il a fallu construire le forecast. Les features du modèle se basent sur les valeurs passées (i.e EWA, lags, standard deviation, min, max, etc). Ainsi, pour chaque future prédiction, il faut utiliser les valeurs prédites précédentes pour la quantité, et pour les features externes, j'ai entrainé un modèle de DeepAR pour avoir les prédictions jusqu'à fin 2022. Ensuite, de manière itérative, j'ai pu reconstruire et prédire l'ensemble des quantités jusqu'à fin 2022. Le modèle était très aggressive, donc en parallèle, j'ai construit un modèle plus raisonnable pour éviter la propagation des overestimations (snowball effect) au cours du temps. La solution fut de standardiser l'outcome au niveau du SKU. Il a d'ailleurs fallu reconstruire la vraie valeur a chaque itération. Cette technique a permis de réduire l'agressivité du modèle, permettant au business de choisir les prédictions qu'il juge le plus approprié dans sa stratégie
  • Préparation de meeting hebdomadaire dont l'objective était de présenter l'avancement des travaux, d'expliquer simplement les concepts et la méthodologie au business puis de faire la documentation au fil de l'eau. Les interactions avec le business ont permit d'avoir un projet concluant car le client pèse un peu moins de 100 millions d'euros de chiffre d'affaire rien qu'avec Amazon
 

Formation

 

2018     Paris 1-Fudan University - Ph.D. international trade and statistics

2014     Paris 1 Panthéon-Sorbonne - Master Recherche en économie internationale

Langues

 

Français : Bilingue ou langue maternelle

Anglais : Courant

Chinois : Bon niveau