Member-only story
Prédire le sexe à partir du prénom grâce à un algorithme d’apprentissage automatique
J’ai récupéré le fichier des prénoms français sur le site de l’INSEE. Ce fichier contient tous les “prénoms attribués aux enfants nés en France entre 1900 et 2021”. J’ai récupéré ce fichier dans le but de créer un modèle d’apprentissage automatique (ML) permettant de déterminer le sexe d’une personne en connaissant son prénom. Dans la suite de cet article, je vous expliquerai comment j’ai procédé pour bâtir ce modèle.
Pour développer mon modèle rapidement, j’ai décidé d’utiliser Dataiku dans un premier temps. Dataiku permet de faire du traitement de données et du développement de modèle ML de manière visuelle. Dataiku est très facile à utiliser et permet de tester et de déployer plusieurs algorithmes de ML, en investissant le moins d’efforts possibles.
1re étape : préparation des données & analyses préliminaires
Le fichier des prénoms de l’Insee est disponible en trois déclinaisons : un fichier de données allégé, un fichier de données départementales…