pos:

7 Erreurs fréquentes à éviter en Data science1) Ne rien sauvegarder : cette erreur est fréquente chez les profils juniors, n'hésitez pas à utilier pickle.dump et pickle.load en conjonction avec un compte ftp ( via pysftp ) afin de sauvegarder vos données sur un emplacement distant, notamment si votre notebook distant vient à s'interrompre, vous y perdrez toutes les données générées. 2) Ne pas évaluer ses modèles sur un jeu de test : encore une erreur de débutant, oui, cela fait apparaitre des métriques plus flatteuses lorsque l'on évalue son modèle sur les données d'entrainement, hélàs votre modèle risque le surapprentissage et de ne jamais être généraliste, il ne sera ainsi jamais valide pour être déployé en production / commercialisé. 3) Plus de données mon modèle vera, le meilleur il sera : Là encore, il s'agit d'une fausse bonne idée, présenter plus de données à un modèle, selon sa qualité et ses spécificités, risquent de sur-spécifier ce dernier, qui pert dès lors ses compétences de "généraliste", votre médecin devient alors oncologue, et se saura probablement détecter votre grippe ou coronavirus. L'idéal serait alors de pondérer vos données, afin que ce dernier ne penche pas sur une surspécialisation. Le même constat s'applique si vous classifiez ou traduisez des données multilingues, si vous mettez plus de textes en anglais en entrée, votre modèle sera plus sensible aux nuances grammaticales anglaises que celles d'autres langues. Si la performance compte beaucoup à vos yeux, vous pouvez également entrainer un modèle par sous spécialité

Vous avez un projet ? Nous sommes à votre écoute