Accueil > Programme > Développement

Festival des Arts Numériques Libres

Scikit-Learn : apprendre sans douleur l’apprentissage statistique/Scikit-learn, machine learning without learning the machinery

Intervenant(s) : Nelle Varoquaux

  • Langue : Français
  • Type d'événement : Conférence
  • Date : Lundi 11 juillet 2011
  • Horaire : 17h00
  • Durée : 40 minutes

Lieu : Bâtiment Droit - Bischoff (amphi 2)

Résumé

Comment reconnaître un spam d’un mail ? Comment prédire la météo ? Comment ranger automatiquement des documents dans différentes catégories ? Comment séparer les différentes sources d’une bande sonore ?

Il est de plus en plus facile de récolter et de diffuser des données : photographies, images médicales, vidéos partagées par voie de mails, blogs, mms. L’analyse, la compréhension et la prédiction d’un volume grandissant de données prend donc une importance grandissante. Cette nécéssité de fouille de données se traduit par le développement d’algorithmes dit d’*apprentissage statistique*.

L’apprentissage statistique effraie souvent par la complexité de la théorie mathématique nécessaire à l’implémentation des algorithmes. Le Scikit-Learn est un module d’apprentissage statistique écrit en Python qui s’efforce de rendre ce domaine accessible à tous quelque soit le contexte d’utilisation. Grâce à une documentation très riche, reposant sur des exemples, l’utilisateur peut facilement découvrir les nombreux algorithmes d’apprentissage statistique présents dans scikit-learn ainsi que les domaines d’application : classification automatique de texte, reconnaissance faciale, modélisation de la répartition géographique d’une espèce animalière, etc.

Une grande variété de problèmes différents nécessitent l’utilisation l’apprentissage statistique. Cependant, il n’y a pas de solution universelle : à chaque type de données il faut associer une stratégie efficace. L’un des buts du scikit-learn est de faciliter la compréhension par l’expérimentation numérique. Non seulement il est facile d’assembler des briques élémentaires du scikit pour parvenir à une solution dédiée, mais en plus la disponibilité du code, en license libre, permet de le "démonter" pour le comprendre. A ce titre, un effort important est accordé à l’utilisation de technologies simples mais efficaces, comme le language Python, et à la lisibilité du code. La documentation, les exemples, et la librairie elle-même pourraient-ils remplacer l’utilisation de livres, plus rébarbatifs, dans l’apprentissage de l’apprentissage pour les non matheux ?

Biographie

Nelle Varoquaux a un diplôme d’ingénieur généraliste, avec spécialisation en Informatique de l’École Centrale de Nantes. Elle a travaillé en interface utilisateur & accessibilité d’application web et en apprentissage statistique. Actuellement employée par the pH Group Ltd, elle contribue à différents projets libres.