Méthodes à Noyau en Bio-Informatique

Jean-Philippe Vert, Ecole des Mines de Paris

Master recherche spécialité "Mathématiques Appliquées",
parcours M2 Mathématiques, Vision et Apprentissage (ENS Cachan), 2e semestre, 2005/2006

M2 Probabilités et Applications (Paris 6), 2e semestre, 2005/2006
M2 Modélisation Aléatoire (Paris 7), 2e semestre, 2005/2006

Les méthodes à noyaux recouvrent un ensemble d'algorithmes pour l'analyse statistique de données, caractérisées par l'utilisation d'une fonction (appelée "noyau") permettant de mesurer la similarité entre les objets à analyser. En imaginant des fonctions noyaux pour des objets non vectoriels, tels des séquences, des graphes, des permutations ou des points sur des variétés différentielles, il est possibles d'appliquer à ces objets des méthodes puissantes d'analyse statistiques habituellement réservées à des données vectorielles, telles l'analyse en composantes principales, l'analyse de corrélations canoniques, ou les Support Vector Machines pour la classification et la régression.

La bio-informatique vise à analyser des masses de données biologiques pour en extraire de l'information pertinente. Ces données sont typiquements des séquences (d'ADN, d'acides aminés, etc...), des graphes, des structures tridimensionnelles de molécules, ou des arbres phylogénétiques. A partir de problèmes réels, nous montrerons comment des noyaux peuvent être construits pour ces différents types d'objets, nous étudierons différentes méthodes à noyaux et leur lien avec la théorie de la régularisation, et nous approfondirons l'étude de l'espace des fonctions noyaux lui-même. Les exemples réels qui motiveront ce cours seront notamment:

Offres de stages et thèses

Vous trouverez de nombreuses offres de stage/thèse sur les listes de diffusion: En plus, quelques annonces qui me parviennent directement:

Validation du cours Master MVA Cachan

Validation du cours Master Paris 6 et 7

Programme

Slides (last update: Feb. 28, 2006)

  1. Resume du cours Cachan (pdf) et Paris 6/7 (pdf)
  2. Noyaux definis positifs (pdf)
  3. Methodes a noyaux (pdf)
  4. Noyaux pour séquences biologiques (pdf)
  5. Noyaux marginalisés (pdf)
  6. Noyaux sur graphes (pdf)

Demonstration SVM

La petite démonstration des SVM faite en cours utilise MATLAB et le package (gratuit) Spider.

Références:

La référence principale de ce cours: en particulier les chapitres suivants: Quelques livres: Des articles de référence sur les noyaux:

Des articles de recherche


Last modified: Tue May 9 12:04:45 CEST 2006
Back to my homepage