Méthodes à Noyau en Bio-Informatique
Les méthodes à noyaux recouvrent un ensemble d'algorithmes pour l'analyse statistique de données, caractérisées par l'utilisation d'une fonction (appelée "noyau") permettant de mesurer la similarité entre les objets à analyser. En imaginant des fonctions noyaux pour des objets non vectoriels, tels des séquences, des graphes, des permutations ou des points sur des variétés différentielles, il est possibles d'appliquer à ces objets des méthodes puissantes d'analyse statistiques habituellement réservées à des données vectorielles, telles l'analyse en composantes principales, l'analyse de corrélations canoniques, ou les Support Vector Machines pour la classification et la régression.
La bio-informatique vise à analyser des masses de données biologiques pour en extraire de l'information pertinente. Ces données sont typiquements des séquences (d'ADN, d'acides aminés, etc...), des graphes, des structures tridimensionnelles de molécules, ou des arbres phylogénétiques. A partir de problèmes réels, nous montrerons comment des noyaux peuvent être construits pour ces différents types d'objets, nous étudierons différentes méthodes à noyaux et leur lien avec la théorie de la régularisation, et nous approfondirons l'étude de l'espace des fonctions noyaux lui-même. Les exemples réels qui motiveront ce cours seront notamment:
- la prédiction de la fonction, localisation et structure des protéines
- l'intégration de données hétérogènes en bio-informatique
- le criblage virtuel de molécules dans la recherche pharmaceutique
Offres de stages et thèses
Vous trouverez de nombreuses offres de stage/thèse sur les listes de diffusion:
- Bioinfo (bioinformatique, surtout en France)
- Connectionists (machine learning)
- Plutot des postdoc/jobs en bioinformatique sur le site de l'ISCB
En plus, quelques annonces qui me parviennent directement:
Validation du cours Master MVA Cachan
Validation du cours Master Paris 6 et 7
Programme
Slides (last update: Feb. 28, 2006)
- Resume du cours Cachan (pdf) et Paris 6/7 (pdf)
- Noyaux definis positifs (pdf)
- Methodes a noyaux (pdf)
- Noyaux pour séquences biologiques (pdf)
- Noyaux marginalisés (pdf)
- Noyaux sur graphes (pdf)
Demonstration SVM
La petite démonstration des SVM faite en cours utilise MATLAB et le package (gratuit) Spider.
Références:
La référence principale de ce cours:
- B. Schölkopf, K. Tsuda et J.-P. Vert, "Kernel methods in computational biology", MIT Press, 2004.
[ps.gz,pdf]
en particulier les chapitres suivants:
- JP Vert, K. Tsuda, B. Schölkopf, "A primer on kernel methods", 2004
[ps.gz,pdf]
(une sorte de petit poly pour ce cours)
- A Zien, "A primer on molecular biology", 2004
[ps.gz,pdf]
(une introduction à la biologie, cf le premier cours)
- W Noble, "Support vector machines in computational biology", 2004
[ps.gz,pdf]
(une review des applications des SVM en bio-informatique)
Quelques livres:
- B. Schölkopf et A. Smola, "Learning with kernels", MIT Press, 2002.
- V. Vapnik, "Statistical Learning Theory", Wiley, 1998.
- C. Berg, J.P.R. Christensen et P. Ressel, "Harmonic analysis on semi-groups", Springer, 1994.
Des articles de référence sur les noyaux:
- N. Aronszajn, "Theory of reproducing kernels", Transactions of the American Mathematical Society, 68:337-404, 1950
[pdf]
(l'article qui introduit les RKHS)
- F Cucker et S. Smale, "On the mathematical foundations of learning", Bulletin of the AMS, 39(1):1-49, 2001
[ps.gz,pdf]
(une introduction à l'apprentissage, le chapitre 3 parle des noyaux de Mercer et RKHS)
Des articles de recherche
Last modified: Tue May 9 12:04:45 CEST 2006
Back to my homepage