M�thodes � Noyau en Bio-Informatique
Master recherche sp�cialit� "Math�matiques Appliqu�es",
parcours M2 Math�matiques, Vision et Apprentissage (ENS Cachan), 2e semestre, 2004/2005
Propositions th�ses
Programme
Slides
- Resume du cours (pdf)
- Introduction a la biologie moleculaire et a la bio-informatique (pdf)
- Noyaux definis positifs (pdf)
- Methodes a noyaux (pdf)
- Noyaux pour s�quences (pdf)
- Noyaux marginalis�s (pdf)
- Noyaux sur graphes (pdf)
Demonstration SVM
La petite d�monstration des SVM faite en cours utilise MATLAB et le package (gratuit) Spider.
Description
Les m�thodes � noyaux recouvrent un ensemble d'algorithmes pour l'analyse statistique de donn�es, caract�ris�es par l'utilisation d'une fonction (appel�e "noyau") permettant de mesurer la similarit� entre les objets � analyser. En imaginant des fonctions noyaux pour des objets non vectoriels, tels des s�quences, des graphes, des permutations ou des points sur des vari�t�s diff�rentielles, il est possibles d'appliquer � ces objets des m�thodes puissantes d'analyse statistiques habituellement r�serv�es � des donn�es vectorielles, telles l'analyse en composantes principales, l'analyse de corr�lations canoniques, ou les Support Vector Machines pour la classification et la r�gression.
La bio-informatique vise � analyser des masses de donn�es biologiques pour en extraire de l'information pertinente. Ces donn�es sont typiquements des s�quences (d'ADN, d'acides amin�s, etc...), des graphes, des structures tridimensionnelles de mol�cules, ou des arbres phylog�n�tiques. A partir de probl�mes r�els, nous montrerons comment des noyaux peuvent �tre construits pour ces diff�rents types d'objets, nous �tudierons diff�rentes m�thodes � noyaux et leur lien avec la th�orie de la r�gularisation, et nous approfondirons l'�tude de l'espace des fonctions noyaux lui-m�me. Les exemples r�els qui motiveront ce cours seront notamment:
- la pr�diction de la fonction, localisation et structure des prot�ines
- l'int�gration de donn�es h�t�rog�nes en bio-informatique
- le criblage virtuel de mol�cules dans la recherche pharmaceutique
R�f�rences:
La r�f�rence principale de ce cours:
- B. Sch�lkopf, K. Tsuda et J.-P. Vert, "Kernel methods in computational biology", MIT Press, 2004.
[ps.gz,pdf]
en particulier les chapitres suivants:
- JP Vert, K. Tsuda, B. Sch�lkopf, "A primer on kernel methods", 2004
[ps.gz,pdf]
(une sorte de petit poly pour ce cours)
- A Zien, "A primer on molecular biology", 2004
[ps.gz,pdf]
(une introduction � la biologie, cf le premier cours)
- W Noble, "Support vector machines in computational biology", 2004
[ps.gz,pdf]
(une review des applications des SVM en bio-informatique)
Quelques livres:
- B. Sch�lkopf et A. Smola, "Learning with kernels", MIT Press, 2002.
- V. Vapnik, "Statistical Learning Theory", Wiley, 1998.
- C. Berg, J.P.R. Christensen et P. Ressel, "Harmonic analysis on semi-groups", Springer, 1994.
Des articles de r�f�rence:
- N. Aronszajn, "Theory of reproducing kernels", Transactions of the American Mathematical Society, 68:337-404, 1950
[pdf]
(l'article qui introduit les RKHS)
- F Cucker et S. Smale, "On the mathematical foundations of learning", Bulletin of the AMS, 39(1):1-49, 2001
[ps.gz,pdf]
(une introduction � l'apprentissage, le chapitre 3 parle des noyaux de Mercer et RKHS)
Des articles de recherche:
- C Leslie, R Kuang, E Eskin , "Inexact matching string kernels for protein classification", 2004 (to appear)
[ps.gz,pdf]
(Un noyau pour s�quences)
- JP Vert, H Saigo, T Akutsu , "Local alignment kernels for biological sequences", 2004 (to appear)
[ps.gz,pdf]
(Un noyau pour s�quences)
- T. Jaakkola, M. Diekhans, and D. Haussler , "A discrimitive framework for detecting remote protein homologies", Journal of Computational Biology, Vol. 7 No. 1,2 pp. 95-114, (2000)
[ps.gz,pdf]
(Le noyau de Fisher pour s�quences)
- R Karchin, K Karplus, D Haussler, "Classifying G-protein coupled receptors with support vector machines", Bioinformatics 18(1):147-159 (2002)
[pdf,original pdf]
(Une application du noyau de Fisher)
- T Kin, K Tsuda, K Asai, "Marginalized kernels for RNA sequence data analysis", Genome Informatics 13:112-122 (2002)
[pdf,original pdf]
(Un noyau pour ARN)
- H Kashima, K Tsuda, A Inokuchi , "Kernels for graphs", 2004 (to appear)
[ps.gz,pdf]
(Un noyau pour graphes, appliqu� � des mol�cules)
- JP Vert , "A tree kernel to analyze phylogenetic profiles", Bioinformatics 18:S276-S284 (2002)
[ps.gz,pdf]
(Un noyau pour arbres phylog�n�tiques)
- R Kondor, JP Vert , "Diffusion kernels", 2004 (to appear)
[ps.gz,pdf]
(Un noyau sur un graphe, appliqu� � des r�seaux de prot�ines)
- Y Guermeur, A Lifchitz, R Vert , "A kernel for protein secondary structure prediction", 2004 (to appear)
[ps.gz,pdf]
(Un noyau sur un graphe, appliqu� � des r�seaux de prot�ines)
- A Zien et al. , "Engineering support vector machine kernels that recognize translation initiation sites", BioInformatics, 16(9):799-807, 2000
[pdf,pdf original]
(Un noyau sp�cifique pour reconnaitre les TIS)
- Paul Pavlidis, Jason Weston, Jinsong Cai and William Noble Grundy, "Gene functional classification from heterogeneous data", Proceedings of RECOMB 2001
[pdf,original pdf]
(Kernel CCA pour int�grer des donn�es h�t�rog�nes en bio-informatique)
- Y Yamanishi, JP Vert, M Kanehisa , "Heterogeneous data comparison and gene selection with kernel canonical correlation analysis", 2004 (to appear)
[ps.gz,pdf]
(Kernel CCA pour int�grer des donn�es h�t�rog�nes en bio-informatique)
- G Lanckriet, N Cristianini, M Jordan, W Noble , "Kernel-based integration of genomic data using semidefinite programming", 2004 (to appear)
[ps.gz,pdf]
(Combiner des noyaux diff�rents par SDP)
- T Kin, T Kato, K Tsuda , "Protein classification via kernel matrix completion", 2004 (to appear)
[ps.gz,pdf]
(Estimer des valeurs manquantes dans des matrices de Gram)
- B Krishnapuram, L Carin, A Hartemink , "Gene expression analysis: joint gene selection and classifier design", 2004 (to appear)
[ps.gz,pdf]
(Classification de donn�es de puces � ADN et s�lection de g�nes importants)
Last modified: Mon Jul 18 10:31:14 CEST 2005
Back to my homepage