Méthodes à Noyau en Bio-Informatique: Le projet

Jean-Philippe Vert, Ecole des Mines de Paris

M2 Mathématiques, Vision et Apprentissage (ENS Cachan), 2e semestre, 2004/2005

Présentation

Le but est de détecter des signaux dans les séquences de protéines. Le prix nobel 1999 de médecine a été attribué à Günter Blobel pour la découverte de ces signaux (voir explication ici.

Ce projet sera réalisé par équipes de 2 étudiants. Vous avez totale liberté en terme de méthodes, de language de programmation. Les méthodes étudiées en cours pourront vous être utiles, mais toute autre approche est possible. Vous pouvez même tenter de répondre à d'autres questions que celles qui sont posées.

Au final, vous devez aboutir à un rapport d'une dizaine de page qui explique la méthode utilisée, son implémentation, et l'évaluation de sa performance, et une présentation orale d'une dizaine de minutes.

Vous serez jugés sur l'originalité de l'approche, sa pertinence, sa mise en oeuvre. Comme dans tout travail de recherche, vous êtes en particulier invité a effectuer une évaluation rigoureuse de la performance de la ou des méthode(s), tester l'effet des paramètres si il y en a, et effectuer une analyse critique de ce qui marche et ce qui ne marche pas.

Données

Le format est expliqué ici.

Questions

Construire des algorithmes pour:
  1. Faire de la classification binaire de séquences pour discriminer:
    1. Signal.txt vs NoSignal.txt
    2. Signal.txt vs FalseSignal.txt
    La méthode sera évaluée par le niveau de précision atteint en LOO (leave-one-out).
  2. Faire une méthode pour détecter automatiquement le site de clivage des séquences de Signal.txt
    La méthode sera évaluée en LOO sur le taux de bonne prédiction.
  3. (optionnel) Combiner l'ensemble pour aboutir à un programme qui prend une séquence en entrée, prédit si il y a un signal, et si oui prédit le site de clivage.
Si pour des raisons de temps de calcul l'évaluation LOO n'est pas possible, évaluer en 5-fold cross validation.

Liens utiles

Références

Equipes


Last modified: Wed Jan 12 10:16:13 CET 2005
Retour à la page du cours