Méthodes à Noyau en Bio-Informatique: Le projet
Le but est de détecter des signaux dans les séquences de protéines. Le prix nobel 1999 de médecine a été attribué à Günter Blobel pour la découverte de ces signaux (voir explication ici.
Ce projet sera réalisé par équipes de 2 étudiants. Vous avez totale liberté en terme de méthodes, de language de programmation. Les méthodes étudiées en cours pourront vous être utiles, mais toute autre approche est possible. Vous pouvez même tenter de répondre à d'autres questions que celles qui sont posées.
Au final, vous devez aboutir à un rapport d'une dizaine de page qui explique la méthode utilisée, son implémentation, et l'évaluation de sa performance, et une présentation orale d'une dizaine de minutes.
Vous serez jugés sur l'originalité de l'approche, sa pertinence, sa mise en oeuvre. Comme dans tout travail de recherche, vous êtes en particulier invité a effectuer une évaluation rigoureuse de la performance de la ou des méthode(s), tester l'effet des paramètres si il y en a, et effectuer une analyse critique de ce qui marche et ce qui ne marche pas.
Données
Le format est expliqué ici.
Questions
Construire des algorithmes pour:
- Faire de la classification binaire de séquences pour discriminer:
- Signal.txt vs NoSignal.txt
- Signal.txt vs FalseSignal.txt
La méthode sera évaluée par le niveau de précision atteint en LOO (leave-one-out).
- Faire une méthode pour détecter automatiquement le site de clivage des séquences de Signal.txt
La méthode sera évaluée en LOO sur le taux de bonne prédiction.
- (optionnel) Combiner l'ensemble pour aboutir à un programme qui prend une séquence en entrée, prédit si il y a un signal, et si oui prédit le site de clivage.
Si pour des raisons de temps de calcul l'évaluation LOO n'est pas possible, évaluer en 5-fold cross validation.
Liens utiles
Références
- H Nielsen, J Engelbrecht, S Brunak, G von Heijne , "Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites", Protein Eng. 10:1-6 (1997)
[pdf,original pdf]
(Une méthode possible par réseaux de neurones)
- H. Nielsen and A. Krogh, "Prediction of signal peptides and signal anchors by a hidden Markov model",Proceedings of ISMB 99
[ps.gz,pdf]
(Une autre méthode à base de chaînes de Markov cachées)
- H Nielsen, S Brunak, G von Heijne , "Machine learning approaches for the prediction of signal peptides and other protein sorting signals", Protein engineering 12(1):3-9 (1999)
[pdf,original pdf]
(Une review utile quelques solutions au problème posé)
Equipes
Last modified: Wed Jan 12 10:16:13 CET 2005
Retour à la page du cours