ANNONCE THESE TITRE : Intégration et exploration des données post-génomiques dirigée par l’évaluation et le contrôle de la qualité des informations : Application au domaine de l’hépatologie. Unité/équipe encadrante : INSERM U522 et IRISA-Rennes Responsables scientifiques : Christiane Guguen-Guillouzo et Fouzia Moussouni, INSERM U522 Co-tutrice : Laure Berti-Equille, IRISA-Rennes Contact : Fouzia.Moussouni@univ-rennes1.fr ou Laure.Berti-Equille@irisa.fr RESUME : Autour de l'émergence de nouvelles plates-formes biotechnologiques dans le domaine de la santé et des sciences de la vie pour des investigations à grande échelle du génome, du transcriptome et du protéome, une quantité énorme de données biomédicales est maintenant produite et déposée par les scientifiques dans des ressources Web et banques de données publiques. Ces mêmes ressources sont en retour accédées par d’autres scientifiques pour interpréter leurs résultats voire générer d’autres hypothèses et d’autres données. Cependant, en l’absence de mécanismes bien définis pour caractériser des issues concernant la qualité de ces ressources : véracité, exactitude, redondances, inconsistance, contamination etc, elles sont considérées par les scientifiques comme une représentation de la réalité. Le management de ces données pose ainsi un véritable défi, car : i) ces données sont riches, très diverses et réparties sur plusieurs sources de données hétérogènes WEB, rendant une intégration complexe, ii) ces données sont souvent dupliquées d'une banque de données à une autre (avec la conséquence que les copies secondaires ne sont pas toujours mises à jour en conformité avec la copie primaire), iii) ces données sont spéculatives et sujettes à des erreurs ou à des omissions, quelques résultats sont largement publiés sur le WEB alors que les expériences correspondantes sont encore en cours ou ne sont pas encore validées par la communauté scientifique, et enfin iv) la connaissance biomédicale est constamment remise en cause et en perpétuel progrès. En partant du principe qu’effectuer des analyses sur des données de qualité permet de prendre des décisions plus justes, de nombreuses imperfections sur les données doivent être détectées voire corrigées (les doublons, les erreurs ou incohérences, les contradictions, les données obsolètes, etc.) Les principales questions posées dans cette thèse sont : 1) comment contrôler et assurer la qualité des informations biomédicales publiquement accessibles et provenant de diverses sources d'informations ? 2) Comment réaliser l’intégration de toutes ces informations au sein d’un entrepôt spécialisé sur un sujet biomédical de façon à ce que la qualité des informations soit contrôlée et préservée ? Le maintien de la traçabilité et de la cohérence d’un très large volume de données biomédicales en vue de leur intégration est aujourd’hui un véritable défi pour la communauté. L’objectif de la thèse est d’apporter des solutions théoriques et techniques au domaine bioinformatique pour répondre au problème de la gestion de la qualité des données biomédicales.