Bioinformations mars 2023

Nous mettons en place un nouveau groupe de travail LEGO, dédié au machine learning pour la génomique.

Comme de nombreux domaines scientifiques, la génomique bénéficie de la montée en puissance qu’a connu le machine learning au cours de la dernière décennie. Une grande partie de la recherche menée à cette interface trouve ses applications en génomique fonctionnelle. Il s’agit en particulier de prédire et comprendre la régulation de l’expression des gènes à partir de leur séquence et d’inférer les structures, mouvements, interactions et fonctions des protéines à partir de leur séquence d’acides aminés. A une échelle supérieure, une application importante est la médecine de précision. Il peut s’agir par exemple d’analyser un ensemble de tumeurs à partir de leurs génomes, pour identifier des sous-groupes cohérents ou prédire au mieux un diagnostic ou un pronostic. Un effort de recherche important a également lieu pour la prédiction et l’analyse des résistances microbiennes. La prise d’importance rapide de la technologie de séquençage de cellule unique a aussi motivé de nombreux travaux en machine learning, notamment pour identifier des groupes de cellules similaires ou des trajectoires de différentiation. Enfin, la chémogénomique (la prédiction et l’optimisation d’interactions entre petites molécules et cibles thérapeutiques) inspire une recherche méthodologique fournie, notamment dans le milieu industriel.

Au delà des aspects fonctionnels, des corpus plus récents ont émergé d’une part en génomique environnementale, et d’autre part en génomique évolutive. Une grande partie des travaux menés en génomique environnementale impliquent des données de métagénomique. Il s’agit alors d’identifier les espèces présentes dans un échantillons à partir de l’ensemble des lectures métagénomiques, ou bien de prédire ou comprendre une propriété de cet échantillon. En génomique évolutive, les modèles probabilistes sont omniprésents et parfois trop complexes pour permettre d’estimer les paramètres en maximisant la vraisemblance mais se prêtent toutefois à l’échantillonnage. Inspirées des ABC (approximate bayesian computation), des méthodes exploitent ces simulations pour apprendre une fonction prédisant le paramètre à partir de l’observation (typiquement, d’une famille de séquences apparentées). Ces approches ont connu d’importants succès en génétique des populations, en phylogénie et en phylodynamique.

La communauté française de recherche en machine learning pour la génomique est active mais dispersée sur le territoire au sein d’équipes traditionnellement expertes dans d’autres domaines méthodologiques pour la génomique tels quel la statistique, l’algorithmique ou la bioinformatique. L’objet du groupe de travail LEGO sera de faciliter les échanges au sein de cette communauté, de favoriser les collaborations, et de permettre le suivi des progrès effectués par les équipes participantes.

Nous organisons une première journée de rencontre le mercredi 31 mai à Sorbonne Université. Pour être tenus au courant de l’activité du groupe de travail, vous pouvez vous abonner à notre liste de diffusion en envoyant un mail à:

sympa@services.cnrs.fr

avec comme objet:

subscribe lego votrePrénom VotreNom

et consulter notre site web gt-lego.cnrs.fr.