Développement et comparaison d’approches QSPR-inverse - IFPEN - IFP Energies nouvelles Accéder directement au contenu
Thèse Année : 2021

Development and comparison of inverse-QSPR approaches

Développement et comparaison d’approches QSPR-inverse

Résumé

The use of Quantitative Structure-Property Relationships (QSPR) has become frequent to quickly predict molecules’ properties. Also, new chemical structures can be designed nowadays by virtual generation. The inversion of QSPR models (i-QSPR) is one of the existing virtual generation methods, which allows to obtain molecules with desired properties. During this PhD work, we first focussed on implementing and improving such methods. Following a study of the literature, three methods, based on fragments assemblies (F), successive modifications of genetic graphs (G) and a variational autoencoder (E), were selected to supplement our database. Our database gathers 785 hydrocarbons and oxygenated molecules, with their associated flash point (FP) value. Up to 5 million structures were generated by each method. Then, a method for comparing generation methods was proposed. Our approach analyses the distribution of molecules generated by each algorithm, in a small-dimensional space. The F and G methods were compared with this new tool, and we highlighted the best performances of G to complete our FP database in a diverse and representative way. For the generation of structures responding to a constraint on the FP value, we set up a selection of the number of molecules to be modified by G. The restriction of the number of molecules to be modified by G proves to be effective for the generation of molecules with a FP value greater than 400 K; while it degrades the performance of generation of molecules with a FP value less than 400 K.
Le recours aux QSPR (de l’anglais « Quantitative Structure-Property Relationship ») est devenu fréquent pour prédire rapidement certaines propriétés. Parallèlement, la génération virtuelle de molécules, dont font partie les inversions des modèles QSPR (i-QSPR), permet de concevoir des molécules pour des applications ciblées. Durant cette thèse, nous nous sommes d’abord intéressés à la mise en place et à l’amélioration de telles méthodes de génération. À la suite d’une étude de la littérature, trois méthodes, basées sur des assemblages de fragments (F), des modifications successives de graphes génétiques (G) et un autoencodeur variationnel (E), ont été sélectionnées pour enrichir une base de données constituée de valeurs de point d’éclair (PE) d’hydrocarbures et de composés oxygénées (785 molécules). Jusqu’à 5 millions de structures ont été générées avec chaque méthode. Nous avons également développé une approche de comparaison des méthodes de génération. Elle se base sur l’analyse de la répartition des molécules générées par chaque méthode dans un espace chimique simplifié à 3 dimensions. Les méthodes F et G ont été comparées ainsi, et nous avons mis en évidence les meilleures performances de G pour compléter de manière diverse et représentative notre base de données. Pour la génération de structures répondant à une contrainte sur le PE, nous avons mis en place une sélection du nombre de molécules à modifier par la méthode G. La restriction du nombre de molécules à modifier par G s’avère efficace pour générer des molécules avec une valeur de PE supérieure à 400 K; tandis qu’elle dégrade les performances de génération de molécules avec une valeur de PE inférieure à 400 K.
Fichier principal
Vignette du fichier
GANTZER_Philippe_2021.pdf (4.15 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03531086 , version 1 (18-01-2022)

Identifiants

  • HAL Id : tel-03531086 , version 1

Citer

Philippe Gantzer. Développement et comparaison d’approches QSPR-inverse. Bio-informatique [q-bio.QM]. Sorbonne Université, 2021. Français. ⟨NNT : 2021SORUS254⟩. ⟨tel-03531086⟩
139 Consultations
73 Téléchargements

Partager

Gmail Facebook X LinkedIn More