JPlogP : un prédicteur logP amélioré formé à l’aide de données prédites

Après avoir finalisé l’atom-typer et l’ensemble d’entraînement et implémenté tout le code dans notre moteur cheminformatique interne, nous avons examiné les performances de notre prédicteur par rapport aux performances de différentes méthodes de prédiction logP disponibles publiquement. Nous avons utilisé deux ensembles de tests de référence. Le premier a été fourni par Avdeef et consiste en un grand nombre de composés présents dans la base de données PhysProp . Le second, fourni par Martel, a été choisi pour représenter l’espace chimique pharmacologiquement plus difficile. L’utilisation de cet ensemble de test permet également d’éviter les problèmes liés aux composés qui se trouvent dans l’ensemble de test et qui sont également présents dans l’ensemble d’entraînement. Nos résultats sont répartis entre nos deux différentes méthodologies de prédiction : JPlogP-coeff et JPlogP-library. La première s’appuie uniquement sur les coefficients formés à partir du modèle, tandis que la seconde part de composés similaires au composé prédit et n’utilise plutôt que les coefficients pour modifier le logP connu afin de représenter la différence entre les molécules.

À titre d’exemple, un exemple de calcul est présenté dans le tableau 1. Celui-ci montre les hologrammes de type atomique pour deux molécules, le 4-chlorophénol et le 4-bromophénol. Les coefficients pour les différents types d’atomes sont également indiqués. On peut voir qu’en utilisant uniquement les coefficients, la prédiction pour le bromophénol est de 2,69, ce qui est dans des limites acceptables par rapport à la valeur expérimentale du logP de 2,59. Au contraire, si l’on part du logP expérimental du chlorophénol de 2,39 et que l’on détermine l’hologramme de différence entre le chlorophénol connu et le bromophénol théoriquement inconnu, on peut alors utiliser les coefficients restants ainsi que le logP initial du chlorophénol pour arriver à une prédiction de bibliothèque de 2,57. Ce résultat est nettement plus proche de la valeur expérimentale de 2,59 que celui obtenu en utilisant uniquement les coefficients pour prédire le logP. Cette méthode est similaire à la façon dont XlogP3 a incorporé des connaissances supplémentaires via une bibliothèque de composés connus dans leurs prédictions, sauf que nous sommes en mesure de partir de plus d’un composé similaire, mais comme les composés sont comparés par hologramme seulement, il y a la possibilité de plus de différences structurelles majeures.

Une optimisation supplémentaire a été nécessaire pour déterminer quel devrait être le niveau minimum de similarité et aussi le nombre de composés similaires qui peuvent être utilisés pour une prédiction. Le jeu de données Avdeef a été utilisé pour optimiser ces paramètres, car il était plus proche dans l’espace chimique de la base de données PhysProp. La mesure de similarité utilisée était similaire à la mesure de Tanimoto, mais permettait un chevauchement partiel en utilisant la valeur minimale divisée par la valeur maximale pour chaque bit au lieu d’un simple un ou zéro. La méthode de l’hologramme de différence fonctionne mieux lorsqu’on part de molécules similaires, c’est pourquoi aucune similitude inférieure à 0,5 n’a été essayée. La moyenne de nombreux calculs différents a été jugée inutile, et l’utilisation de 7 meilleures correspondances différentes a été considérée comme le maximum. Le tableau 2 présente les résultats des différentes combinaisons essayées. La similarité minimale pour qu’une correspondance soit possible a varié entre 0,5 et 0,8, tandis que le nombre maximal de correspondances potentielles variait de 1 à 7. Les paramètres optimisés qui ont permis d’obtenir l’erreur quadratique moyenne (RMSE) la plus faible pour l’ensemble des données étaient une similarité minimale de 0,75 et un nombre maximal de 5. Si la méthode du coefficient est utilisée, sans utiliser les informations supplémentaires de la bibliothèque, la RMSE est de 0,808. Étant donné que la similarité minimale est fixée à un niveau aussi élevé, il est rare que les cinq correspondances complètes soient utilisées pour une prédiction donnée, mais avec une bibliothèque personnelle mieux adaptée, la possibilité existe.

Tableau 2 Valeurs RMSE pour la recherche par grille en comparant le nombre maximum de correspondances à utiliser avec le seuil de similarité minimum

Nous avons également comparé la capacité de deux méthodes alternatives de type atome à capturer la connaissance dans l’ensemble de données logP calculé. Nous avons comparé le type d’atome Sybyl et le type d’atome original de Ghose et Crippen. Le type d’atome Sybyl ne contient que 44 possibilités différentes, qui ont été étendues pour inclure tous les métaux possibles comme leurs propres types individuels. En utilisant l’ensemble d’entraînement calculé, seuls 28 types d’atomes différents ont été trouvés, mais le modèle résultant a tout de même prédit l’ensemble de référence de Martel avec un RMSE respectable de 1,15. Les types d’atomes de Ghose et Crippen sont un ensemble élargi et en utilisant notre ensemble d’apprentissage calculé, 108 types d’atomes différents ont été trouvés et le modèle construit à partir de ceux-ci a été en mesure d’améliorer le résultat de sybyl avec un RMSE de 1,12. Nous avons également étudié le potentiel de l’utilisation des types d’atomes XlogP2, ce qui a donné un modèle avec 88 types et un RMSE de 1,17. Avec le type d’atome défini dans le présent document, 188 types d’atomes différents sont trouvés et le résultat s’améliore avec un RMSE de 1,04, en utilisant uniquement les coefficients pour produire une prédiction. La complexité supplémentaire permet de mieux prendre en compte les variations mineures et, avec les grands ensembles de données calculées, de mieux prédire un large espace chimique. Lorsque l’on examine l’impact de chaque méthode de prédiction additionnelle en moyenne dans la valeur calculée sur la performance par rapport à l’ensemble de données de Martel, une tendance claire est observée pour chaque méthodologie additionnelle. En partant des meilleurs prédicteurs lorsque XlogP3-AA et SlogP sont utilisés comme seuls contributeurs à l’ensemble de données calculé, la performance a une RMSE de 1,08. Avec l’ajout d’AlogP (Vega), cette valeur est réduite à 1,073. Enfin, l’ajout de XlogP2 donne une performance de 1,04 RMSE. Il est probable que l’incorporation supplémentaire du logP de Molinspirations et du logP de Biobytes pourrait entraîner une amélioration, mais cela nécessiterait l’obtention d’une licence pour les modèles et n’entre pas dans le cadre de ce projet. L’ajout du modèle le plus performant suivant, AlogPs, a entraîné une légère diminution de la performance à 1,088, de sorte que l’ajout d’autres modèles a cessé avec la moyenne de quatre. Cette tendance est également observée en faisant simplement la moyenne des résultats de chaque modèle individuel. Lorsque XlogP3-AA et SlogP sont moyennés ensemble, la RMSE par rapport à l’ensemble de test de Martel est de 1,159. Avec l’ajout d’AlogP, elle tombe à 1,149 et l’ajout de XlogP2 la réduit encore à 1,123. Ce résultat est détaillé dans le tableau 4 sous le nom de LogP4Average. De nouveau, lorsque AlogP est ajouté à la moyenne, la performance du modèle combiné qui en résulte diminue légèrement pour atteindre un RMSE de 1,136. Il semble qu’en faisant la moyenne des résultats pour générer l’ensemble d’entraînement, puis en apprenant avec un modèle plus compliqué, on obtient de meilleures performances.

La force de l’utilisation des données calculées par opposition aux données expérimentales est apparente lorsqu’on tente d’entraîner JPlogP en utilisant la base de données PhysProp. L’atom-typer JPlogP est cependant exceptionnellement gourmand en données et avoir un si grand nombre de paramètres signifie qu’il a besoin d’un grand volume de données pour éviter l’overfitting. Cela fonctionne bien avec l’utilisation de données calculées car il n’y a pas de limite, autre que la mémoire disponible dans l’ordinateur, à la quantité de données à introduire dans la méthode. À l’inverse, lors de l’utilisation de données expérimentales, lorsqu’elle a été entraînée en utilisant la base de données PhysProp seule, le R2 de la solution a chuté à 0,884 sur seulement 92 indices avec un RMSE de 1,17 contre l’ensemble de données Avdeef et de 1,35 contre l’ensemble de données Martel.

Pour évaluer la performance de notre modèle, nous avons d’abord essayé de localiser chaque méthodologie logP essayée par Mannhold, mais un certain nombre d’entre elles nécessitaient une licence ou étaient actuellement indisponibles. Nous avons donc opté pour l’ensemble réduit de méthodes détaillées ci-dessous, qui sont disponibles gratuitement dans KNIME, auxquelles on peut accéder simplement via une interface Web, ou qui peuvent être exécutées gratuitement pour un seul composé à la fois. Comme il n’y a que 707 composés dans la base de données de Martel et 267 composés dans la base de données d’Avdeef, il a été possible d’exécuter chaque composé manuellement. Au final, nous avons sélectionné la liste suivante : ACD logP , AlogP (Vega) , AlogP (CDK) , AlogPS , Biobyte ClogP , KowWIN (EPISuite) , Mannhold logP (CDK) , Meylan (Vega) , MlogP (Vega) , MolInspiration logP , SlogP (RDKit) , XlogP2 (CDK) et XlogP3 .

Dans un premier temps, nous avons étudié les performances de notre méthode et d’un sous-ensemble d’autres méthodes (tableau 3) par rapport au jeu de données public rassemblé par Avdeef . Cet ensemble est assez similaire à l’ensemble de données publiques utilisé par Mannhold. Ici, l’avantage donné aux prédictions par l’utilisation de la consultation de la bibliothèque de composés connus est immédiatement apparent. Comme un grand nombre de composés dans le jeu de données sont des correspondances exactes, le RMSE est assez faible à 0,63. En utilisant JPlogP-coeff, l’erreur passe à 0,81, mais les performances restent similaires à celles de tous les prédicteurs logP facilement disponibles. La performance de LogP4Average est meilleure que celle des quatre modèles qui ont été moyennés ensemble, comme cela s’est produit dans l’analyse de Mannhold sur cet ensemble de données. Le deuxième meilleur est AlogP de Vega, suivi de ClogP de Biobyte puis de XlogP3-AA. La méthode de Mannholds arrive à 1,43 RMSE, ce qui est une performance respectable pour un modèle très simple avec seulement deux paramètres. La plupart des méthodes sont largement similaires, autour de 0,8 RMSE. Tous les modèles sont plus performants que la moyenne des valeurs de l’ensemble de données, désignée ici comme la moyenne arithmétique (AAM), à la seule exception de AlogP de CDK, tel qu’implémenté dans KNIME. Comme cette dernière est si différente de l’implémentation d’AlogP dans VEGA, on soupçonne que les mauvais résultats sont dus soit à une erreur dans l’implémentation, soit à une erreur de l’utilisateur. L’essai de différentes méthodes de standardisation, c’est-à-dire toutes les combinaisons d’aromatisation/déaromitisation et de traitement à l’hydrogène explicite/implicite, n’a pas amélioré les résultats, de sorte qu’ils sont davantage considérés comme une curiosité que comme un véritable résultat. Notre méthode atteint une erreur moyenne d’environ 0,6 unité logarithmique, ce qui est seulement le double de l’erreur expérimentale découverte dans une étude de mesures répétées du même composé .

Tableau 3 Performance des différentes méthodes logP contre le jeu de données Avdeef

Cependant, un problème majeur avec l’utilisation de ce jeu de données comme jeu de test est que la plupart de ces méthodes ont utilisé une grande partie du jeu de test comme leur jeu d’entraînement. En fait, l’augmentation majeure de la performance de notre modèle est simplement due au fait que la bibliothèque de composés de référence contient des correspondances exactes et ne prédit donc pas la valeur logP autant qu’elle ne fait que se souvenir de ce qu’est la valeur logP à partir d’un tableau.

Un défi beaucoup plus intéressant, par conséquent, est la prédiction de l’ensemble de données de référence conçu par Martel ; la performance d’un certain nombre de prédicteurs logP contre l’ensemble de test de Martel est présentée dans le tableau 4. Les résultats détaillés sont disponibles dans le fichier supplémentaire 3. Chaque prédicteur sélectionné pour cette étude a été capable de générer une prédiction pour chaque composé. Cela montre l’effort et la qualité de l’ensemble de données de référence fourni par Martel. Chaque structure est conservée à un niveau élevé et est capable d’être comprise par chaque programme à son tour. L’ensemble de données est également assez difficile à prédire, puisque le quatrième meilleur prédicteur est le simple résultat de la moyenne arithmétique (AAM) qui est simplement la moyenne de chaque valeur logP connue dans l’ensemble de test (4.189). Les performances de la plupart des prédicteurs sont largement similaires, avec un RMSE entre la prédiction et la valeur expérimentale d’environ 1,3 unités logarithmiques. JPlogP a la meilleure performance de toutes les différentes méthodes utilisées. Les valeurs expérimentales vont de 0,3 à 6,96, elles se situent donc dans une fourchette assez étroite et, de plus, correspondent plus ou moins à une distribution normale. Si la fourchette était plus large, ou la distribution plus étendue, alors les performances de l’AAM diminueraient et feraient apparaître un plus grand nombre de prédicteurs sous un jour favorable. Une bonne amélioration de cet ensemble de référence consisterait à ajouter des composés supplémentaires aux extrémités les plus extrêmes de l’ensemble de données, ce qui rendrait plus difficile pour l’AAM de prédire avec de bons résultats, car plus de la moitié de l’ensemble de données se situe dans une unité logarithmique de 4,189. En élargissant et en étendant la distribution, la performance relative de l’AAM diminuerait permettant à la force des différents prédicteurs d’être plus apparente.

Tableau 4 Performance des différentes méthodes logP contre l’ensemble de données Martel

En examinant les erreurs absolues dans les prédictions, une tendance générale peut être observée, où les prédicteurs avec les erreurs les plus faibles ont les prédictions qui ont l’erreur absolue la plus faible, avec quelques exceptions. ACD et KowWIN ont un RMSE plus élevé que AlogPS, mais curieusement, ces deux modèles ont plus de composés avec une erreur inférieure à 0,5 unité logarithmique que le modèle AlogPS. JPlogP est capable de donner une prédiction à une unité logarithmique près dans 70% des cas, ce qui le place à nouveau en tête du peloton. Le modèle le moins performant, en termes d’erreur et de RMSE, est à nouveau le modèle AlogP de CDK (voir ci-dessus). Dans l’ensemble, la plupart des différentes méthodologies logP sont moins performantes sur l’ensemble de données plus difficile de Martel qu’elles ne l’étaient sur l’ensemble de données d’Avdeef, principalement parce que l’ensemble de données d’Avdeef est significativement plus proche dans l’espace chimique de l’ensemble d’entraînement utilisé par les différentes méthodes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.