JPlogP: vylepšený prediktor logP vytrénovaný pomocí predikovaných dat

Po dokončení atom-typeru a trénovací sady a implementaci celého kódu do našeho vlastního cheminformatického stroje jsme zkoumali výkonnost našeho prediktoru ve srovnání s výkonností různých veřejně dostupných metod predikce logP. Použili jsme dvě srovnávací testovací sady. První poskytl Avdeef a skládá se z velkého počtu sloučenin přítomných v databázi PhysProp . Druhá, kterou poskytl Martel , byla vybrána tak, aby reprezentovala obtížnější farmakologicky relevantní chemický prostor. Použitím této testovací sady se také předešlo problémům spojeným s tím, že sloučeniny, které jsou v testovací sadě, se vyskytují také v trénovací sadě. Naše výsledky jsou rozděleny mezi naše dvě různé metodiky predikce: JPlogP-coeff a JPlogP-library. První se spoléhá výhradně na koeficienty natrénované z modelu, zatímco druhá vychází ze sloučenin podobných předpovídané sloučenině a namísto toho používá pouze koeficienty k úpravě známého logP, které představují rozdíl mezi molekulami.

Jako příklad je uveden ukázkový výpočet v tabulce 1. Ta ukazuje hologramy atomového typu pro dvě molekuly, 4-chlorfenol a 4-bromfenol. Uvedeny jsou také koeficienty pro různé typy atomů. Je vidět, že pouze s použitím koeficientů je předpověď pro bromfenol 2,69, což je v přijatelných mezích oproti experimentální hodnotě logP 2,59. Pokud naopak začneme s experimentální hodnotou logP chlorofenolu 2,39 a určíme rozdílový hologram mezi známým chlorofenolem a teoreticky neznámým bromfenolem, můžeme pak použít zbývající koeficienty spolu s výchozí hodnotou logP z chlorofenolu a dojdeme ke knihovní předpovědi 2,57. V případě, že je hodnota logP z chlorofenolu 2,39, můžeme použít zbývající koeficienty. Tento výsledek je výrazně blíže experimentální hodnotě 2,59 než ve srovnání s použitím pouhých koeficientů k předpovědi logP. Tato metoda je podobná způsobu, jakým XlogP3 zahrnul do svých předpovědí dodatečné znalosti prostřednictvím knihovny známých sloučenin, s tím rozdílem, že můžeme vycházet z více než jedné podobné sloučeniny, ale protože se sloučeniny porovnávají pouze pomocí hologramu, existuje možnost větších strukturních rozdílů.

Bylo nutné provést další optimalizaci, aby se určilo, jaká by měla být minimální úroveň podobnosti, a také počet podobných sloučenin, které lze použít pro předpověď. K optimalizaci těchto parametrů byla použita datová sada Avdeef, protože ta byla v chemickém prostoru blíže databázi PhysProp. Použitá míra podobnosti byla podobná Tanimotově míře, ale umožňovala částečné překrývání pomocí minimální hodnoty dělené maximální hodnotou pro každý bit namísto prosté jedničky nebo nuly. Metoda rozdílového hologramu funguje nejlépe, když se vychází z podobných molekul, takže nebyly zkoušeny žádné podobnosti nižší než 0,5. Průměrování mnoha různých výpočtů bylo považováno za zbytečné, takže použití 7 různých nejlepších shod bylo považováno za maximum. V tabulce 2 jsou uvedeny výsledky různých vyzkoušených kombinací. Minimální podobnost pro možnou shodu se pohybovala mezi 0,5 a 0,8 spolu s maximálním počtem možných shod, který se pohyboval od 1 do 7. Bylo zjištěno, že optimalizované parametry, které vedly k minimální střední kvadratické chybě (RMSE) pro soubor dat, jsou minimální podobnost 0,75 a maximální počet 5. V případě použití metody koeficientů bez použití dodatečných informací v knihovně je RMSE 0,808. Vzhledem k tomu, že minimální podobnost je nastavena tak vysoko, je vzácným případem, že je pro danou předpověď použito plných pět počátečních shod, ale s lépe vyladěnou osobní knihovnou tato možnost existuje.

Tabulka 2 Hodnoty RMSE pro vyhledávání pomocí mřížky porovnávající maximální počet shod k použití spolu s prahem minimální podobnosti

Srovnávali jsme také schopnost dvou alternativních metod atomových typů zachytit znalosti ve vypočteném souboru dat logP. Porovnávali jsme jak Sybyl, tak původní Ghoseho a Crippenovy atom-typy. Sybylův atom-typ obsahuje pouze 44 různých možností, které byly rozšířeny tak, aby zahrnovaly všechny možné kovy jako jejich samostatné typy. Pomocí vypočtené trénovací množiny bylo nalezeno pouze 28 různých atomových typů, ale výsledný model přesto předpovídal referenční sadu Martel s úctyhodnou RMSE 1,15. Ghoseho a Crippenovy typy atomů jsou rozšířenou množinou a pomocí námi vypočtené trénovací množiny bylo nalezeno 108 různých typů atomů a model sestavený na jejich základě dokázal zlepšit výsledek sybylu, přičemž RMSE byla 1,12. Zkoumali jsme také možnosti použití atomových typů XlogP2, což vedlo k modelu s 88 typy a RMSE 1,17. Pomocí zde definovaného atom-typu bylo nalezeno 188 různých typů atomů a výsledek se zlepšil na RMSE 1,04, přičemž k vytvoření předpovědi byly použity pouze koeficienty. Přidaná složitost je schopna lépe zohlednit drobné odchylky a s velkými vypočtenými soubory dat a jsou lépe schopny předpovídat v širokém rozsahu chemického prostoru. Při zkoumání dopadu každé dodatečné metody předpovědi zprůměrované do vypočtené hodnoty na výkonnost oproti Martelově datové sadě je vidět jasný trend pro každou dodatečnou metodiku. Počínaje nejlepšími prediktory při použití XlogP3-AA a SlogP jako jediných přispěvatelů do vypočtené datové sady má výkonnost hodnotu RMSE 1,08. Po přidání AlogP (Vega) se sníží na 1,073. A konečně přidání XlogP2 přináší výkonnost 1,04 RMSE. Je pravděpodobné, že dodatečné začlenění Molinspirations logP a Biobytes logP by mohlo vést ke zlepšení, ale to by vyžadovalo licencování modelů a je mimo rozsah tohoto projektu. Přidání dalšího nejvýkonnějšího modelu, AlogPs, vedlo k mírnému poklesu výkonnosti na 1,088, takže přidávání dalších modelů skončilo zprůměrováním čtyř. Tento trend je patrný i při prostém zprůměrování výsledků jednotlivých modelů. Při společném zprůměrování modelů XlogP3-AA a SlogP je RMSE vůči Martelově testovací sadě 1,159. Po přidání AlogP klesne na 1,149 a po přidání XlogP2 dále klesne na 1,123. Tento výsledek je podrobně uveden v tabulce 4 jako LogP4Average. Po přidání AlogPs k průměru se výsledná kombinovaná výkonnost modelu opět mírně sníží na hodnotu RMSE 1,136. Zdá se, že zprůměrováním výsledků pro vytvoření trénovací množiny a následným učením pomocí složitějšího modelu se dosáhne lepšího výkonu.

Síla použití vypočtených dat na rozdíl od experimentálních dat je patrná při pokusu o trénování JPlogP pomocí databáze PhysProp. Atom-typer JPlogP je však výjimečně náročný na data a to, že má tak velký počet parametrů, znamená, že vyžaduje velký objem dat, aby nedošlo k nadměrnému přizpůsobení. To dobře funguje ve spojení s použitím vypočtených dat, protože neexistuje žádné omezení, kromě dostupné paměti v počítači, pokud jde o množství dat, které lze do metody vložit. Naopak při použití experimentálních dat při trénování pouze pomocí databáze PhysProp klesl R2 řešení na 0,884 na pouhých 92 indexech s RMSE 1,17 proti datové sadě Avdeef a 1,35 proti datové sadě Martel.

Pro vyhodnocení výkonnosti našeho modelu jsme se zpočátku snažili najít všechny metodiky logP, které Mannhold vyzkoušel, ale řada z nich vyžadovala licenci nebo nebyla momentálně k dispozici. Místo toho jsme se rozhodli pro redukovaný soubor podrobně popsaný níže, kde jsou volně k dispozici v rámci KNIME, lze k nim jednoduše přistupovat přes webové rozhraní nebo je lze spouštět po jedné sloučenině zdarma. Vzhledem k tomu, že v souboru údajů Martel je pouze 707 sloučenin a v souboru údajů Avdeef 267 sloučenin, bylo možné každou sloučeninu spustit ručně. Nakonec jsme vybrali následující seznam: ACD logP , AlogP (Vega) , AlogP (CDK) , AlogPS , Biobyte ClogP , KowWIN (EPISuite) , Mannhold logP (CDK) , Meylan (Vega) , MlogP (Vega) , MolInspiration logP , SlogP (RDKit) , XlogP2 (CDK) a XlogP3 .

Nejprve jsme zkoumali výkonnost naší metody a podmnožiny dalších metod (tabulka 3) na veřejném souboru dat shromážděném společností Avdeef . Ta je dosti podobná veřejné datové sadě, kterou použil Mannhold. Zde je okamžitě patrná výhoda, kterou předpovědím poskytuje použití vyhledávání známých sloučenin v knihovně. Vzhledem k tomu, že velký počet sloučenin v datovém souboru jsou přesné shody, je RMSE poměrně nízká a činí 0,63. Při použití JPlogP-coeff se chyba zvýší na 0,81, což je stále v podstatě podobný výkon jako u všech snadno dostupných prediktorů logP. Výkonnost modelu LogP4Average je lepší než u čtyř modelů, které byly zprůměrovány dohromady, k čemuž došlo i v Mannholdově analýze tohoto souboru dat. Druhý nejlepší je AlogP od společnosti Vega, následuje ClogP od společnosti Biobyte a poté XlogP3-AA. Mannholdsova metoda dosahuje hodnoty 1,43 RMSE, což je úctyhodný výkon pro velmi jednoduchý model s pouhými dvěma parametry. Většina metod se pohybuje v podstatě na podobné úrovni kolem 0,8 RMSE. Všechny modely dosahují lepších výsledků než průměr hodnot v souboru dat, zde označovaný jako aritmetický průměr (AAM), s jedinou výjimkou modelu AlogP z CDK, jak je implementován v KNIME. Vzhledem k tomu, že se tento model tolik liší od implementace AlogP v programu VEGA, existuje podezření, že špatné výsledky jsou způsobeny buď chybou v implementaci, nebo chybou uživatele. Vyzkoušení různých metod standardizace, tj. všech kombinací aromatizace/dearomatizace a s explicitní/implicitní úpravou vodíkem, výsledky nezlepšilo, takže je ponecháváme spíše jako kuriozitu, než abychom je považovali za správný výsledek. Naše metoda dosahuje průměrné chyby přibližně 0,6 logaritmických jednotek, což je pouze dvojnásobek experimentální chyby zjištěné ve studii opakovaných měření téže sloučeniny .

Tabulka 3 Výkonnost různých metod logP vůči datové sadě Avdeef

Hlavním problémem použití této datové sady jako testovací sady je však to, že většina těchto metod použila velkou část testovací sady jako svou trénovací sadu. Ve skutečnosti je hlavní nárůst výkonnosti našeho modelu jednoduše způsoben tím, že knihovna referenčních sloučenin obsahuje přesné shody, a proto nepředpovídá hodnotu logP tolik, jako si jen pamatuje, jaká je hodnota logP z tabulky.

Daleko zajímavější výzvou je proto předpovídání referenční datové sady navržené Martelem; výkonnost řady prediktorů logP vůči Martelově testovací sadě je uvedena v tabulce 4. Podrobné výsledky jsou k dispozici v doplňkovém souboru 3. Každý prediktor vybraný pro tuto studii byl schopen vygenerovat predikci pro každou sloučeninu. To svědčí o úsilí a kvalitě referenční datové sady poskytnuté společností Martel. Každá struktura je kurátorována na vysoké úrovni a je schopna být pochopena každým programem po sobě. Datová sada je také poměrně náročná na predikci, protože čtvrtým nejlepším prediktorem je prostý výsledek aritmetického průměru (AAM), který je jednoduše průměrem každé známé hodnoty logP v testovací sadě (4,189). Výkonnost většiny prediktorů je v podstatě podobná s RMSE mezi predikcí a experimentální hodnotou přibližně 1,3 logaritmické jednotky. JPlogP má nejlepší výkon ze všech různých použitých metod. Experimentální hodnoty se pohybují od 0,3 do 6,96, takže se pohybují v poměrně úzkém rozmezí a navíc mají víceméně normální rozdělení. Pokud by byl rozsah větší nebo rozdělení širší, pak by se výkonnost AAM snížila a ukázala by více prediktorů v pozitivním světle. Vhodným vylepšením tohoto srovnávacího souboru by bylo několik dalších sloučenin na extrémnějších koncích souboru dat, což by ztížilo predikci AAM s dobrými výsledky, protože více než polovina souboru dat se nachází v rozmezí jedné logaritmické jednotky od hodnoty 4,189. Rozšířením a prodloužením rozdělení by se relativní výkonnost AAM snížila, což by umožnilo, aby se více projevila síla různých prediktorů.

Tabulka 4 Výkonnost různých metod logP vůči Martelově datové sadě

Při pohledu na absolutní chyby v předpovědích lze pozorovat obecný trend, kdy prediktory s nejnižšími chybami mají předpovědi, které mají nejnižší absolutní chybu, až na některé výjimky. ACD i KowWIN mají RMSE vyšší než AlogPS, ale kupodivu oba tyto modely mají více sloučenin s chybou menší než 0,5 logaritmické jednotky než model AlogPS. JPlogP je schopen poskytnout předpověď s přesností na jednu logaritmickou jednotku přibližně v 70 % případů, což opět vede. Nejhůře si z hlediska chyby a RMSE vedl opět model AlogP z CDK (vide supra). Celkově má většina různých metodik logP horší výsledky na obtížnějším souboru dat Martel než na souboru dat Avdeef, a to především proto, že soubor dat Avdeef je v chemickém prostoru výrazně blíže trénovacímu souboru, který používají různé metody.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.