JPlogP: ulepszony predyktor logP wytrenowany przy użyciu przewidywanych danych

Po tym jak atom-typer i zestaw treningowy zostały sfinalizowane, a cały kod został zaimplementowany w naszym wewnętrznym silniku cheminformatycznym, zbadaliśmy wydajność naszego predyktora w stosunku do wydajności różnych publicznie dostępnych metod predykcji logP. Użyliśmy dwóch wzorcowych zestawów testowych. Pierwszy z nich został dostarczony przez firmę Avdeef i składa się z dużej liczby związków obecnych w bazie PhysProp. Drugi, dostarczony przez firmę Martel, został wybrany tak, aby reprezentował trudniejszą farmakologicznie przestrzeń chemiczną. Użycie tego zbioru testowego pozwala również uniknąć problemów związanych z tym, że związki, które znajdują się w zbiorze testowym, są również obecne w zbiorze treningowym. Nasze wyniki są podzielone pomiędzy nasze dwie różne metodologie predykcji: JPlogP-coeff oraz JPlogP-library. Pierwsza opiera się wyłącznie na współczynnikach wyszkolonych z modelu, podczas gdy druga zaczyna od związków podobnych do związku przewidywanego i zamiast tego używa tylko współczynników do modyfikacji znanego logP, aby reprezentować różnicę między cząsteczkami.

Jako przykład, przykładowe obliczenia pokazano w Tabeli 1. Pokazuje ona hologramy typu atomowego dla dwóch molekuł, 4-chlorofenolu i 4-bromofenolu. Podane są również współczynniki dla różnych typów atomów. Można zauważyć, że używając wyłącznie współczynników, przewidywanie dla bromofenolu wynosi 2.69, co mieści się w akceptowalnych granicach od doświadczalnej wartości logP wynoszącej 2.59. Zamiast tego, jeśli zaczniemy od doświadczalnego logP chlorofenolu wynoszącego 2.39 i wyznaczymy hologram różnicy pomiędzy znanym chlorofenolem i teoretycznie nieznanym bromofenolem, możemy następnie użyć pozostałych współczynników wraz z początkowym logP z chlorofenolu, aby otrzymać przewidywanie biblioteczne wynoszące 2.57. Wynik ten jest znacznie bliższy doświadczalnej wartości 2,59 niż w porównaniu z użyciem tylko współczynników do przewidywania logP. Metoda ta jest podobna do sposobu, w jaki XlogP3 włączył dodatkową wiedzę poprzez bibliotekę znanych związków do swoich przewidywań, z wyjątkiem tego, że jesteśmy w stanie zacząć od więcej niż jednego podobnego związku, ale ponieważ związki są porównywane tylko przez hologram, istnieje możliwość wystąpienia większych różnic strukturalnych.

Dalsza optymalizacja była wymagana w celu określenia, jaki powinien być minimalny poziom podobieństwa, a także liczba podobnych związków, które mogą być użyte do przewidywania. Do optymalizacji tych parametrów użyto zbioru danych Avdeef, ponieważ był on bliższy w przestrzeni chemicznej do bazy danych PhysProp. Zastosowana miara podobieństwa była podobna do miary Tanimoto, ale pozwalała na częściowe nakładanie się poprzez użycie wartości minimalnej podzielonej przez wartość maksymalną dla każdego bitu zamiast prostej jedynki lub zera. Metoda hologramu różnicowego działa najlepiej, gdy zaczyna się od podobnych molekuł, dlatego nie próbowano podobieństw poniżej 0,5. Uśrednianie wielu różnych obliczeń uznano za niepotrzebne, więc użycie 7 różnych najlepszych dopasowań uznano za maksymalne. W tabeli 2 przedstawiono wyniki różnych wypróbowanych kombinacji. Minimalne podobieństwo, aby dopasowanie było możliwe, wahało się między 0,5 a 0,8, wraz z maksymalną liczbą potencjalnych dopasowań wahającą się od 1 do 7. Zoptymalizowane parametry skutkujące minimalnym błędem średniokwadratowym (RMSE) dla zbioru danych to minimalne podobieństwo 0,75 i maksymalna liczba 5. W przypadku zastosowania metody współczynnikowej, bez wykorzystania dodatkowych informacji zawartych w bibliotece, RMSE wynosi 0,808. Biorąc pod uwagę, że minimalne podobieństwo jest ustawione tak wysoko, jest to rzadkie zdarzenie, że istnieje pełne pięć początkowych dopasowań używanych dla każdej danej prognozy, ale z bardziej dostrojoną biblioteką osobistą istnieje taka możliwość.

Tabela 2 Wartości RMSE dla grid-search porównujące maksymalną liczbę dopasowań do użycia wraz z minimalnym progiem podobieństwa

Porównaliśmy również zdolność dwóch alternatywnych metod atom-typer do uchwycenia wiedzy w obliczonym zbiorze danych logP. Porównaliśmy zarówno typ Sybyl jak i oryginalne typy atomów Ghose i Crippen. Typ atomu Sybyl zawiera tylko 44 różne możliwości, które zostały rozszerzone o wszystkie możliwe metale jako ich własne, indywidualne typy. Używaj±c obliczonego zestawu treningowego znaleziono tylko 28 różnych typów atomów, ale wynikowy model wci±ż przewidywał zestaw wzorcowy Martela z przyzwoitym RMSE wynosz±cym 1.15. Typy atomów Ghose i Crippen są rozszerzonym zbiorem i używając naszego obliczonego zbioru treningowego znaleziono 108 różnych typów atomów, a model zbudowany przy ich użyciu był w stanie poprawić wynik sybyla, uzyskując RMSE równe 1.12. Zbadaliśmy również potencjał użycia typów atomów XlogP2, co zaowocowało modelem z 88 typami i RMSE równym 1.17. Przy użyciu zdefiniowanego tutaj atom-typera, znaleziono 188 różnych typów atomów, a wynik poprawił się do RMSE 1.04, używając tylko współczynników do tworzenia predykcji. Dodana złożoność jest w stanie lepiej uwzględniać drobne różnice, a dzięki dużym obliczonym zbiorom danych jest w stanie lepiej przewidywać w szerokiej przestrzeni chemicznej. Podczas badania wpływu każdej dodatkowej metody predykcji uśrednionej w obliczonej wartości na wydajność względem zbioru danych Martel, widać wyraźny trend dla każdej dodatkowej metodologii. Począwszy od najlepszych predyktorów, gdy XlogP3-AA i SlogP są używane jako jedyne składniki obliczonego zbioru danych, wydajność ma RMSE równe 1,08. Po dodaniu AlogP (Vega) wartość ta została zredukowana do 1,073. Wreszcie dodanie XlogP2 daje wynik 1,04 RMSE. Jest prawdopodobne, że dodatkowe włączenie Molinspirations logP i Biobytes logP mogłoby spowodować poprawę, ale wymagałoby to licencjonowania modeli i jest poza zakresem tego projektu. Dodanie kolejnego modelu o najlepszych wynikach, AlogPs, spowodowało niewielki spadek wydajności do 1,088, więc dodawanie kolejnych modeli zakończyło się uśrednieniem czterech. Tendencja ta jest również widoczna przy prostym uśrednianiu wyników z każdego modelu z osobna. Kiedy XlogP3-AA i SlogP są uśredniane razem, RMSE dla zestawu testowego Martel wynosi 1,159. Po dodaniu AlogP spada on do 1,149, a po dodaniu XlogP2 jeszcze bardziej do 1,123. Wynik ten jest wyszczególniony w Tabeli 4 jako LogP4Average. Ponownie, gdy do średniej doda się AlogPs, wynikowa łączna wydajność modelu nieznacznie spada do RMSE równego 1,136. Wydaje się, że uśrednienie wyników w celu wygenerowania zbioru treningowego, a następnie uczenie z wykorzystaniem bardziej skomplikowanego modelu skutkuje lepszą wydajnością.

Siła wykorzystania danych obliczeniowych w przeciwieństwie do danych eksperymentalnych jest widoczna przy próbie trenowania JPlogP z wykorzystaniem bazy danych PhysProp. Program JPlogP atom-typer jest jednak wyjątkowo głodny danych, a posiadanie tak dużej liczby parametrów oznacza, że wymaga dużej ilości danych, aby uniknąć przepasowania. Działa to dobrze w połączeniu z wykorzystaniem danych obliczeniowych, ponieważ nie ma żadnego ograniczenia, poza dostępną pamięcią w komputerze, co do ilości danych, które można wprowadzić do metody. I odwrotnie, kiedy używamy danych eksperymentalnych, kiedy trenujemy używając samej bazy danych PhysProp, R2 rozwiązania spadło do 0.884 na zaledwie 92 indeksach z RMSE 1.17 przeciwko zbiorowi danych Avdeef i 1.35 przeciwko zbiorowi danych Martel.

Aby ocenić wydajność naszego modelu początkowo próbowaliśmy zlokalizować każdą metodologię logP wypróbowaną przez Mannholda, ale wiele z nich wymagało licencji lub było obecnie niedostępnych. Zamiast tego zdecydowaliśmy się na zredukowany zestaw wyszczególniony poniżej, gdzie są one swobodnie dostępne w KNIME, mogą być po prostu dostępne poprzez interfejs internetowy, lub mogą być uruchamiane jeden związek na raz za darmo. Ponieważ jest tylko 707 związków w zbiorze danych Martel i 267 związków w zbiorze danych Avdeef, możliwe było ręczne uruchomienie każdego związku. W końcu wybraliśmy następującą listę: ACD logP , AlogP (Vega) , AlogP (CDK) , AlogPS , Biobyte ClogP , KowWIN (EPISuite) , Mannhold logP (CDK) , Meylan (Vega) , MlogP (Vega) , MolInspiration logP , SlogP (RDKit) , XlogP2 (CDK) i XlogP3 .

Początkowo, zbadaliśmy wydajność naszej metody i podzbioru innych metod (Tabela 3) przeciwko publicznemu zbiorowi danych zebranych przez Avdeef . Jest on dość podobny do publicznego zbioru danych używanego przez Mannholda. W tym przypadku, przewaga, jaką daje przewidywaniom użycie biblioteki znanych związków jest natychmiast widoczna. Ponieważ duża liczba związków w zbiorze danych jest dokładnie dopasowana, RMSE jest dość niskie na poziomie 0.63. Przy użyciu JPlogP-coeff błąd wzrasta do 0,81, wciąż osiągając wyniki podobne do wszystkich łatwo dostępnych predyktorów logP. Wydajność LogP4Average jest lepsza niż czterech modeli, które zostały uśrednione razem, co również miało miejsce w analizie Mannholdsa dla tego zbioru danych. Drugim najlepszym modelem jest AlogP firmy Vega, następnie ClogP firmy Biobyte, a potem XlogP3-AA. Metoda Mannholds osiąga 1,43 RMSE, co jest wynikiem godnym szacunku dla bardzo prostego modelu z zaledwie dwoma parametrami. Większość metod jest zasadniczo podobna w zakresie 0,8 RMSE. Wszystkie modele osiągają lepsze wyniki niż średnia wartości w zbiorze danych, zwana średnią arytmetyczną (AAM), z jedynym wyjątkiem AlogP z CDK, zaimplementowanego w KNIME. Ponieważ jest to tak różne od implementacji AlogP w VEGA, istnieją podejrzenia, że słabe wyniki są spowodowane albo błędem w implementacji, albo błędem użytkownika. Wypróbowanie różnych metod normalizacji, tj. wszystkich kombinacji aromatyzacji/dearomityzacji oraz z jawnym/niejawnym traktowaniem wodorem nie poprawiło wyników, więc pozostawiamy je raczej jako ciekawostkę niż właściwy wynik. Nasza metoda osiąga średni błąd około 0.6 jednostki log, co jest tylko dwukrotnie większym błędem niż błąd eksperymentalny odkryty w badaniu wielokrotnych pomiarów tego samego związku .

Tabela 3 Wydajność różnych metod logP względem zbioru danych Avdeef

Jednakże, głównym problemem z użyciem tego zbioru danych jako zbioru testowego jest to, że większość z tych metod użyła dużej części zbioru testowego jako swojego zbioru treningowego. W rzeczywistości, główny wzrost wydajności w naszym modelu wynika po prostu z faktu, że biblioteka związków referencyjnych zawiera dokładne dopasowania i dlatego nie przewiduje wartości logP tak bardzo, jak tylko zapamiętuje wartość logP z tabeli.

Dużo bardziej interesującym wyzwaniem jest zatem przewidywanie zbioru danych Benchmark opracowanego przez Martela; wydajność kilku predyktorów logP przeciwko zbiorowi testowemu Martela jest pokazana w Tabeli 4. Szczegółowe wyniki są dostępne w pliku dodatkowym 3. Każdy predyktor wybrany do tego badania był w stanie wygenerować predykcję dla każdego związku. Pokazuje to wysiłek i jakość zbioru wzorcowego dostarczonego przez Martela. Każda struktura jest opracowana na wysokim poziomie i jest w stanie być zrozumiana przez każdy program po kolei. Zestaw danych jest również dość trudny do przewidzenia, jako czwarty najlepszy predyktor jest prostym wynikiem średniej arytmetycznej (AAM), która jest po prostu średnią każdej znanej wartości logP w zestawie testowym (4.189). Wydajność większości predyktorów jest zasadniczo podobna, a RMSE między predykcją a wartością eksperymentalną wynosi około 1,3 jednostki logarytmicznej. JPlogP ma najlepszą wydajność spośród wszystkich użytych metod. Wartości doświadczalne wahają się od 0,3 do 6,96, a więc mieszczą się w dość wąskim zakresie, a ponadto mają mniej więcej rozkład normalny. Gdyby zakres był większy lub rozkład szerszy, wtedy wydajność AAM zmniejszyłaby się i pokazałaby więcej predyktorów w pozytywnym świetle. Dobrym wzmocnieniem tego zestawu wzorcowego byłoby kilka dodatkowych związków na bardziej skrajnych końcach zbioru danych, co uczyniłoby go trudniejszym dla AAM do przewidywania z dobrymi wynikami, ponieważ ponad połowa zbioru danych jest w zakresie jednej jednostki logarytmicznej od 4.189. Poprzez poszerzenie i rozszerzenie rozkładu, względna wydajność AAM zmniejszyłaby się pozwalając, aby siła różnych predyktorów była bardziej widoczna.

Tabela 4 Wydajność różnych metod logP przeciwko zbiorowi danych Martel

Patrząc na bezwzględne błędy w przewidywaniach można zauważyć ogólny trend, gdzie predyktory z najniższymi błędami mają przewidywania, które mają najniższy błąd bezwzględny, z kilkoma wyjątkami. Zarówno ACD jak i KowWIN mają RMSE wyższe niż AlogPS, ale co dziwne oba te modele mają więcej związków z błędem mniejszym niż 0,5 log jednostki niż model AlogPS. JPlogP jest w stanie podać przewidywania z dokładnością do jednej jednostki log w około 70% przypadków, co ponownie przewodzi stawce. Najgorszy pod względem błędu i RMSE okazał się ponownie model AlogP firmy CDK (zob. supra). Ogólnie rzecz biorąc, większość różnych metodologii logP radzi sobie gorzej na trudniejszym zbiorze danych Martel niż na zbiorze danych Avdeef, głównie dlatego, że zbiór danych Avdeef jest znacznie bliższy w przestrzeni chemicznej zbiorowi treningowemu wykorzystywanemu przez różne metody.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.