JPlogP: um preditor logP melhorado treinado usando dados previstos

Após o átomo-padrão e o conjunto de treinamento terem sido finalizados e todo o código ter sido implementado em nosso motor cheminformático interno, examinamos a performance de nosso preditor em relação à performance de diferentes métodos de previsão logP disponíveis publicamente. Utilizámos dois conjuntos de teste de referência. O primeiro foi fornecido pela Avdeef e consiste de um grande número de compostos presentes na base de dados PhysProp. O segundo, que foi fornecido pela Martel , foi escolhido para representar o espaço químico mais difícil do ponto de vista farmacológico. A utilização desse conjunto de testes também evita problemas associados a compostos que estão no conjunto de testes também presentes no conjunto de treinamento. Os nossos resultados estão divididos entre as nossas duas diferentes metodologias de previsão: JPlogP-coeff e JPlogP-library. A primeira baseia-se apenas nos coeficientes treinados a partir do modelo, enquanto a segunda parte de compostos semelhantes ao composto a ser previsto e, em vez disso, utiliza apenas os coeficientes para modificar o logP conhecido para representar a diferença entre as moléculas.

Como exemplo, um cálculo de amostra é mostrado na Tabela 1. Isto mostra os hologramas do tipo átomo para duas moléculas, 4-clorofenol e 4-bromofenol. Também são dados os coeficientes para os diferentes tipos de átomo. Pode-se ver que usando apenas os coeficientes, a previsão para o bromofenol é de 2,69, o que está dentro dos limites aceitáveis a partir do valor logP experimental de 2,59. Em vez disso, se começarmos com o logP experimental do clorofenol de 2,39 e determinarmos a diferença do holograma entre o clorofenol conhecido e o bromofenol teoricamente desconhecido, podemos então usar os coeficientes restantes juntamente com o logP inicial do clorofenol para chegar a uma previsão de biblioteca de 2,57. Esse resultado é significativamente mais próximo do valor experimental de 2,59 do que a utilização apenas dos coeficientes para prever o logP. Este método é similar à forma como o XlogP3 incorporou conhecimento adicional através de uma biblioteca de compostos conhecidos em suas previsões, exceto que somos capazes de partir de mais de um composto similar, mas como os compostos são comparados apenas por holograma há a possibilidade de mais grandes diferenças estruturais.

Foi necessária uma maior otimização para determinar qual deve ser o nível mínimo de similaridade e também o número de compostos similares que podem ser usados para uma previsão. O conjunto de dados Avdeef foi utilizado para optimizar estes parâmetros, uma vez que isso estava mais próximo no espaço químico da base de dados PhysProp. A medida de similaridade utilizada foi semelhante à medida Tanimoto, mas permitiu a sobreposição parcial através da utilização do valor mínimo dividido pelo valor máximo para cada bit, em vez de um simples um ou zero. O método do holograma de diferença funciona melhor quando se parte de moléculas semelhantes, por isso não foram tentadas semelhanças abaixo de 0,5. A média de muitos cálculos diferentes foi considerada desnecessária, então o uso de 7 melhores combinações diferentes foi considerado como o máximo. Mostrados na Tabela 2 estão os resultados das diferentes combinações tentadas. A semelhança mínima para que uma combinação fosse possível variou entre 0,5 e 0,8, juntamente com o número máximo de combinações potenciais variando de 1 a 7. Os parâmetros otimizados que resultaram no erro médio quadrático mínimo da raiz (RMSE) para o conjunto de dados foram encontrados com uma similaridade mínima de 0,75, juntamente com um número máximo de 5. Se for utilizado o método do coeficiente, sem utilizar a informação extra na biblioteca, o RMSE é de 0,808. Dado que a semelhança mínima é tão alta, é um evento raro que existam as cinco partidas iniciais completas utilizadas para qualquer previsão, mas com uma biblioteca pessoal mais afinada, existe a possibilidade.

Tabela 2 valores RMSE para a pesquisa da grade comparando o número máximo de correspondências a usar junto com o limiar mínimo de similaridade

Nós também comparamos a capacidade de dois métodos alternativos de pentagrama de átomo para capturar o conhecimento no conjunto de dados logP calculado. Comparamos ambos os tipos de átomos Sybyl e Ghose e Crippen originais. O tipo de átomo sybyl contém apenas 44 possibilidades diferentes, que foram ampliadas para incluir todos os metais possíveis como seus próprios tipos individuais. Usando o conjunto de treinamento calculado apenas 28 tipos de átomos diferentes foram encontrados, mas o modelo resultante ainda previu o conjunto de referência Martel com um respeitável RMSE de 1,15. Os tipos de átomo Ghose e Crippen são um conjunto expandido e, usando o nosso conjunto de treinamento calculado, foram encontrados 108 tipos de átomo diferentes e o modelo construído usando estes, foi capaz de melhorar o resultado sibilante, produzindo um RMSE de 1,12. Também investigamos o potencial da utilização dos tipos de átomo XlogP2, o que resultou num modelo com 88 tipos e um RMSE de 1,17. Com os tipos de átomo aqui definidos, são encontrados 188 tipos de átomo diferentes e o resultado melhora para um RMSE de 1,04, usando apenas os coeficientes para produzir uma previsão. A complexidade acrescida é mais capaz de contabilizar variações menores e com os grandes conjuntos de dados calculados e são mais capazes de prever através de um amplo espaço químico. Quando se examina o impacto de cada método de previsão adicional no valor médio calculado sobre o desempenho em relação ao conjunto de dados Martel, observa-se uma tendência clara para cada metodologia adicional. A partir dos melhores preditores quando o XlogP3-AA e o SlogP são utilizados como os únicos contribuintes para o conjunto de dados calculado, o desempenho tem um RMSE de 1,08. Com a adição do AlogP (Vega) ele é reduzido para 1,073. Finalmente a adição de XlogP2 produz o desempenho de 1,04 RMSE. É provável que a incorporação adicional de Molinspirations logP e Biobytes logP poderia resultar em uma melhoria, mas isso exigiria o licenciamento dos modelos e está fora do escopo deste projeto. A adição do próximo modelo de melhor desempenho, AlogPs, resultou em uma pequena redução no desempenho para 1.088, de modo que a adição de outros modelos cessou com a média de quatro. Esta tendência também é observada quando se faz a mera média dos resultados de cada modelo individual. Quando o XlogP3-AA e o SlogP são calculados em média, o RMSE contra o conjunto de testes Martel é de 1,159. Com a adição de AlogP cai para 1,149 e a adição de XlogP2 cai ainda mais para 1,123. Este resultado está detalhado na Tabela 4 como LogP4Average. Novamente quando AlogPs é adicionado à média, o desempenho do modelo combinado resultante diminui ligeiramente para um RMSE de 1,136. Parece que ao calcular a média dos resultados para gerar o conjunto de treinamento e depois aprender com um modelo mais complicado resulta em melhor desempenho.

A força de usar os dados calculados em oposição aos dados experimentais é aparente quando se tenta treinar JPlogP usando a base de dados PhysProp. No entanto, o JPlogP é excepcionalmente faminto por dados e ter um número tão grande de parâmetros significa que ele requer um grande volume de dados para evitar o ajuste excessivo. Isto funciona bem em conjunto com o uso de dados calculados, pois não há limite, além da memória disponível no computador, para a quantidade de dados a serem alimentados no método. Por outro lado, ao utilizar dados experimentais quando treinados utilizando apenas a base de dados PhysProp, o R2 da solução caiu para 0,884 em apenas 92 índices com um RMSE de 1,17 contra o conjunto de dados Avdeef e 1,35 contra o conjunto de dados Martel.

Para avaliar o desempenho do nosso modelo, tentamos inicialmente localizar todas as metodologias logP testadas por Mannhold, mas algumas delas exigiam uma licença ou não estavam disponíveis no momento. Em vez disso, nós nos estabelecemos no conjunto reduzido detalhado abaixo onde eles estão livremente disponíveis dentro do KNIME, podem ser simplesmente acessados através de uma interface web, ou podem ser executados um composto de cada vez gratuitamente. Como existem apenas 707 compostos no conjunto de dados Martel e 267 compouonds no conjunto de dados Avdeef, foi possível executar cada composto manualmente. No final, selecionamos a seguinte lista: ACD logP , AlogP (Vega) , AlogP (CDK) , AlogPS , Biobyte ClogP , KowWIN (EPISuite) , Mannhold logP (CDK) , Meylan (Vega) , MlogP (Vega) , MolInspiration logP , SlogP (RDKit) , XlogP2 (CDK) e XlogP3 .

Inicialmente, investigamos o desempenho do nosso método e um subconjunto de outros métodos (Tabela 3) em relação ao conjunto de dados públicos coletados pela Avdeef . Isto é bastante similar ao conjunto de dados públicos utilizado por Mannhold. Aqui, a vantagem que é dada às previsões usando a busca na biblioteca de compostos conhecidos é imediatamente aparente. Uma vez que um grande número de compostos no conjunto de dados são exactamente iguais, o RMSE é bastante baixo em 0,63. Ao usar o JPlogP-coeff o erro sobe para 0,81, ainda com um desempenho semelhante ao de todos os preditores logP facilmente disponíveis. O desempenho do LogP4Average é melhor do que os quatro modelos que foram calculados em média juntos, como também ocorreu na análise de Mannholds deste conjunto de dados. O segundo melhor é o AlogP de Vega, seguido pelo Biobyte’s ClogP e depois o XlogP3-AA. O método Mannholds vem em 1,43 RMSE, que é um desempenho respeitável para um modelo muito simples com apenas dois parâmetros. A maior parte dos métodos são muito semelhantes em torno da faixa de 0,8 RMSE. Todos os modelos têm um desempenho melhor que a média dos valores do conjunto de dados, aqui designada por Média Aritmética (AAM), com a única exceção do AlogP do CDK, conforme implementado no KNIME. Como isso é tão diferente da implementação do AlogP na VEGA, há suspeitas de que os maus resultados se devam a um erro na implementação ou a um erro do usuário. Tentar diferentes métodos de padronização, ou seja, todas as combinações de aromatização/dearomitização e com tratamento explícito/implicito com hidrogênio não melhorou os resultados, de modo que eles são deixados mais como uma curiosidade do que para serem considerados um resultado adequado. O nosso método atinge um erro médio de aproximadamente 0,6 unidades log, que é apenas o dobro do erro experimental descoberto num estudo de medições repetidas do mesmo composto .

Table 3 Performance dos diferentes métodos logP em relação ao conjunto de dados Avdeef

No entanto, um grande problema com a utilização deste conjunto de dados como conjunto de teste é que a maioria destes métodos utilizou uma grande parte do conjunto de teste como conjunto de treino. Na verdade, o maior aumento no desempenho do nosso modelo deve-se simplesmente ao fato de que a biblioteca de compostos de referência contém correspondências exatas e, portanto, não está prevendo o valor logP tanto quanto está apenas lembrando qual é o valor logP de uma tabela.

Um desafio muito mais interessante, portanto, é a previsão do conjunto de dados de Benchmark elaborado pela Martel; o desempenho de um número de preditores logP em relação ao conjunto de testes Martel é mostrado na Tabela 4. Os resultados detalhados estão disponíveis no arquivo adicional 3. Cada preditor selecionado para este estudo foi capaz de gerar uma previsão para cada composto. Isto mostra o esforço e a qualidade do conjunto de dados de referência fornecidos pela Martel. Cada estrutura é curada a um alto padrão e é capaz de ser entendida por cada programa por sua vez. O conjunto de dados também é bastante difícil de prever, pois o quarto melhor preditor é a média aritmética simples (AAM), que é simplesmente a média de cada valor logP conhecido no conjunto de testes (4,189). O desempenho da maioria dos preditores é bastante semelhante com uma RMSE entre a previsão e o valor experimental de aproximadamente 1,3 unidades logarítmicas. O JPlogP tem o melhor desempenho de todos os diferentes métodos utilizados. Os valores experimentais variam de 0,3 a 6,96, de modo que estão acima de uma faixa bastante estreita e, além disso, são mais ou menos uma distribuição normal. Se a faixa fosse maior, ou a distribuição mais ampla, então o desempenho do AAM diminuiria e mostraria mais dos preditores sob uma luz positiva. Um bom aperfeiçoamento deste conjunto de referência seria alguns compostos adicionais nas extremidades mais extremas do conjunto de dados, o que tornaria mais difícil para o AAM prever com bons resultados, já que mais da metade do conjunto de dados está dentro de uma unidade de registo de 4,189. Ao ampliar e estender a distribuição, o desempenho relativo do AAM diminuiria permitindo que a força dos vários preditores fosse mais aparente.

Table 4 Performance dos diferentes métodos logP em relação ao conjunto de dados Martel

Ao olhar para os erros absolutos nas predições pode-se ver uma tendência geral, onde os preditores com os erros mais baixos têm as predições que têm o menor erro absoluto, com algumas exceções. Tanto o ACD como o KowWIN têm um RMSE superior ao AlogPS, mas estranhamente ambos têm mais compostos com menos de 0,5 log de erro unitário do que o modelo AlogPS. O JPlogP é capaz de dar uma previsão dentro de uma unidade de log aproximadamente 70% do tempo, o que novamente lidera o pacote. O pior desempenho, em termos de erro e RMSE, foi novamente o AlogP do CDK (vide supra). No geral, a maioria das diferentes metodologias logP tem um desempenho pior no conjunto de dados mais difícil de Martel do que no conjunto de dados Avdeef, principalmente porque o conjunto de dados Avdeef está significativamente mais próximo, no espaço químico, do conjunto de treinamento utilizado pelos diferentes métodos.

Deixe uma resposta

O seu endereço de email não será publicado.