Малярия убивает. Возможно, вы этого не знаете, но по данным Всемирной организации здравоохранения половина населения мира подвержена риску заболевания малярией, а в 2016 году было зарегистрировано 445 000 смертей.

Исследования по лечению и излечению от малярии являются активной областью исследований, и большой вклад в них вносит Проект с открытым исходным кодом по борьбе с малярией (OSM). OSM использует методы с открытым исходным кодом для достижения смелого видения: лекарство от малярии.

Недавно KCAIL отправился в эту битву с лучшим оружием, которое есть в нашем арсенале: автоматами. Мы стали партнерами исследовательской группы из Университета штата Канзас, которая уже участвовала в поисках лекарства от малярии и использовала искусственный интеллект, чтобы предложить соединения для дальнейшего изучения их эффективности против малярии. Мы начали с набора данных из 47 химических соединений, которые уже были протестированы против малярии, и 23 соединений, которые еще не были протестированы. Это были небольшие наборы данных, но поскольку каждый тест на эффективность медленный и дорогостоящий, идентификация потенциально сильнодействующих соединений имеет невероятную ценность. Решение о том, какие соединения тестировать, принимается нелегко!

Цели нашего проекта состояли в том, чтобы определить непроверенное соединение, которое считается сильнодействующим, и определить, какие химические дескрипторы описывают эффективность. Первая цель поможет исследователям сузить круг тестов среди непроверенных соединений, в то время как вторая цель поможет исследователям модифицировать проверенные соединения, чтобы повысить их эффективность.

Эта область исследований называется количественным анализом взаимосвязи структуры и деятельности или QSAR. Мы привнесли опыт машинного обучения в совершенно новую область исследований, но мы могли бы добиться успеха только в том случае, если бы полагались на опыт исследователей малярии. Нашим первым шагом было узнать, как они будут использовать наши результаты. Это сообщило как о том, как будет выглядеть наша прогнозная цель, так и о том, как мы хотели бы представить результаты.

Мы также провели собственное исследование, чтобы лучше понять данные, которые нам были предоставлены. Мы получили более 1400 столбцов числовых химических дескрипторов, которые изначально не имели для нас особого смысла. Прежде чем мы научились создавать прогнозные модели, мы обратились к обширным исследованиям OSM и смогли прочитать работы других, чтобы получить идеи о том, как мы хотим решить эту проблему.

Одним из наших величайших достижений в этом процессе была роль адвоката собственного дьявола. Если бы мы могли более скептически относиться к нашим результатам, чем любая заинтересованная сторона, тогда было бы меньше сюрпризов, когда дело дошло до представления наших результатов. Высокие уровни точности прогнозов иногда могут быть явно нереалистичными. Если у вас нет лучших данных, самого большого набора данных или лучшего понимания проблемы, вы, вероятно, не ожидаете высокой точности.

Наш здоровый скептицизм привел к несколько иному подходу, чем тот, с которого мы начали, и улучшил наши конечные результаты. Любая заинтересованная сторона захочет получить больше доказательств, прежде чем они будут готовы принять что-то как надежное. «Надежный» стал названием игры. Вместо одной «точной» модели мы решили произвести 80 разных моделей. Эти модели позволили нам разработать доверительные интервалы, которые дали нам большую гибкость в отношении ошибочности любой модели.

Мы знали, что прогнозы были несовершенными, и это не было проблемой. Как сказал Джордж Бокс: «Все модели неверны, но некоторые полезны». Наша цель состояла в том, чтобы получить доказательства того, какое из непроверенных соединений наиболее вероятно будет сильнодействующим. В нашем заключительном отчете мы описали непроверенные соединения, которые, по нашему мнению, обладают сильнодействующими свойствами и химическими дескрипторами, которые, по-видимому, связаны с эффективностью против малярии.

Чтобы увидеть наши результаты и код, который мы создали, вот репозиторий GitHub, который вы можете читать, клонировать и создавать из него. Мы надеемся, что вы прочитали наш технический отчет и нашли ценность в наших исследованиях!

Если вы хотите стать супергероем данных, отправьте нам сообщение:

Kcail.com