Так что на сегодняшний день я не хотел заниматься чем-то техническим. И я нашел статью Десять быстрых советов по машинному обучению в вычислительной биологии », написанную Давиде . Итак, давайте рассмотрим десять советов по машинному обучению в биологии!

Совет 1. Проверьте и правильно упорядочите набор входных данных

Итак, в первой части автор рекомендует иметь достаточно данных, чтобы модель машинного обучения действительно работала должным образом. И какой-то другой метод, например случайное перемешивание данных. Наконец, автор рекомендует удалить выброс, если у вас достаточно данных, а когда у вас недостаточно данных, округлить выброс до верхнего предела.

Совет 2. Разделите набор входных данных на три независимых подмножества (обучающий набор, проверочный набор, тестовый набор)

Довольно стандартный метод разделения набора данных на три разных набора данных. Набор для обучения, проверки и тестирования. Автор также говорит, что не пытайтесь обмануть себя, используя тестовые данные на этапе обучения, чтобы добиться большей точности.

Совет 3. Отнесите свою биологическую проблему к категории правильного алгоритма

Эту часть можно резюмировать в одно предложение, в зависимости от ваших данных вы должны выбрать либо использование контролируемого обучения, либо методы обучения без учителя. Это была интересная часть, однако я добавлю, что могут быть проблемы, которые могут быть решены с помощью усиленного обучения или полу-контролируемого обучения по биологии.

Совет 4. Какой алгоритм выбрать для запуска? Самый простой!

Автор рекомендовал использовать кластеризацию K-средних для методов обучения без учителя и k-ближайшую окрестность для задач обучения с учителем. Я также считаю, что самое простое решение - это наиболее элегантное решение.

Совет 5. Решите проблему несбалансированных данных

Здесь автор советует убедиться, что ваш набор данных правильно сбалансирован. И если это не так, автор также дает нам очень простое правило, которое может противодействовать этой разнице. Это правило 50% среднего.

Например, если у вас 90% отрицательных примеров и 10% положительных примеров в ваших данных.

Используя правило 50% среднего, как показано выше, вы можете получить хорошее соотношение того, сколько данных нужно поместить в вашу модель.

Совет 6. Оптимизируйте каждый гиперпараметр

Опять же, чтобы подвести итог, проведите множество экспериментов с вашим набором данных и выберите лучший гиперпараметр.

Совет 7. Избегайте чрезмерной подгонки

Итак, название советов говорит само за себя, помните о проблеме чрезмерной подгонки и постарайтесь минимизировать ее. Мое примечание: также следует помнить о недостаточной подгонке.

Совет 8. Оцените эффективность своего алгоритма с помощью коэффициента корреляции Мэтьюза (MCC) или кривой точности-отзыва

Автор предлагает использовать другую метрическую систему, чтобы правильно оценить ваш алгоритм. Эти показатели включают в себя точность, оценку F1, MCC, отзыв, выпадение, точность, кривую ROC и кривую точности-отзыва.

Совет 9. Программируйте свое программное обеспечение с открытым исходным кодом и платформами

Резюме: используйте программное обеспечение с открытым исходным кодом, такое как python, R, IBM Spss и т. Д.

Совет 10. Обращайтесь за помощью и отзывами к экспертам по информатике или в интерактивные сообщества вопросов и ответов

Спросите на Reddit или в любом другом отраслевом экспертном домене (даже на Medium), как ваш алгоритм работает с заданным набором данных.

Заключительные слова

Этот документ - хороший обзор для новичков в сообществе машинного обучения.

Если будут обнаружены какие-либо ошибки, пожалуйста, напишите мне на [email protected], если вы хотите увидеть список всех моих писем, пожалуйста, просмотрите мой сайт здесь.

Тем временем подпишитесь на меня в моем твиттере здесь и посетите мой веб-сайт или мой канал Youtube для получения дополнительной информации. Я также сделал сравнение Decoupled Neural Network здесь, если вам интересно.

Ссылка

  1. Chicco, Д. (2017). Десять быстрых советов по машинному обучению в вычислительной биологии. Biodata Mining, 10 (1). DOI: 10.1186 / s13040–017–0155–3