За последние годы методы машинного обучения значительно улучшились. Однако большая часть этого улучшения была связана с проблемами при обработке изображений, такими как распознавание объектов на изображениях или рисование новых изображений лиц. Изображения хороши тем, что представляют собой обычные массивы чисел и потому, что их много. Большинство проблем в науке - это не проблемы компьютерного зрения, поэтому размышления о том, как машинное обучение может применяться в науке, требует другого набора базовых знаний.

Имея это в виду, вот «Удивительный список» нашей компании рекомендованной справочной литературы о пересечении неконтролируемого обучения и генеративных моделей, статистики, статистической физики и биологии.

Неконтролируемое обучение и генеративные модели

Экли, Дэвид Х., Джеффри Э. Хинтон и Терренс Дж. Сейновски. «Алгоритм обучения для машин Больцмана. Когнитивная наука 9.1 (1985): 147–169 ».

Аннотация: Вычислительная мощность массово-параллельных сетей простых обрабатывающих элементов заключается в пропускной способности связи, обеспечиваемой аппаратными соединениями между элементами. Эти связи могут позволить применить значительную часть знаний о системе к экземпляру проблемы за очень короткое время. Один из видов вычислений, для которого, по-видимому, хорошо подходят массивно-параллельные сети, - это поиск соответствия большим ограничениям, но для эффективного использования соединений должны быть выполнены два условия: во-первых, необходимо найти метод поиска, который подходит для параллельных сетей. Во-вторых, должен быть какой-то способ выбора внутренних представлений, позволяющих эффективно использовать существующие аппаратные соединения для кодирования ограничений в исследуемой области. Мы описываем общий метод параллельного поиска, основанный на статистической механике, и показываем, как он приводит к общему правилу обучения для изменения силы соединения, чтобы эффективно использовать знания о предметной области. Мы описываем несколько простых примеров, в которых алгоритм обучения создает внутренние представления, которые, очевидно, являются наиболее эффективным способом использования ранее существовавшей структуры связи.

** Хинтон, Джеффри Э. и Руслан Р. Салахутдинов. «Уменьшение размерности данных с помощью нейронных сетей. наука 313.5786 (2006): 504–507 ».

Аннотация: Данные высокой размерности можно преобразовать в коды низкой размерности путем обучения многослойной нейронной сети с небольшим центральным слоем для восстановления входных векторов большой размерности. Градиентный спуск можно использовать для точной настройки весов в таких сетях «автокодировщиков», но это хорошо работает только в том случае, если начальные веса близки к хорошему решению. Мы описываем эффективный способ инициализации весов, который позволяет глубоким сетям автокодировщиков изучать низкоразмерные коды, которые работают намного лучше, чем анализ основных компонентов, как инструмент для уменьшения размерности данных.

Комментарий: статья, положившая начало революции в области глубокого обучения.

Салахутдинов, Руслан, и Хинтон, Джеффри Э.« Глубинные машины Больцмана . Труды Двенадцатой Международной конференции по искусственному интеллекту и статистике. 2009. »

Аннотация: Мы представляем новый алгоритм обучения для машин Больцмана, которые содержат много уровней скрытых переменных. Ожидания, зависящие от данных, оцениваются с использованием вариационной аппроксимации, которая имеет тенденцию фокусироваться на одном режиме, а ожидания, не зависящие от данных, аппроксимируются с использованием устойчивых цепей Маркова. Использование двух совершенно разных методов для оценки двух типов математических ожиданий, входящих в градиент логарифмической вероятности, делает практичным изучение машин Больцмана с несколькими скрытыми слоями и миллионами параметров. Обучение можно сделать более эффективным, используя поэтапную фазу «предварительного обучения», которая позволяет инициализировать вариационный вывод с помощью одного восходящего прохода. Мы представляем результаты по наборам данных MNIST и NORB, показывающие, что глубинные машины Больцмана изучают хорошие генеративные модели и хорошо справляются с задачами распознавания рукописных цифр и визуальных объектов.

* Хинтон, Джеффри Э.« Практическое руководство по обучению ограниченных машин Больцмана . Нейронные сети: хитрости торговли. Springer, Berlin, Heidelberg, 2012. 599–619 ».

Аннотация: Машины Больцмана с ограничениями (RBM) использовались в качестве генеративных моделей для многих различных типов данных. RBM обычно обучаются с использованием процедуры обучения контрастной дивергенции. Это требует определенного практического опыта, чтобы решить, как устанавливать значения числовых мета-параметров. За последние несколько лет группа машинного обучения в Университете Торонто приобрела значительный опыт в обучении УКР, и это руководство является попыткой поделиться этим опытом с другими исследователями машинного обучения.

Комментарий: Пошаговые рецепты машинного обучения старой и новой школы.

** Гудфеллоу, Ян и др. «Генеративные состязательные сети. Достижения в области нейронных систем обработки информации. 2014. »

Аннотация: Мы предлагаем новую структуру для оценки генеративных моделей через состязательные сети, в которой мы одновременно обучаем две модели: генеративную модель G, которая фиксирует распределение данных, и дискриминативную модель D, которая оценивает вероятность того, что выборка была получена из обучающих данных. а не G. Процедура обучения G состоит в том, чтобы максимизировать вероятность того, что D совершит ошибку. Эта структура соответствует минимаксной игре двух игроков. В пространстве произвольных функций G и D существует единственное решение, в котором G восстанавливает распределение обучающих данных, а D везде равно 1/2. В случае, когда G и D определяются многослойными персептронами, всю систему можно обучить с помощью обратного распространения. Нет необходимости в каких-либо цепях Маркова или развернутых сетях приближенного вывода во время обучения или генерации выборок. Эксперименты демонстрируют потенциал фреймворка посредством качественной и количественной оценки созданных образцов.

Комментарий: Иногда максимизация вероятности данных - плохой способ обучать генеративные модели. Оригинальный документ GAN - блестящая идея, как этого избежать.

** Мехта, Панкай и др. «Введение в машинное обучение с высокой степенью систематической ошибки и низкой дисперсией для физиков »

Аннотация: Машинное обучение (ML) - одна из самых захватывающих и динамичных областей современных исследований и приложений. Цель этого обзора - предоставить введение в основные концепции и инструменты машинного обучения в понятной и интуитивно понятной форме для физиков. Обзор начинается с рассмотрения фундаментальных концепций машинного обучения и современной статистики, таких как компромисс смещения и дисперсии, переоснащение, регуляризация и обобщение, прежде чем перейти к более сложным темам как контролируемого, так и неконтролируемого обучения. Темы, затронутые в обзоре, включают модели ансамбля, глубокое обучение и нейронные сети, кластеризацию и визуализацию данных, модели на основе энергии (включая модели MaxEnt и ограниченные машины Больцмана) и вариационные методы. Повсюду мы подчеркиваем многочисленные естественные связи между машинным обучением и статистической физикой. Примечательным аспектом обзора является использование записных книжек Python для ознакомления читателей с современными пакетами машинного обучения / статистикой, использующими наборы данных, вдохновленные физикой (модель Изинга и моделирование суперсимметричных распадов протон-протонных столкновений методом Монте-Карло). В заключение мы рассмотрим возможности использования машинного обучения для углубления понимания физического мира, а также открытые проблемы машинного обучения, в которых физики, возможно, смогут внести свой вклад. (Ноутбуки доступны по этому https URL).

Комментарий: всесторонний обзор всех областей машинного обучения с примерами кода. Раскрытия: 1) я один из соавторов, 2) он очень длинный.

Статистика

Гейер, Чарльз Дж.« Максимальная вероятность Монте-Карло цепи Маркова . (1991). »

Аннотация: Цепь Маркова Монте-Карло (например, алгоритм Метрополиса и семплер Гиббса) - это общий инструмент для моделирования сложных случайных процессов, полезный во многих типах статистических выводов. Рассмотрены основы цепи Маркова Монте-Карло, включая выбор алгоритмов и оценку дисперсии, а также представлены некоторые новые методы. Объясняется использование цепи Маркова Монте-Карло для оценки максимального правдоподобия, и ее производительность сравнивается с оценкой максимального псевдо-правдоподобия.

* Биау, Дэвид Жан, Бриджит М. Джоллес и Рафаэль Поршер. «Значение P и теория проверки гипотез: объяснение для новых исследователей. Клиническая ортопедия и родственные исследования® 468.3 (2010): 885–892 ».

Аннотация: В 1920-х годах Рональд Фишер разработал теорию, лежащую в основе значения p, а Ежи Нейман и Эгон Пирсон разработали теорию проверки гипотез. Эти различные теории предоставили исследователям важные количественные инструменты для подтверждения или опровержения своих гипотез. Значение p - это вероятность получить эффект, равный или более экстремальный, чем наблюдаемый, при условии, что нулевая гипотеза об отсутствии эффекта верна; это дает исследователям меру силы доказательств против нулевой гипотезы. Обычно исследователи выбирают пороговое значение p, ниже которого они отклоняют нулевую гипотезу. Теория проверки гипотез позволяет исследователям отвергать нулевую гипотезу в пользу альтернативной гипотезы о некотором эффекте. Обычно исследователи выбирают уровни ошибки I типа (отклонение нулевой гипотезы, если она верна) и ошибки II типа (принятие нулевой гипотезы, если она ложна), и определяют некоторую критическую область. Если статистика теста попадает в эту критическую область, нулевая гипотеза отклоняется в пользу альтернативной гипотезы. Несмотря на сходство между ними, значение p и теория проверки гипотез - это разные теории, которые часто неправильно понимают и путают, что приводит исследователей к неправильным выводам. Возможно, наиболее распространенное заблуждение состоит в том, что значение p рассматривается как вероятность того, что нулевая гипотеза верна, а не как вероятность получения наблюдаемой разницы, или как более экстремальную, учитывая, что нулевая гипотеза верна. Еще одна проблема - это риск того, что значительная часть статистически значимых результатов окажется ложно значимой. Исследователи должны иметь минимальное понимание этих двух теорий, чтобы они могли лучше планировать, проводить, интерпретировать и сообщать о научных экспериментах.

Комментарий: Классическая проверка гипотез остается доминирующей структурой для анализа во многих областях науки. Важно понимать, как это должно работать.

Гельман, Эндрю, Дженнифер Хилл и Масанао Ядзима. «Почему нам (обычно) не нужно беспокоиться о множественных сравнениях. Журнал исследований эффективности образования 5.2 (2012): 189–211 ».

Аннотация: Прикладные исследователи часто делают статистические выводы в условиях, которые, казалось бы, требуют корректировки множественных сравнений. Мы бросаем вызов парадигме ошибок первого типа, лежащей в основе этих исправлений. Более того, мы утверждаем, что проблема множественных сравнений может полностью исчезнуть, если рассматривать ее с иерархической байесовской точки зрения. Предлагаем строить многоуровневые модели в настройках, где возникают множественные сравнения. Многоуровневые модели выполняют частичное объединение (смещение оценок друг к другу), тогда как классические процедуры обычно поддерживают стационарные центры интервалов, корректируя множественные сравнения, делая интервалы шире (или, что то же самое, корректируя значения p, соответствующие к интервалам фиксированной ширины). Таким образом, многоуровневые модели решают проблему множественных сравнений, а также дают более эффективные оценки, особенно в условиях с низкой вариабельностью на уровне группы, где множественные сравнения вызывают особую озабоченность.

* Гельман, Эндрю и Джон Карлин. «Помимо расчетов мощности: оценка ошибок типа S (знак) и типа M (величина). Перспективы психологической науки 9.6 (2014): 641–651 ».

Аннотация: Статистический анализ мощности обеспечивает традиционный подход к оценке частоты ошибок при разработке исследования. Тем не менее, анализ мощности имеет недостаток в том, что узкий акцент на статистической значимости делается в качестве основного элемента дизайна исследования. В шумных условиях с небольшой выборкой статистически значимые результаты часто могут вводить в заблуждение. Чтобы помочь исследователям решить эту проблему в контексте их собственных исследований, мы рекомендуем проектные расчеты, в которых (а) вероятность неверного направления оценки (Тип S [знак ] error) и (b) коэффициент, на который величина эффекта может быть переоценена (Тип M [magnitude] ошибка или коэффициент преувеличения). Мы проиллюстрируем это примерами из недавно опубликованных исследований и обсудим самую большую проблему при расчетах дизайна: получение разумных оценок вероятных размеров эффекта на основе внешней информации.

Комментарий: Классическая проверка гипотез остается доминирующей структурой для анализа во многих областях науки. Важно понимать, почему это не работает.

Статистическая физика

Брюнгельсон, Джозеф Д. и Питер Г. Волайнс. «Спиновые очки и статистическая механика сворачивания белков. Proceedings of the National Academy of Sciences 84.21 (1987): 7524–7528 ».

Аннотация: На основе теории спиновых стекол исследована простая модель сворачивания белков. Рассчитана фазовая диаграмма модели, кратко представлены результаты расчетов динамики. Обсуждается связь этих результатов с экспериментами по сворачиванию, связь этих гипотез с предыдущими теориями сворачивания белков и значение этих гипотез для схем предсказания сворачивания белков.

* Руди, Яссер, Эрик Аурелл и Джон А. Герц. «Статистическая физика попарных вероятностных моделей. Границы вычислительной нейробиологии 3 (2009): 22. »

Аннотация: Статистические модели для описания распределения вероятностей по состояниям биологических систем обычно используются для размерной редукции. Среди этих моделей попарные модели очень привлекательны отчасти потому, что они могут быть подогнаны с использованием разумного количества данных: достаточно знания средних значений и корреляций между парами элементов в системе. Неудивительно, что в последние годы использование парных моделей для изучения нейронных данных было в центре внимания многих исследований. В этой статье мы описываем, как инструменты статистической физики могут быть использованы для изучения и использования парных моделей. Мы опираемся на нашу предыдущую работу по этому вопросу и изучаем взаимосвязь между различными методами подбора этих моделей и оценки их качества. В частности, используя данные смоделированных корковых сетей, мы изучаем, как качество различных приближенных методов вывода параметров в парной модели зависит от временного интервала, выбранного для объединения данных. Мы также изучаем влияние размера временного интервала на качество самой модели, снова используя смоделированные данные. Мы показываем, что использование более мелких интервалов времени повышает качество попарной модели. Мы предлагаем новые способы вывода выражений, представленных в нашей предыдущей работе, для оценки качества парных моделей.

Комментарий: это отличный обзор некоторых моделей на стыке физики и машинного обучения.

Биология

Ошлак, Алисия, Марк Д. Робинсон и Мэтью Д. Янг. «От считывания последовательности РНК до результатов дифференциальной экспрессии. Биология генома 11.12 (2010): 220 ».

Аннотация: Доступно множество методов и инструментов для предварительной обработки данных высокопроизводительного секвенирования РНК и обнаружения дифференциальной экспрессии.

Лик, Джеффри Т. и др. «Устранение широко распространенного и критического воздействия пакетных эффектов на данные с высокой пропускной способностью. Nature Reviews Genetics 11.10 (2010): 733. »

Резюме: Широко используются высокопроизводительные технологии, например, для анализа генетических вариантов, экспрессии генов и белков и эпигенетических модификаций. Часто упускают из виду сложность таких исследований - это эффекты партии, которые возникают из-за того, что на измерения влияют лабораторные условия, партии реагентов и различия в персонале. Это становится серьезной проблемой, когда эффекты партии коррелируют с интересующим результатом и приводят к неверным выводам. Используя опубликованные исследования и наши собственные анализы, мы утверждаем, что групповые эффекты (а также другие технические и биологические артефакты) широко распространены и критически важны для устранения. Мы рассматриваем экспериментальные и вычислительные подходы для этого.

Ткачик, Гашпер и Александра М. Вальчак. «Передача информации в генетических регуляторных сетях: обзор. Journal of Physics: Condensed Matter 23.15 (2011): 153102. »

Резюме: Генетические регуляторные сети позволяют клеткам реагировать на изменения внутренних и внешних условий, динамически координируя свои профили экспрессии генов. Наша способность проводить количественные измерения в этих биохимических цепях углубила наше понимание того, какие виды вычислений могут выполнять генетические регуляторные сети и с какой надежностью. Эти достижения побудили исследователей искать связи между архитектурой и функцией генетических регуляторных сетей. Передача информации между входами и выходами сети была предложена как одна из таких возможных мер функции, актуальных в определенных биологических контекстах. Здесь мы суммируем последние достижения в области применения теории информации к сетям регуляции генов. Сначала мы рассмотрим основные концепции теории информации, необходимые для понимания недавних работ. Затем мы обсуждаем функциональную сложность регуляции генов, которая возникает из молекулярной природы регуляторных взаимодействий. В заключение мы рассмотрим некоторые эксперименты, которые подтверждают мнение о том, что генетические сети, ответственные за раннее развитие многоклеточных организмов, могут максимизировать передаваемую «позиционную информацию».

* Лэнг, Алекс Х. и др. «Эпигенетические ландшафты объясняют частично перепрограммированные клетки и идентифицируют ключевые гены репрограммирования. PLoS computational biology 10.8 (2014): e1003734 ».

Резюме: Распространенной метафорой для описания развития является суровый «эпигенетический ландшафт», где судьбы клеток представлены как притягивающие долины, являющиеся результатом сложной регуляторной сети. Здесь мы представляем структуру для явного построения эпигенетических ландшафтов, которая объединяет геномные данные с методами физики спинового стекла. Судьба каждой клетки является динамическим аттрактором, но клетки могут менять судьбу в ответ на внешние сигналы. Наша модель предполагает, что частично перепрограммированные клетки являются естественным следствием многомерных ландшафтов, и предсказывает, что частично перепрограммированные клетки должны быть гибридами, ко-экспрессирующими гены из множества клеточных судеб. Мы проверяем этот прогноз, повторно анализируя существующие наборы данных. Наша модель воспроизводит известные протоколы перепрограммирования и определяет факторы транскрипции кандидатов для перепрограммирования на новые клеточные судьбы, предполагая, что эпигенетические ландшафты являются мощной парадигмой для понимания клеточной идентичности.

Комментарий: показывает, как концепции статистической физики и машинного обучения могут быть использованы для понимания генетической регуляции.

* Ловелл, Дэвид и др. «Пропорциональность: действенная альтернатива корреляции для относительных данных. Вычислительная биология PLoS 11.3 (2015): e1004075 ».

Аннотация: В науках о жизни многие методы измерения дают только относительное содержание различных компонентов в образце. С такими относительными - или композиционными - данными дифференциальное выражение требует тщательной интерпретации, а корреляция - статистическая рабочая лошадка для анализа парных отношений - является неподходящей мерой ассоциации. Используя данные об экспрессии дрожжевых генов, мы показываем, как корреляция может вводить в заблуждение, и представляем пропорциональность как действительную альтернативу относительным данным. Мы показываем, как сила пропорциональности между двумя переменными может быть значимо и интерпретируемо описана новой статистикой ϕ, которую можно использовать вместо корреляции в качестве основы для знакомого анализа и визуализации. методы, включая сети коэкспрессии и кластерные тепловые карты. Хотя основная цель этого исследования - представить пропорциональность как средство анализа относительных данных, оно также поднимает интригующие вопросы о молекулярных механизмах, лежащих в основе пропорциональной регуляции ряда генов дрожжей.

Комментарий: многие экспериментальные данные в биологии на самом деле являются относительными долями (например, относительная численность видов из исследований микробиоты, относительная численность транскриптов из секвенирования РНК). Последствия не получили широкого признания.