Неуправляемое детище машинного обучения и нейробиологии

Если есть одна вещь, в которой мы, люди, хороши, так это нахождение закономерностей. Математика наводнена ими - последовательности Фибоначчи, числа треугольников, золотая спираль. Вы делаете это прямо сейчас, эти черные метки на экране создают узоры, которые вы узнаете как буквы, слова, предложения.

Если есть одна вещь, в которой мы, люди, плохо разбираемся, так это нахождение закономерностей там, где их нет. Шары в газовых световых годах, далекие от нас, не очерчивают очертания охотника, плуга или краба исключительно для двуногих приматов на синей точке возле средней оранжевой звезды. И количество людей, тонущих в бассейне в каждом конкретном году, не связано с тем, сколько фильмов Ник Кейдж снялся в этом году, независимо от того, что вам говорит статистика:

Нейробиология вступает в эпоху, когда наша удивительная способность находить закономерности будет проверена до предела. Эпоха неврологии без учителя, когда мы будем использовать все более мощные инструменты в наших данных, чтобы найти закономерности внутри. Впереди захватывающие времена. Но то, что мы любим находить закономерности во всем, означает, что мы должны удвоить нашу бдительность, чтобы не обмануть себя.

Но если в нем такая явная и реальная опасность, почему мы идем без присмотра?

Мозги абсурдно сложны. Все мозги. Мозг 302 нейронов крошечного червя-нематоды C Elegans. Самый маленький мозг позвоночных, который мы изучаем, примерно 100000 нейронов у детенышей рыбок данио. Мозг мыши. Крысы. Наши.

Из этого абсурдно сложного мозга мы теперь можем записывать абсурдно сложные данные. Сотни, тысячи или больше нейронов одновременно; и число, которое мы можем записать, продолжает расти в геометрической прогрессии. Мы можем проследить проводку между областями всего мозга; проводка от множества одиночных нейронов в одной области ко всему, куда они посылают свои аксоны; вся электрическая схема в куске мозга размером не больше пылинки. Мы можем взять образцы генов, экспрессируемых в головном мозге; или до отдельных областей или даже слоев. И мы можем отслеживать поведение, которое этот мозг производит, с еще более точным разрешением, в более сложных и естественных задачах.

Было бы действительно безрассудно предполагать, что мы знаем, что ищем в этих данных. Потому что шансы, что мы правильно догадались, как часть мозга кодирует или вычисляет, практически равны нулю. Шансы на то, что мы знаем мотивы проводки, создаваемые каждым нейроном в определенной области мозга, практически равны нулю. Шансы на то, что у нас есть правильное понимание того, как организовано поведение, что его запускает и в какой последовательности, практически равны нулю.

Возможно, в одном мы можем согласиться: мы не знаем того, что нам нужно знать. Так как же нам найти то, что мы ищем, если мы не знаем, как это выглядит?

Мы работаем без учителя: мы берем инструменты из машинного обучения и других источников, которые предназначены для поиска закономерностей в данных и могут делать это без какой-либо обратной связи. В конце концов, мы не знаем, как должны выглядеть эти шаблоны. Итак, мы обращаемся к вычислительному набору инструментов и вытаскиваем кластеризацию, уменьшение размерности, обнаружение сообщества и другие способы нахождения структуры в данных. Инструменты, которые могут сказать нам, когда во время поведения животного происходит самое интересное, какие нейроны срабатывают вместе, какие гены экспрессируются вместе. И эти закономерности потенциально являются «этим» - тем, что нам нужно знать, основой наших идей, гипотез и теорий.

Начинается неконтролируемое нейробиологическое движение. Постоянно увеличивающийся список лабораторий соглашается с этой идеей и пытается без присмотра найти неуловимое «это».

Многие исследования сейчас используют неконтролируемые подходы для группировки нейронов по их активности, чтобы определить, какие нейроны активны вместе, и поэтому кажется, что они вычисляют или кодируют одно и то же. Один из способов сгруппировать их - сгруппировать вместе моменты времени, когда популяция нейронов воспроизводит аналогичный образец активности, пытаясь найти, когда популяция возвращается к аналогичным состояниям.

В одном из рассказов об этом подходе Алон Рубин, Янив Зив и их коллеги пришли к идее смотреть на настройку каждого нейрона для этих состояний, измеряя, насколько активен нейрон в каждом состоянии активности популяции. Вы можете думать об этом как о чисто внутренней настраиваемой кривой: настраиваемой кривой для состояний популяции, о которых заботится этот нейрон. Когда Рубин, Зив и его друзья разработали эти кривые внутренней настройки для нейронов в гиппокампе мышей, они обнаружили кое-что замечательное: кривые внутренней настройки были такими же, как настройки нейрона для местоположения во внешнем мире, для поля места этого нейрона. ». Просто объединив похожие состояния популяционной активности, они смогли восстановить один из ключевых кодов гиппокампа.

В других исследованиях используются неконтролируемые алгоритмы для группировки нейронов по сходству их реакции на события в мире. При этом они ищут то, что кодируют эти нейроны. Хирокава и его коллеги из лаборатории Адама Кепекса использовали именно этот подход, чтобы посмотреть, как переменные в задаче принятия решений закодированы в орбитофронтальной коре головного мозга крыс. Они охарактеризовали каждый нейрон по его активности в ответ на 42 различных свойства поставленной ими задачи, включая различные смеси двух запахов, которые мыши унюхали, чтобы принять решение, три различных условия, в которых доставлялись запахи, и небольшая или большая награда. был дан за выбор правильного ответа после вдыхания запахов. Сгруппировав 485 нейронов по сходству их активности по этим 42 различным свойствам, они обнаружили девять дискретных групп нейронов - девять групп, которые в принципе кодируют разные вещи.

И они это сделали. Активность одной группы коррелировала с уверенностью в решении; другая группа с результатами предыдущего судебного разбирательства; другой с размером награды. Ключевой вывод Хирокавы и его коллег был прост: с помощью неконтролируемой кластеризации они могли продемонстрировать доказательства действительно дискретной обработки решения в орбитофронтальной коре, разделения труда, при котором каждый элемент, необходимый для принятия решения, по-видимому, назначается определенной группе нейронов. .

Безнадзорный менталитет глубоко посягает и на то, как мы анализируем поведение. Лаборатория Сандипа Роберта Датта придумала умные способы без присмотра, чтобы разделить спонтанное поведение мышей на его элементарные компоненты, обнаружив библиотеку поведенческих мотивов, которые мыши, кажется, используют, когда ведут себя свободно. Затем они и другие начали искать нейронные корреляты этих элементарных компонентов, обнаруживая корреляции между этими компонентами и активностью в полосатом теле. И дело не только в том, чем мыши занимаются в свободное время. Недавно лаборатория Валерио Манте использовала изящную комбинацию неконтролируемых подходов - ближайших соседей и t-SNE - для измерения и отслеживания развития песни у зебровых зябликов, обнаружив, что то, что кажется сложной путаницей из песенных слогов, на самом деле глубоко структурировано. состоит из представлений и регрессий по мере того, как птицы тренируются и прицеливаются. (Между прочим, статья, опубликованная в Nature, полностью посвящена поведению и не более того). И пока я печатаю, Nature Neuroscience только что опубликовала обзор, полностью посвященный неконтролируемому анализу поведения.

Это верхушка отека. То, что представляло собой небольшой кружок людей, придумывающих неконтролируемые алгоритмы для группировки нейронов со схожей активностью с течением времени - для обнаружения нейронных ансамблей или клеточных ансамблей, - превратилось в целую индустрию. Теперь кажется, что каждый раз, когда я открываю копию Nature или другого подобного журнала, который пользуется абсурдно высоким уважением, статьи по системной нейробиологии в них удваиваются на неконтролируемом анализе своих данных.

Предупреждение: требуется осторожность. Мы эксперты в поиске закономерностей в шуме, и наши алгоритмы тоже.

Возьмем кластеризацию. Проблема с кластеризацией в том, что она возвращает кластеры. Я имею в виду, я знаю, что это то, что он должен делать, но на самом деле проблема в этом. Дайте алгоритму кластеризации номера телефонов всех жителей Лландидно, попросите его найти четыре кластера в данных, и он найдет. Теперь у вас есть четыре группы валлийцев, и никто не знает, что с ними делать, и они тоже. Само по себе наличие кластеров не означает, что в данных есть реальная кластерная структура.

Алгоритмы без учителя предназначены для понимания данных для нас, наблюдателя. То, что они находят, не обязательно должно совпадать с реальностью. Реальность не имеет основания, потому что в ней нет чистых, аккуратных резцов на стыках, за исключением особых случаев. И большинство этих особых случаев относятся к искусственным системам со встроенными суставами. Запустите другой алгоритм кластеризации ваших данных, и вы получите другие кластеры; запустите другой алгоритм уменьшения размеров ваших данных, и вы получите другие размеры. Как ясно утверждали Ульрике фон Люксбург и ее друзья, кластеризация - это искусство.

Неконтролируемая организация данных - это просто описание этих данных. То, что мы можем сгруппировать нейроны в группы, не означает, что в мозгу существуют действительно значимые группы нейронов; Тот факт, что мы можем сгруппировать поведение в отдельные элементы - состояния, мотивы, слоги или любой другой термин, который вы предпочитаете, не означает, что поведение на самом деле дискретно. Чтобы обнаружить, что это что-то значит, мы должны связать эту обнаруженную организацию с реальностью, показать, что она имеет значение. В нейробиологии это обычно означает, что мы должны связать эту организацию данных с чем-то, что происходит в мире, или где-то в другом месте мозга, или с тем и другим вместе.

И эту кислотную проверку проходят лучшие попытки неврологии без учителя. В статье Алона и его друзей они показали, что «настройка» нейронов на внутреннюю динамику гиппокампа имеет значение как местоположение в пространстве (и повторили тот же трюк для нейронов, которые кодируют направление головы в таламусе грызунов). В исследовании орбитофронтальной коры, проведенном в лаборатории Адама Кепекса, отдельные группы нейронов, в свою очередь, кодировали значимую переменную в процессе принятия решений. Более того, они повторно выполнили весь анализ с другой когортой животных с большим количеством нейронов, повторно используя все параметры из первой когорты, и в итоге получили те же результаты. Эти исследования могут показать нам соответствие между неконтролируемой структурой данных и реальным миром.

Потрясающая работа, но это легкие способы заниматься нейробиологией без учителя - соотносить то, что мы обнаружили, с тем, что мы уже знаем. Мы уже знаем, что в гиппокампе есть клетки места и что в таламусе грызунов существует система направления головы. Мы уже знаем, что нейроны орбитофронтальной коры в значительной степени участвуют в принятии решений, и чтобы выяснить, что их группы нейронов кодировали, лаборатория Кепека интерпретировала их активность как переменные в математической модели принятия решений. Если эта модель неверна, сопоставление между переменными и активностью не имеет большого значения для построения нашей уверенности в том, что кластеризованные нейроны действительно существуют. А другие, конечно, могут найти другие ответы: например, когда группа Анны Черчленд искала дискретные группы кодирующих нейронов в задней теменной коре, они ничего не нашли.

Окончательным испытанием для неврологии без учителя являются открытия, которые нельзя было найти другим способом. И тому есть несколько примеров. Например, мы сделали крупномасштабные записи нейронов в двигательной системе почтенного морского слизняка Aplysia. Используя полностью неконтролируемый конвейер для анализа этих данных, мы обнаружили, что его моторная система была вдвойне дискретной: на одном уровне группы нейронов с коррелированной активностью были расположены непрерывно в моторной системе, красиво мозаицируя часть мозга, в которой они находились. На другом уровне массовые популяции нейронов с явно различающейся динамикой находились в разных частях двигательной системы, включая определенную популяцию колеблющихся нейронов в одном месте, которые, скорее всего, были сетью, генерирующей паттерн движения - обнаруженная гипотеза, ожидающая проверки. Джошуа Фогельштейн и его друзья открыли детализированную карту взаимосвязи между нейронной активностью и результирующим поведением личинок дрозофилы, индивидуально стимулируя каждый из 1054 типов нейронов, записывая поведение на видео и группируя его. Таким образом, они выявили 29 различных типов поведения и каждый из нейронов. Но это открытия отношений, структуры; они еще не являются последним шагом к открытию теории о том, как работает немного мозга, без учителя.

Многие будут чувствовать себя неуютно при таком взгляде на мир. Для многих наука означает проверку гипотез. Это не значит: рыться в данных, пока не всплывет что-нибудь интересное.

Но какие гипотезы? Наука - это упражнение по самонастройке, поиску смысла из скудных данных для построения гипотезы для проверки. Как мы вообще находим данные, чтобы предлагать гипотезы? Пока что мы можем продвинуться только с теориями, основанными на существующих знаниях; Неконтролируемая нейробиология обещает способ получить эти данные и собрать их в аккуратно структурированном пакете, ожидая интерпретации.

Системная нейробиология вряд ли первая применила в науке такой подход «смотри на маму, без рук». В течение многих лет генетики обычно использовали неконтролируемые алгоритмы для группировки вещей (людей, животных, клеток) по экспрессируемым ими генам; эти вещи могут быть нейронами так же легко, как и все остальное. Какими бы ни были ваши чувства по поводу неконтролируемого анализа наборов больших данных, искренне ли вы верите, что мы находимся в дивном новом мире открытий знаний, или что мы находимся в самом разгаре непревзойденного упражнения по добыче шума, неконтролируемая нейробиология никуда не денется. Вы были предупреждены.

Хотите еще? Следуйте за нами в The Spike

Twitter: @markdhumphries