Ваша гипотеза остается гипотезой!

Воспроизводимые исследования - очень важный элемент научного метода, который часто упускается из виду. Какой бы незначительной воспроизводимость ни казалась в данный момент времени, на самом деле это один из самых важных факторов, который повлияет на ваши исследования в области любой прикладной науки. Это влияние дополнительно проиллюстрировано только наукой о данных, поскольку часто обобщенные данные могут привести к ошибочным выводам и ложным теориям, которые приносят больше вреда, чем пользы.

Неважно, насколько новаторским может быть ваше открытие; вы можете обнаружить, что ношение полиэстера напрямую коррелирует с развитием неизлечимой болезни, или даже найти лекарство от рака, или

вакцина от covid-19.

Дело в том, что если вы планируете эксперимент, который по своей природе не воспроизводится, вы разрушаете почтенность ваших наблюдений, полученных в результате этого эксперимента. К счастью, с огромными технологиями, которые есть у ученых (и тем более у специалистов по данным), сделать ваши исследования воспроизводимыми и известными стало проще, чем когда-либо прежде.

Ноутбук Этикет

Jupyter-Notebook, скорее всего, одна из величайших частей программного обеспечения, благодаря простоте воспроизводимости вычислений. Для тех, кто еще не использует Jupyter-Notebook, программное обеспечение позволяет получить доступ к серверу, на котором будет запущено виртуальное ядро ​​для выполнения кода уровня ячейки из вашего веб-браузера. Это не только невероятно удобно для больших групп научных сотрудников, которые могут работать над проектами взаимозаменяемо вместе, но также делает доблестный шаг к подражанию мыслям и идеям в контролируемых пакетах кода для просмотра другими учеными.

Не будем забывать, что еще одним невероятно важным этапом научного процесса является экспертная оценка. Люди по своей природе ошибочны с точки зрения предвзятости. Там, где есть данные, к сожалению, есть также возможность исказить эти данные для выполнения потенциальных предубеждений, которые могут быть у ученого, независимо от того, знает ли ученый об этом или нет. Давайте будем честными, мы все выполнили тест, который нас очень взволновал, и нам пришлось сделать «лицо» и ...

Примите нуль.

Я, конечно, могу понять, почему принятие нулевого значения может обескураживать. Хотя, безусловно, верно, что принятие нулевого значения означает, что ваша научная идея не прошла вашу проверку, принятие нулевого значения по-прежнему подталкивает науку вперед, потому что теперь мы знаем, что по крайней мере в одном случае оно было статистически неточным. Таким образом, хотя бывает трудно не исказить исследование, независимо от того, в каком направлении идет ваше исследование, это, безусловно, есть чем гордиться.

Хотя Jupyter-Notebooks - невероятно удобный инструмент, который, безусловно, делает научные вычисления настолько блестящими, насколько это возможно, вы все равно можете копать себе могилу воспроизводимости. из-за неправильного обрисовывания ваших записных книжек. Это может варьироваться от простого эффективного комментирования вашего кода до написания полных абзацев в разметке, объясняющих ваши мысли и научный процесс. Это, очевидно, очень важно, но может быть не важно по той причине, по которой вы так думаете.

Независимо от опыта, затраченного времени или практики, все люди склонны к ошибкам. Благодаря экспертным обзорам и мощности Интернета любые ошибки, математические ошибки или простые вещи, которые вы могли упустить из виду, могут быть быстро оценены вашими коллегами и потенциально могут полностью изменить объем вашего исследования. Вдобавок ко всему, ваше исследование, в свою очередь, может вдохновить ваших коллег-ученых принять участие в аналогичных исследованиях, способствуя развитию вашей гипотезы и других подобных ей.

Хотя я, конечно, не люблю говорить о том, что вы обязательно должны делать в определенных ситуациях, я думаю, что очень важно объяснить ход ваших мыслей при работе с чем-то вроде записной книжки. Мне лично также нравится разделять свои наблюдения большими заголовками, абзацами, выводами и умозаключениями. Если вы хотите сделать все возможное, вы можете даже потенциально создать что-то вроде оглавления для своей записной книжки. Это особенно полезно, если у вас очень длинная записная книжка с несколькими разделами.

Данные

Конечно, абсолютным катализатором воспроизводимости исследований являются данные.

  • Откуда ваши данные?
  • Это из надежного источника?
  • Имеются ли ваши данные с открытым исходным кодом?
  • Где ваши коллеги могут получить доступ к вашим данным?
  • Как были получены ваши данные и воспроизводится ли этот метод?

Все эти вопросы очень легко влияют на то, будут ли ваши аналитические наблюдения приняты во внимание сообществом ваших коллег. Источники данных важны, и в идеале в большинстве ситуаций эти источники будут первичными; значение, непосредственно связанное с наблюдением.

Хотя может оказаться невозможным для всех иметь политику открытых данных и делиться своими выводами, по крайней мере, эти выводы должны быть воспроизводимыми и точными. Может быть довольно сложно найти точные источники данных, которые собираются не вами, поэтому я всегда рекомендую собирать данные общедоступных ресурсов либо от правительства, которое несет юридическую ответственность за предоставление большей части своих данных в общественное достояние, либо вы всегда можете получить данные из надежного источника, например из университета.

Правильный инструмент для работы

Одним из серьезных препятствий в вашей работе может быть использование неправильного инструмента для неправильной работы. Это может привести к потенциальным неточностям в вашем исследовании и является причиной того, что исследования обычно рецензируются. Эти ошибки не всегда сложно сделать, и, имея это в виду, я бы сказал, что лучше избегать использования неправильного инструмента для работы. Например, я бы не хотел проводить что-то вроде теста двоичных знаков с Т-распределением. Это сделало бы тест бесполезным и дало бы очень вводящие в заблуждение результаты. Вместо этого для двоичного числа я бы использовал дистрибутив, который лучше подходит для такой вещи, например, биномиальное распределение.

Вывод

Хотя многие ученые могут пожать плечами в пользу концепции воспроизводимого исследования, это очень необходимая концепция, которой следует придерживаться. Если воспроизвести результаты исследования не так-то просто, то оно часто оказывается неудачным. С современными вычислениями и мощью Интернета возможности исследований, которые можно легко повторить, стали еще более очевидными. Кроме того, исследования стали более популярными, чем когда-либо, а это означает, что ваши исследования часто требуют большего доверия из-за их охвата. К счастью, есть много ситуаций, когда нужно немного поработать с записной книжкой и организовать данные, что может сделать ваши выводы гораздо более убедительными и обширными, чем они были бы в противном случае.