Сегодня мир исследований и науки о данных претерпевает одну из самых существенных трансформаций. Большие наборы данных, созданные как побочный продукт действий и выбора людей в Интернете, используются почти во всех областях исследований. Поскольку мы оставляем свой цифровой след при каждом взаимодействии, часто непреднамеренно, мы позволяем мощным системам искусственного интеллекта (ИИ) анализировать и генерировать идеи из этих больших и сложных потоков данных, которые поступают во многих формах. Эти сложные модели недавно добились больших успехов в прогнозировании и классификации. Хотя они, безусловно, затмевают своей способностью рисовать сложные нелинейные узоры, которые человеческий мозг не может понять, они часто дают результаты, которые упускают важные аспекты реальной жизни или иногда просто не имеют смысла.

Где большие данные терпят неудачу

Документ Массачусетского технологического института обнаружил, что приложения ИИ, касающиеся идентификации и обнаружения фейковых новостей, можно значительно улучшить, если снабжать систему более редко появляющимися, но реальными случаями фейковых новостей, публикуемыми надежными авторами и источниками. Другое исследование, проведенное Microsoft и Массачусетским технологическим институтом по системам искусственного интеллекта для анализа лица, показывает, что частота ошибок составляет всего 0,8 % для часто накапливающихся светлокожих мужчин и 34,7 % для темнокожих женщин, сегмент, который менее вероятен, чтобы владеть популярным телефоном. Точно так же беспилотные автомобили очень успешно распознают наиболее часто встречающиеся объекты, такие как светофоры, люди, пешеходные переходы. Однако они часто не могут идентифицировать редко пешеходов, например животных, и, что более опасно, не могут предсказать их возможную реакцию на движущуюся машину, что легко могут сделать люди. Эти и многие подобные истории — лишь введение в бесчисленное множество здравых, ментальных и эмоциональных аспектов, которые современный ИИ не в состоянии уловить.

По мере того, как в области исследований и обработки данных используется все больше этих все более доступных остаточных данных, размеры и формы которых становятся все больше, результаты могут становиться все более искусственными. В то же время они также имеют тенденцию становиться менее интеллектуальными, поскольку поле удовлетворяет исключительно требованиям к количеству больших данных для этих сложных вычислительных систем. Однако это игнорирует здравый смысл и знания, которые приходят только с целенаправленными небольшими наборами данных, которые менее распространены, но гораздо более проницательны. В конце концов, интерпретации, необходимые для придания значения результатам, сгенерированным машиной, в первую очередь приходят через обучение, знание и здравый смысл небольших, но глубоких данных. Отсутствие этой жизненно важной части может повлиять на фактические варианты использования и преимущества систем ИИ. Семь из десяти компаний, инвестирующих в ИИ, сообщают о минимальном воздействии или его отсутствии от своих проектов ИИ. Более того, только 4% приложений ИИ в настоящее время имеют решающее значение для бизнеса.

При широком использовании легкодоступных остаточных данных системы ИИ, как правило, становятся более искусственными и менее интеллектуальными, если мы не интегрируем знания и здравый смысл, которые исходят в основном из целенаправленных и небольших данных.

Важность небольших данных

Очевидно, что наиболее распространенной основной проблемой, от которой страдают многие системы ИИ, является их неспособность легко обрабатывать так называемые пограничные случаи и небольшие фрагменты обучения, полученные из небольших фрагментов данных. В то время как большие данные чрезвычайно эффективны в сложных классификациях и категоризациях, небольшие и целенаправленные данные предназначены для поиска самого важного и наиболее необходимого вопроса ПОЧЕМУ? Поэтому неудивительно, что большинство крупнейших инноваций нашего времени основаны на малых данных. Успешные результаты исследований и науки о данных, которые являются конкурентными преимуществами для пользователей этих результатов, не будут получены из готовых алгоритмов автоматизации, готовых пережевывать большие куски данных. Вместо этого успешные результаты будут получены благодаря крошечным кусочкам знаний, восприятию, эмоциям, ожиданиям, творчеству и интеллекту, которые исходят из небольших целенаправленных данных, включенных в эти алгоритмы.

Многие специалисты по данным в настоящее время изучают возможности расширения систем ИИ с целью включения в ИИ изучения небольших данных в качестве конечного пути к полной стратегии генерации идей. Кроме того, многие говорят о том, что небольшие данные должны играть большую роль для успеха исследований и науки о данных. Несколько технических решений, таких как малое и однократное или даже менее чем однократное обучение (LO) и методы трансферного обучения, разрабатываются и совершенствуются, чтобы помочь системам искусственного интеллекта, ориентированным на количество, использовать качественные знания из небольших наборов данных.

Успешное будущее исследований и науки о данных — это то, где небольшие целеустремленные данные играют большую роль.

По мере того, как технологии совершенствуются и готовы учитывать нюансы реальной жизни и информацию, собранную с помощью небольших данных, роль целевых наборов данных хорошего качества будет значительно возрастать. Конечно, эти типы наборов данных трудно получить, поскольку они представляют собой более чувствительные, иногда менее очевидные, но важные зачатки нашей жизни. Чаще всего они ориентированы на людей и посвящены конкретным вопросам, как правило, собираются преднамеренно, с четкой целью и методами сбора данных, поскольку они часто исследуют мнения, тенденции и группы населения вне сети. Сбор таких подробных сведений от целевых субъектов — непростая задача для исследователей, и при этом она не лишена предвзятости.

Исследования и наука о данных в FINCA

Здесь, в FINCA, мы специализируемся на сборе целенаправленных высококачественных данных. Хотя портфолио FINCA варьируется от ответственных финансовых услуг до социальных предприятий, оно представляет собой ту же социальную миссию — обслуживание уязвимых и маргинализированных групп населения. Часто голоса наших клиентских сегментов плохо представлены в тенденциях и результатах работы с большими данными. Это связано с тем, что они имеют ограниченный цифровой след и проживают в удаленных сообществах по всему миру. Тем не менее, они предлагают чрезвычайно глубокие и важные перспективы как отдельный сегмент населения, и нам нравится сочетать эти перспективы со всем, что мы делаем.

Команда FINCA’s Research and Data Science возвышает эти маргинализированные голоса, адаптируя опросы, собирая и анализируя целенаправленные данные. Для качественного выполнения этой достаточно сложной исследовательской задачи мы используем собственную платформу управления данными ValiData. Платформа помогает улучшить методы целенаправленного сбора данных с помощью автоматизированных правил и методов проверки данных. Он проверяет наборы данных в режиме реального времени на наличие аномалий, выбросов и погрешностей, используя передовые статистические методы и процессы машинного обучения.

Часто голоса маргинализированных слабо представлены в тенденциях и результатах больших данных. Тем не менее, они предлагают очень глубокие и важные перспективы как отдельный сегмент населения, и нам нравится сочетать эти перспективы со всем, что мы делаем.

Знания и неслыханные голоса, которые мы приносим со всего мира с помощью ValiData, являются жизненной силой бизнеса FINCA, которые помогают создавать и улучшать наши услуги и оценивать влияние наших программ. Каждый день мы наблюдаем огромную ценность, которую целевые данные могут принести в область исследований и науки о данных, а также способствовать принятию правильных бизнес-решений, особенно если они собираются с соблюдением высоких стандартов качества.

Эта статья была первоначально опубликована в