Что такое наука о данных?

Наука о данных — это изучение «данных». В основном это включает в себя различные методы, которые могут быть разработаны для записи, хранения и анализа данных в разных областях, чтобы эффективно извлекать значимую информацию. Цель науки о данных — создать восприятие и знания из данных, которые могут быть как структурированными, так и неструктурированными.

Наука о данных связана с информатикой, но вообще является отдельной областью. Информатика включает в себя создание программ и алгоритмов для записи и обработки данных, а наука о данных охватывает любой тип анализа данных с использованием научных методов, процессов, алгоритмов и систем. В нем используются методы и теории, взятые из многих областей в контексте математики, статистики, информатики и информатики. Он более тесно связан с «математической областью статистики», которая включает сбор, организацию, анализ и представление данных. Речь идет о концепции «объединения статистики, анализа данных, машинного обучения и связанных с ними методов».

Из-за больших объемов данных, которые обслуживают современные компании и организации, наука о данных стала неотъемлемой частью ИТ. Науку о данных не следует путать с аналитикой данных. Обе области представляют собой способы понимания больших данных, и обе часто включают анализ огромных баз данных с использованием R и Python.

У различных компаний есть петабайты пользовательских данных, которые могут использовать науку о данных для разработки эффективных способов хранения, управления и анализа данных. Различные научные методы могут использоваться для запуска тестов и извлечения результатов, которые могут дать значимую информацию о своих пользователях.

Ниже приведен практический пример Data Science.

"GOOGLE: МАШИННОЕ ОБУЧЕНИЕ ДЛЯ МЕТАСТАЗИРОВАНИЯ
Местоположение: Маунтин-Вью, Калифорния

Как он использует науку о данных: Google не отказывается от применения науки о данных в здравоохранении. Фактически, компания разработала новый инструмент LYNA для выявления опухолей молочной железы, которые метастазируют в близлежащие лимфатические узлы. Это может быть трудно увидеть человеческому глазу, особенно когда новообразование рака небольшое. В одном испытании LYNA — сокращение от Lymph Node Assistant — точно идентифицировала метастатический рак в 99% случаев, используя свой алгоритм машинного обучения. Однако требуется дополнительное тестирование, прежде чем врачи смогут использовать его в больницах».

"Как наука о данных может помочь в Covid-19?"

Основной причиной широкого распространения коронавируса является отсутствие информации о ранних стадиях симптомов. Это привело к ситуации, когда люди не знают, затронуты они или нет. Они путешествуют из одного места в другое, не подозревая, что несут с собой вирус.

Теперь правительства начали собирать информацию о гражданах, такую ​​как история их поездок и медицинские записи. Это привело к сбору «огромных данных о гражданах». Страны уже начали обрабатывать эти данные с помощью «инструментов больших данных».

Обработка данных миллиардов граждан предполагает удаление «избыточности, масштабирование данных и структурирование» для дальнейшего использования. Это возможно только с помощью различных основных инструментов «больших данных». Многие из этих источников основаны на данных, предоставленных доверенными органами, такими как Центры США по контролю и профилактике заболеваний (CDC) и Всемирная организация здравоохранения (ВОЗ). Они также содержат прямые ссылки на эти места, чтобы у людей был быстрый и легкий доступ к достоверной информации.

o После сбора и обработки таких огромных данных государственные органы анализируют и визуализируют их. Сбор можно выполнить, выполнив следующие основные шаги:

  • Помогите окружающим вас людям интерпретировать данные/информацию
  • Помогите окружающим вас людям интерпретировать данные/информацию
  • Переводите информацию на другие языки
  • Подготовьте данные, связанные с ответом
  • Анализировать данные, которые не имеют прямого отношения к ответу
  • Исследования с использованием существующих наборов данных о реагировании на стихийные бедствия

o Анализируя данные и визуализируя тенденции в них, Data Science помогает правительствам оценивать масштабы дальнейшего распространения болезни, доступную медицинскую инфраструктуру для приема пострадавших пациентов и бюджет, необходимый для всего этого.

o С помощью этих оценок Data Science помогает правительствам организовать медицинские учреждения и капитал для своих граждан.

«Центры по контролю за заболеваниями США (CDC)» работают с исследователями из «отдела машинного обучения Университета Карнеги-Меллона», чтобы прогнозировать распространение коронавируса.

o Команда создала модель машинного обучения, которая обрабатывает данные, собранные из нескольких источников, таких как связанные с гриппом поисковые запросы в Google, действия в Твиттере и веб-трафик, для прогнозирования распространения вируса.

Значительные усилия были предприняты научным сообществом в целом, чтобы предложить уникальную возможность сообществу специалистов по данным.

o Одним из таких примеров является попытка создать «Открытый исследовательский набор данных COVID-19 (CORD-19)», обширную машиночитаемую коллекцию доступной литературы по коронавирусу. CORD-19 – это ресурс, содержащий более 52 000 научных статей, в том числе более 41 000 с полным текстом, о COVID-19, SARS-CoV-2 и родственных коронавирусах.

  • Существуют тысячи файлов JSON, каждый из которых содержит текстовые данные исследовательской работы, включая ссылки на них.
  • Из-за того, что текст неструктурирован, возникают проблемы с качеством данных, включая (но не ограничиваясь) правильное определение страны основного автора. Это обязательно нужно убирать.
  • После очистки данных мы можем применить к ним различные алгоритмы НЛП, чтобы получить некоторое представление и интуицию в отношении этих данных.

o Научное сообщество может ответить на высокоприоритетные научные вопросы, связанные с COVID-19, с помощью таких наборов данных, интеллектуального анализа данных и других методов извлечения.

Наука о данных может дать точную картину последствий коронавируса [осведомленность о ситуации]

Медицинские работники и другие лица должны получать достоверную и актуальную информацию о том, как изо дня в день меняется ситуация с коронавирусом. Несколько организаций, в том числе Университет Джона Хопкинса, IBM и Tableau, выпустили интерактивные базы данных, которые предлагают в режиме реального времени представление о том, что происходит с вирусом.

С помощью этих баз данных можно получить информацию о количестве подтвержденных случаев, летальных исходов и выздоровлений.

Наука о данных может помочь отследить [«распространение»]

Специалисты по обработке данных также пришли к выводу, что графические базы данных помогают им понять, как распространяется COVID-19.Например, BlueDot смогла предсказать раннее распространение болезни из Уханя в другие азиатские города на основе данных об авиабилетах.

  • База данных графа показывает связи между людьми, местами или вещами.
  • Ученые называют каждый из этих объектов узлом, а связи между ними — «ребрами». Результаты дают визуальное представление о взаимосвязи между вещами, если таковые имеются.

В первые дни вспышки коронавируса китайские специалисты по данным создали инструмент графической базы данных под названием Epidemic Spread.

  • Это позволяло людям вводить идентифицирующую информацию, связанную с их поездками, например номер рейса или даже номерной знак автомобиля.
  • Данные мобильных телефонов могут играть ключевую роль в отслеживании передвижения людей, помогая определить, где может распространяться болезнь.
  • Затем база данных сообщит этим пользователям, совершал ли кто-нибудь с подтвержденным случаем коронавируса те же поездки и мог ли заразить других пассажиров.
  • Аналитика больших данных может сопоставлять данные о заболеваниях с пожилыми жителями с высоким уровнем риска вплоть до уровня почтового индекса и частоты таких факторов, как диабет или ожирение.

Ученые, работающие с данными, с которыми могут справиться [«Отслеживание контактов»]

Отслеживание контактов — эффективный способ замедлить распространение COVID-19. Это включает в себя установление контакта с близкими контактами человека после того, как у него положительный результат на вирус, и указание им самоизолироваться. Отслеживание контактов занимает много времени, хотя становится все проще, поскольку все больше людей серьезно относятся к социальному дистанцированию.

Они «создали решение на основе мобильного телефона», чтобы людям не приходилось звонить контактам вручную. Вместо этого эти стороны получают текстовые сообщения, подтверждающие необходимость самоизоляции. Исследователи поясняют, что их подход будет наиболее эффективным, если он получит поддержку со стороны национальных лидеров, а не будет инициативой, в основном возглавляемой независимыми разработчиками приложений.

Ни одна страна еще не использует этот метод. Однако, учитывая проникновение на рынок мобильных телефонов и то, как люди привыкли получать текстовые сообщения, легко понять, почему такой подход имеет смысл.

Наука о данных [«Управление пандемией»]

  • Наука о данных может сыграть центральную роль в анализе крупномасштабного тестирования людей.
  • ИИ также используется для ускорения разработки лекарств для лечения COVID-19.
  • Система Google Deep Mind AI используется для определения характеристик вируса, которые могут помочь понять, как он функционирует.
  • Британская компания BenevolentAI использует искусственный интеллект для выявления перспективных существующих методов лечения других заболеваний, которые могут быть эффективными при лечении COVID-19.
  • Чем больше данных, тем точнее могут быть эти прогнозы и тем лучше можно управлять пандемией.

Исследователи данных должны найти [«Возможные лекарства»]

Помимо гонки по ограничению распространения COVID-19, ученые работают как можно быстрее, чтобы найти эффективные методы лечения.

Два выпускника программы по науке о данных в Колумбийском университете обратились за помощью к машинному обучению.

  • Типичный процесс обнаружения антител в лаборатории занимает годы.
  • Этот подход, однако, занимает всего неделю для скрининга терапевтических антител с высокой вероятностью успеха.

Команда, использующая этот подход, говорит, что этот метод также менее затратен, чем традиционные. Люди по-прежнему являются частью процесса, потому что они должны тестировать последовательности генов, определенные алгоритмом машинного обучения как наиболее перспективные. Однако использование этого ускоренного метода может иметь решающее значение для эффективного поиска вмешательств, которые работают для пациентов с коронавирусом.

Специалисты по данным ["Предсказывают будущие вспышки"]

Данные, собранные во время этой пандемии, будут иметь неоценимое значение для понимания того, как лучше всего бороться с будущими вспышками.

Глобальный эпиднадзор за болезнями станет важной частью борьбы с будущими пандемиями.

Чем больше данных мы собираем, тем лучше наука о данных и искусственный интеллект смогут нам помочь.

использованная литература

www.builtin.com; https://www.kdnuggets.com/; https://databricks.com/; https://www.orange-business.com/;

Автор: Сумит Гупта (Директор, iValueplus Services Private Limited)

Сайт: www.ivalueplus.com; Страница LinkedIn;