Чтобы стать надежным инженером по машинному обучению, мы хотим иметь прочную основу в области данных: грамотность, программирование, математика, статистика и визуализация.

Нам необходимо иметь возможность:

  • сформулировать, что может пойти правильно, а что нет при работе с данными.
  • писать базовые программы для создания собственного анализа с помощью Python
  • используйте библиотеку Pandas для Python для управления данными и манипулирования ими.
  • очистить данные, чтобы подготовить их к анализу
  • контекстуализировать алгоритмы машинного обучения с их математической основой
  • использовать статистику для построения лучших моделей
  • создавайте визуализации данных, которые сообщат ваши результаты

Грамотность данных с самого начала помогла миру решить некоторые из самых сложных проблем. Врачи нашли способы лечения болезней с помощью информационной грамотности. Ученые, работающие с данными, обнаружили расовую дискриминацию при приеме на работу из-за хорошего понимания данных. Данные помогают нам создавать удобочитаемую работу для других людей.

Пробелы в данных

Пробелы в данных. Способность разделять данные хорошего, посредственного и низкого качества является важнейшим навыком информационной грамотности.

Мусор на входе, мусор на выходе – это фраза из мира данных, которая означает “наши выводы на основе данных настолько сильны, надежны и хорошо подкреплены, насколько и данные, лежащие в их основе”.

Для понимания и передачи данных во многом необходимо задавать правильные вопросы, чтобы в итоге мы получали полезные и актуальные данные.

Рассмотрим эти два вопроса в качестве примера хорошей грамотности в области данных:

  • Достаточно ли у нас данных, чтобы ответить на поставленный вопрос?
  • Могут ли мои данные ответить на мой точный вопрос?

Когда мы создаем эти превосходные математические модели ситуации, они могут делать прогнозы настолько же точны, насколько точны данные, которые в них поступают. Мусорные данные будут давать мусорные прогнозы, независимо от того, насколько хороша модель.

Решение проблемы предвзятости

Предвзятость в сборе данных приводит к ухудшению качества данных. Распознавание предвзятости в данных является важнейшим навыком информационной грамотности.

Практиковать хорошую грамотность в отношении данных означает спрашивать…

  • Кто участвовал в сборе данных?
  • Кто остался в стороне?
  • Кто сделал данные?

Статистика

Статистика помогает определить, произошло ли событие случайно или под действием системного фактора или факторов.

Визуализации высоких ставок

Визуализация данных — одно из наиболее заметных и очевидных мест, где мы взаимодействуем с данными. Это помогает нам исследовать и понимать аргументы, основанные на данных, и является мощным инструментом общения.

Счет

Анализ, превращающий данные в полезную информацию. Главное в анализе: «Какой вывод?» Часть работы аналитика — предоставить контекст и разъяснения, чтобы убедиться, что аудитория не только читает правильные цифры, но и понимает, что они означают.

Причинный анализ

В мире информационной грамотности мы часто используем фразу «корреляция не равна причинно-следственной связи». Другими словами, хотя два события могут быть связаны или взаимосвязаны, это не означает, что они находятся в причинно-следственной связи.

«Причинно-следственная связь» означает доказательство того, что одно событие вызывает другое. Одним из наиболее важных способов применения этого метода за последние несколько столетий стала эпидемиология, изучение болезней. Обнаружение правильных причинно-следственных связей имело большое значение для профилактики и лечения заболеваний (COVID?).

В современной лабораторной науке мы используем контролируемые эксперименты, чтобы изолировать переменные и доказать причинно-следственную связь. Однако контролируемые эксперименты часто невозможны за пределами лабораторных условий, поэтому ученые, работающие с данными, делают все возможное, чтобы изолировать и контролировать переменные, а также комфортно работать с некоторым количеством ошибок.

Это завершение, ребята! Небольшой блог о информационной грамотности. Мы рассмотрели качество данных и этику данных. Устранение предвзятости приводит к получению более достоверных данных и более глубокой истины. Статистика имеет огромные последствия для изучения проблем, которые слишком велики, чтобы их можно было полностью решить по отдельности. Визуализация данных может сделать или разрушить вывод о данных, когда дело доходит до сообщения результатов. Анализ данных, важность контекста при интерпретации данных: не только то, что означают цифры, но и что они означают. Наконец, мы рассмотрели корреляцию и причинно-следственную связь. Спасибо, что читаете, ребята, я продолжу делиться своими исследованиями в области машинного обучения!