Чтобы стать надежным инженером по машинному обучению, мы хотим иметь прочную основу в области данных: грамотность, программирование, математика, статистика и визуализация.
Нам необходимо иметь возможность:
- сформулировать, что может пойти правильно, а что нет при работе с данными.
- писать базовые программы для создания собственного анализа с помощью Python
- используйте библиотеку Pandas для Python для управления данными и манипулирования ими.
- очистить данные, чтобы подготовить их к анализу
- контекстуализировать алгоритмы машинного обучения с их математической основой
- использовать статистику для построения лучших моделей
- создавайте визуализации данных, которые сообщат ваши результаты
Грамотность данных с самого начала помогла миру решить некоторые из самых сложных проблем. Врачи нашли способы лечения болезней с помощью информационной грамотности. Ученые, работающие с данными, обнаружили расовую дискриминацию при приеме на работу из-за хорошего понимания данных. Данные помогают нам создавать удобочитаемую работу для других людей.
Пробелы в данных
Пробелы в данных. Способность разделять данные хорошего, посредственного и низкого качества является важнейшим навыком информационной грамотности.
Мусор на входе, мусор на выходе – это фраза из мира данных, которая означает “наши выводы на основе данных настолько сильны, надежны и хорошо подкреплены, насколько и данные, лежащие в их основе”.
Для понимания и передачи данных во многом необходимо задавать правильные вопросы, чтобы в итоге мы получали полезные и актуальные данные.
Рассмотрим эти два вопроса в качестве примера хорошей грамотности в области данных:
- Достаточно ли у нас данных, чтобы ответить на поставленный вопрос?
- Могут ли мои данные ответить на мой точный вопрос?
Когда мы создаем эти превосходные математические модели ситуации, они могут делать прогнозы настолько же точны, насколько точны данные, которые в них поступают. Мусорные данные будут давать мусорные прогнозы, независимо от того, насколько хороша модель.
Решение проблемы предвзятости
Предвзятость в сборе данных приводит к ухудшению качества данных. Распознавание предвзятости в данных является важнейшим навыком информационной грамотности.
Практиковать хорошую грамотность в отношении данных означает спрашивать…
- Кто участвовал в сборе данных?
- Кто остался в стороне?
- Кто сделал данные?
Статистика
Статистика помогает определить, произошло ли событие случайно или под действием системного фактора или факторов.
Визуализации высоких ставок
Визуализация данных — одно из наиболее заметных и очевидных мест, где мы взаимодействуем с данными. Это помогает нам исследовать и понимать аргументы, основанные на данных, и является мощным инструментом общения.
Счет
Анализ, превращающий данные в полезную информацию. Главное в анализе: «Какой вывод?» Часть работы аналитика — предоставить контекст и разъяснения, чтобы убедиться, что аудитория не только читает правильные цифры, но и понимает, что они означают.
Причинный анализ
В мире информационной грамотности мы часто используем фразу «корреляция не равна причинно-следственной связи». Другими словами, хотя два события могут быть связаны или взаимосвязаны, это не означает, что они находятся в причинно-следственной связи.
«Причинно-следственная связь» означает доказательство того, что одно событие вызывает другое. Одним из наиболее важных способов применения этого метода за последние несколько столетий стала эпидемиология, изучение болезней. Обнаружение правильных причинно-следственных связей имело большое значение для профилактики и лечения заболеваний (COVID?).
В современной лабораторной науке мы используем контролируемые эксперименты, чтобы изолировать переменные и доказать причинно-следственную связь. Однако контролируемые эксперименты часто невозможны за пределами лабораторных условий, поэтому ученые, работающие с данными, делают все возможное, чтобы изолировать и контролировать переменные, а также комфортно работать с некоторым количеством ошибок.
Это завершение, ребята! Небольшой блог о информационной грамотности. Мы рассмотрели качество данных и этику данных. Устранение предвзятости приводит к получению более достоверных данных и более глубокой истины. Статистика имеет огромные последствия для изучения проблем, которые слишком велики, чтобы их можно было полностью решить по отдельности. Визуализация данных может сделать или разрушить вывод о данных, когда дело доходит до сообщения результатов. Анализ данных, важность контекста при интерпретации данных: не только то, что означают цифры, но и что они означают. Наконец, мы рассмотрели корреляцию и причинно-следственную связь. Спасибо, что читаете, ребята, я продолжу делиться своими исследованиями в области машинного обучения!