Публикации по теме 'exploratory-data-analysis'
Прогноз урожайности сои
Прогноз урожайности сои
Целью этого блога является анализ двух больших наборов данных различных модальностей (изображений и таблиц), касающихся прогнозирования средней урожайности. В частности, набор данных изображений состоит из дистанционного зондирования, спутниковых инфракрасных изображений урожая сои, в то время как управление урожаем и данные о погоде составляют набор табличных данных. Цель состоит в том, чтобы использовать эти исторические показания и связанную с ними среднюю..
Как обрабатывать/обнаруживать выбросы для машинного обучения?
Почему важно выявлять выбросы?
Часто выбросы отбрасываются из-за их влияния на общее распределение и статистический анализ набора данных. Это, безусловно, хороший подход, если выбросы вызваны какой-либо ошибкой (ошибка измерения, повреждение данных и т. д.), однако часто источник выбросов неясен. Существует много ситуаций, когда случайные «экстремальные» события вызывают выброс, выходящий за рамки обычного распределения набора данных, но являющийся достоверным измерением, а не..
Зачем нам нужно уменьшение размерности?
Уменьшение размерности — это метод, используемый в машинном обучении для уменьшения количества функций или переменных в наборе данных без потери важной информации, содержащейся в данных. Но зачем нам уменьшение размерности? Во-первых, обработка и анализ больших наборов данных могут потребовать значительных вычислительных ресурсов, поэтому уменьшение размерности может помочь уменьшить вычислительную сложность. Вторая проблема — мультиколлинеарность. Иногда два или более признаков в данных..
Исследовательский анализ данных по набору данных RSNA Pneumonia
Набор данных состоит из данных, помеченных CSV, и изображений рентгенографии грудной клетки (CXR). CSV имеет идентификатор пациента с координатами XY центра ограничивающей рамки, а также высотой и шириной рамки. Файл CSV также содержит метку класса/целевую переменную независимо от того, есть ли у пациента пневмония или нет.
КРАТКОЕ СОДЕРЖАНИЕ
• RSNA — набор данных CXR содержит 30227 рентгеновских изображений в формате DICOM.
• Существует три класса с затемнением легких 31,61%,..
Был ли у Джека Доусона шанс выжить?
«Титаник» был самым большим в мире трансатлантическим круизным лайнером на момент завершения строительства в 1912 году. 15 апреля 1912 года во время своего первого рейса он врезался в айсберг и затонул в ледяных водах Северной Атлантики. Оно вошло в историю как одна из крупнейших морских катастроф, в результате которой погибло 1514 человек.
«Титаник», названный в честь этого корабля, — американский драматический фильм 1997 года, снятый Джеймсом Кэмероном. Леонардо ДиКаприо и Кейт..
Как обрабатывать пропущенные значения в проектах Data Science
Обработка пропущенных значений имеет решающее значение в науке о данных, поскольку неполные данные могут привести к неточным результатам и предвзятым выводам. Игнорирование пропущенных значений также может привести к ошибкам в моделировании и прогнозах. Таким образом, правильная обработка пропущенных значений необходима для обеспечения надежности и достоверности анализа данных.
В этом блоге мы будем использовать библиотеку the sklearn.impute для обработки отсутствующих данных во..
Не переусердствуйте! II (проблема Каггла)
Горсть образцов
В этом блоге мы можем увидеть сквозное решение (от анализа данных до развертывания) для проблемы не переобучать Kaggle .
Оглавление
Постановка задачи Подход первого разреза Исследовательский анализ данных Предварительная обработка и проектирование функций Моделирование различных подходов Сравнение моделей Развертывание с помощью Streamlit Ссылка Будущая работа
Постановка задачи
· Мы должны построить модель классификации без переобучения, используя 250..