Публикации по теме 'exploratory-data-analysis'


Прогноз урожайности сои
Прогноз урожайности сои Целью этого блога является анализ двух больших наборов данных различных модальностей (изображений и таблиц), касающихся прогнозирования средней урожайности. В частности, набор данных изображений состоит из дистанционного зондирования, спутниковых инфракрасных изображений урожая сои, в то время как управление урожаем и данные о погоде составляют набор табличных данных. Цель состоит в том, чтобы использовать эти исторические показания и связанную с ними среднюю..

Как обрабатывать/обнаруживать выбросы для машинного обучения?
Почему важно выявлять выбросы? Часто выбросы отбрасываются из-за их влияния на общее распределение и статистический анализ набора данных. Это, безусловно, хороший подход, если выбросы вызваны какой-либо ошибкой (ошибка измерения, повреждение данных и т. д.), однако часто источник выбросов неясен. Существует много ситуаций, когда случайные «экстремальные» события вызывают выброс, выходящий за рамки обычного распределения набора данных, но являющийся достоверным измерением, а не..

Зачем нам нужно уменьшение размерности?
Уменьшение размерности — это метод, используемый в машинном обучении для уменьшения количества функций или переменных в наборе данных без потери важной информации, содержащейся в данных. Но зачем нам уменьшение размерности? Во-первых, обработка и анализ больших наборов данных могут потребовать значительных вычислительных ресурсов, поэтому уменьшение размерности может помочь уменьшить вычислительную сложность. Вторая проблема — мультиколлинеарность. Иногда два или более признаков в данных..

Исследовательский анализ данных по набору данных RSNA Pneumonia
Набор данных состоит из данных, помеченных CSV, и изображений рентгенографии грудной клетки (CXR). CSV имеет идентификатор пациента с координатами XY центра ограничивающей рамки, а также высотой и шириной рамки. Файл CSV также содержит метку класса/целевую переменную независимо от того, есть ли у пациента пневмония или нет. КРАТКОЕ СОДЕРЖАНИЕ • RSNA — набор данных CXR содержит 30227 рентгеновских изображений в формате DICOM. • Существует три класса с затемнением легких 31,61%,..

Был ли у Джека Доусона шанс выжить?
«Титаник» был самым большим в мире трансатлантическим круизным лайнером на момент завершения строительства в 1912 году. 15 апреля 1912 года во время своего первого рейса он врезался в айсберг и затонул в ледяных водах Северной Атлантики. Оно вошло в историю как одна из крупнейших морских катастроф, в результате которой погибло 1514 человек. «Титаник», названный в честь этого корабля, — американский драматический фильм 1997 года, снятый Джеймсом Кэмероном. Леонардо ДиКаприо и Кейт..

Как обрабатывать пропущенные значения в проектах Data Science
Обработка пропущенных значений имеет решающее значение в науке о данных, поскольку неполные данные могут привести к неточным результатам и предвзятым выводам. Игнорирование пропущенных значений также может привести к ошибкам в моделировании и прогнозах. Таким образом, правильная обработка пропущенных значений необходима для обеспечения надежности и достоверности анализа данных. В этом блоге мы будем использовать библиотеку the sklearn.impute для обработки отсутствующих данных во..

Не переусердствуйте! II (проблема Каггла)
Горсть образцов В этом блоге мы можем увидеть сквозное решение (от анализа данных до развертывания) для проблемы не переобучать Kaggle . Оглавление Постановка задачи Подход первого разреза Исследовательский анализ данных Предварительная обработка и проектирование функций Моделирование различных подходов Сравнение моделей Развертывание с помощью Streamlit Ссылка Будущая работа Постановка задачи · Мы должны построить модель классификации без переобучения, используя 250..