Публикации по теме 'imputation'


Подход к обработке пропущенных значений
Подробное руководство, в котором объясняется, как найти пропущенные значения и что делать с ними. Почему необходимо иметь дело с отсутствующими данными? В большинстве случаев в данных, поступающих из реального мира, отсутствует значительный объем информации. Отсутствию каждого значения может способствовать множество факторов. Некоторые данные могли быть утеряны или повреждены, или могут быть другие, более частные причины. Точность вашей модели пострадает из-за отсутствия некоторых..

Почему использовать среднее значение для недостающих данных - плохая идея. Альтернативные алгоритмы вменения.
Мы все знаем, что такое боль, когда набор данных, который мы хотим использовать для машинного обучения, содержит недостающие данные. Быстрый и простой обходной путь - заменить числовые функции средним и использовать режим для категориальных. Более того, кто-то может просто вставить 0 или отбросить данные и перейти к обучению модели. В следующей статье я объясню, почему использование среднего значения или режима может значительно снизить точность модели и исказить результаты. Я также..

Данные для прогноза
Прохождение простого рабочего процесса машинного обучения Я хотел объединить несколько вещей, которые я изучал, и хотел пройти через базовый процесс машинного обучения. Поэтому я написал класс Python, MLModel , для изучения. Конечно, это игрушка, но она дает общее представление о переходе от данных к предсказанию. Итак, мы собираемся изучить некоторые основные концепции машинного обучения через призму этого простого инструмента машинного обучения. Этот класс использует pandas..

Обработка отсутствующих данных с помощью KNN Imputer
Обработка отсутствующих данных — важный шаг на этапе предварительной обработки данных перед построением моделей машинного обучения. Отсутствующие данные могут вызвать проблемы при анализе и моделировании, поскольку многие алгоритмы не обрабатывают отсутствующие значения напрямую. Одним из часто используемых методов обработки отсутствующих данных является импутер K-ближайших соседей (KNN), который предлагает несколько преимуществ по сравнению с другими методами: Почему? 1. Сохраняет..

Предварительная обработка: регрессионное вменение пропущенных непрерывных значений
Предварительная обработка: регрессионное вменение пропущенных непрерывных значений В качестве продолжения кодирования и вменения категориальных значений в этой статье будет рассмотрено использование методов регрессии для вменения пропущенных значений для непрерывных переменных. При принятии решения о том, как обрабатывать отсутствующие значения в ваших данных, есть три варианта: удалить наблюдения с отсутствующими данными, оставить отсутствующие значения на месте или вменять..

Прогнозирование отказов APS для грузовиков Scania с помощью машинного обучения
Введение: Scania Trucks имеет систему под названием APS (система давления воздуха). Эта система создает давление воздуха, которое будет использоваться для торможения, переключения передач и т. д. Нам будут предоставлены данные, которые содержат отказы компонентов, связанных с APS, и отказы компонентов, не связанных с системами APS. Наша цель состоит в том, чтобы классифицировать данную новую точку данных как положительную или отрицательную, положительную, если данный грузовик имеет..

Вопросы по теме 'imputation'

Вменение в больших данных
Мне нужно вписать пропущенные значения. В моем наборе данных около 800 000 строк и 92 переменные. Я попробовал kNNImpute в пакете вменения в r, но похоже, что набор данных слишком велик. Любые другие пакеты/методы в R? Я бы предпочел не...
3173 просмотров
schedule 20.07.2022

Вменение пропущенных значений
Я хотел бы вменять недостающие значения в наборе данных на основе распределения других значений переменной. Представьте, что 30% значений = 1, 20% = 2 и 50% = 3, по сути, я бы хотел сделать следующее: impute(var,1) # for 30 % of the NA...
453 просмотров
schedule 23.05.2022

Панды: заполнение пропущенных значений средним в каждой группе
Это должно быть просто, но ближе всего, что я нашел, это сообщение: pandas : Заполнение пропущенных значений внутри группы , и я все еще не могу решить свою проблему .... Предположим, у меня есть следующий фрейм данных df =...
86667 просмотров

R Функция замены отсутствующего значения
У меня есть таблица с пропущенными значениями, и я пытаюсь написать функцию, которая заменит пропущенные значения расчетом, основанным на двух ближайших ненулевых значениях. Пример: X Tom 1 4.3 2 5.1 3 NA 4 NA 5 7.4...
744 просмотров
schedule 31.07.2022

Как извлечь полный набор данных из пакета Amelia
В пакете mice для извлечения полного набора данных вы можете использовать команду complete() следующим образом: install.packages("mice") library ("mice") imp1=mice(nhanes,10) fill1=complete(imp,1) fill2=complete(imp,2)...
1155 просмотров
schedule 26.02.2022

Руководство SAS Enterprise, различные методы лечения отсутствующих переменных
Мы используем набор данных ESS, но не знаем, как решить проблему с пропущенными значениями в SAS Enterprise Guide. Наша зависимая переменная - это «субъективное благополучие» и нацелена на включение большого количества контрольных переменных -...
901 просмотров
schedule 23.08.2022

Вменение продольных данных с использованием наблюдения до и после отсутствия данных
Я занимаюсь очисткой некоторых лонгитюдных данных, и у меня есть несколько пропущенных дел. Я пытаюсь использовать вменение, которое включает наблюдения до и после пропавшего случая. Мне интересно, как я могу решить проблемы, описанные ниже. Я...
255 просмотров

Введите недостающие дни в последовательности дней в R
У меня проблема с вводом отсутствующих наблюдений во фрейм данных с помощью R, ниже приведен снимок фрейма данных: Пример фрейма данных На самом деле у меня 66 разных районов, 21 день, и каждый день и каждый район должны иметь 144...
188 просмотров
schedule 24.07.2022

вменение пропущенных значений с использованием прогнозной модели
Я пытаюсь вменять недостающие значения в Python, и sklearn , похоже, не имеет метода, выходящего за рамки среднего (среднего, медианного или режима) вменения. Оранжевая модель вменения кажется жизнеспособным вариантом. Однако, похоже,...
4341 просмотров

Панд на группу вменения пропущенных значений
Как я могу добиться такого вменения по странам для каждого показателя в пандах? Я хочу вменять недостающие значения для каждой группы без состояния должно получать np.min на индикаторKPI no-ISO-state должен получить np.mean на...
2114 просмотров

усреднение вменения пропущенных значений
У меня есть несколько вопросов, я не мог ничего найти в документации, если я что-то не упустил или не понимаю процесс / логику вменения. По сути, наиболее важным является то, что, поскольку иногда «вмененные» значения отличаются, я хотел бы взять...
1907 просмотров
schedule 11.09.2022

Как будут работать Imputers, если все значения в столбце отсутствуют во входном векторе в sklearn
У меня есть набор данных с большим количеством столбцов, я запрограммировал свое приложение таким образом, что если какое-либо значение для заданных столбцов отсутствует, оно будет заполнено значениями импьютера со средним значением в качестве...
204 просмотров

Как вы можете сократить время вычислений при прогнозировании импутации KNN?
Я чувствую, что мое время выполнения очень медленное для моего набора данных, это код: library(caret) library(data.table) knnImputeValues <- preProcess(mainData[trainingRows, imputeColumns], method = c("zv", "knnImpute"))...
1908 просмотров
schedule 21.05.2022

Python: работа со значениями NaN с использованием Imputer в индексе Dataframe
У меня есть данные с некоторыми значениями NaN, и я хочу заполнить значения NaN, используя imputer . from sklearn.preprocessing import Imputer imp = Imputer(missing_values='NaN', strategy='mean', axis=1) cleaned_data =...
553 просмотров

dim(X) должен иметь положительную длину при использовании функции мыши
Я выполняю вменение отсутствующих значений для ряда порядковых переменных. Сначала я читаю во фрейме данных и делаю некоторую очистку: dietgp1m<-read.csv(file='1 Month data-diet.csv',header=TRUE,na.strings=c(""," ","NA",".")) for (i in...
779 просмотров
schedule 11.06.2022

пропущенные значения, задача классификации
Я использую этот набор данных breastcancer из UCI, но он содержит пропущенные значения. Может ли кто-нибудь помочь мне исправить это? Я новичок в ML и мало что знаю о методах пропущенных значений. Вот ссылка на набор данных раковые данные . Я...
569 просмотров
schedule 26.06.2022

Почему результаты вменения отличаются в пакете mi?
В пакете mi я обнаружил, что результаты различаются в зависимости от выполнения импутации с точно такими же параметрами. Рассмотрим следующий код: library(mi) data(nlsyV) mdf = missing_data.frame(nlsyV) imputations = mi(mdf, n.iter = 30,...
43 просмотров
schedule 18.07.2022

Вмените отсутствующие значения в 0 и создайте индикаторные столбцы в Pandas
У меня очень простой фрейм данных в Pandas, testdf = [{'name' : 'id1', 'W': np.NaN, 'L': 0, 'D':0}, {'name' : 'id2', 'W': 0, 'L': np.NaN, 'D':0}, {'name' : 'id3', 'W': np.NaN, 'L': 10, 'D':0}, {'name' : 'id4',...
2967 просмотров
schedule 31.10.2022

Вменение данных с помощью fancyimpute и pandas
У меня есть большая известность данных панд df . В нем довольно много пропавших без вести. Удаление строки/или столбца не вариант. Вменение медиан, средних или наиболее частых значений также не является вариантом (следовательно, вменение с pandas...
21676 просмотров

Замена значений NA заданными критериями
Во-первых, я прочитал ( R: заменить NA на элемент из вектора ), но мне нужно немного больше деталей. Обычно эта операция выполняется в Fox Pro, но она не будет доступна в ближайшее время. Итак, у меня есть набор данных. Ниже приведен код,...
68 просмотров
schedule 08.03.2023