Публикации по теме 'binning'


Объяснение бинирования данных
Объяснение бинирования данных Предыстория и отказ от ответственности. В компании, в которой я работаю, мы разделили наших клиентов на четыре класса в зависимости от их платежного поведения. Как правило, при сегментировании клиентов в бизнес-среде используются три параметра: давность (как недавно клиент совершил покупку), частота (как часто клиент совершает покупки) и денежный (сколько клиент тратит на каждую покупку). Однако в этом случае я буду использовать частоту только для..

Снижение шума в нецелевой метаболомике с помощью Binner
Новый подход к аннотации объектов Мы взяли интервью у Хани Хабра, одного из соавторов программного инструмента Binner : настольного приложения для аннотирования изотопов, аддуктов и исходных фрагментов в нецелевых метаболомических данных, полученных с помощью электрораспылительной ионизационной жидкостной хроматографии с масс-спектрометрией (ESI-LC / РС). Такие инструменты, как Binner, значительно упрощают нецелевые наборы данных метаболомики. Без них было бы намного труднее..

Вопросы по теме 'binning'

Как связать серию значений с плавающей запятой в гистограмму в Python?
У меня есть набор значений в float (всегда меньше 0). Который я хочу вставить в гистограмму, т.е. каждый столбец в гистограмме содержит диапазон значений [0,0,150) Данные у меня выглядят так: 0.000 0.005 0.124 0.000 0.004 0.000 0.111 0.112...
24774 просмотров
schedule 23.04.2022

Корзина равномерно: расстояние между остатками неравномерно
Я пишу скрипт для равномерного распределения произвольного числа $epi по произвольному количеству ячеек $dpi . epi означает число концов на дюйм. dpi означает число вмятин на дюйм. Есть 3 требования: bin number should be reduced by the...
517 просмотров
schedule 30.09.2022

Python – Как создать индекс биннинга для списка?
У меня есть 10 бункеров: bins = [0,1,2,3,4,5,6,7,8,9] У меня есть список из 25 значений: values = [10,0,0,14,14,123,235,0,0,0,0,0,12,12,1235,23,234,15,15,23,136,34,34,37,45] Я хочу последовательно помещать значения в ячейки,...
1539 просмотров
schedule 05.02.2023

подогнать функцию к гистограмме, созданной с частотой в gnuplot
вступление В gnuplot есть решение для создания гистограммы из файла с именем hist.dat , что нравится 1 2 2 2 3 с помощью команд binwidth=1 set boxwidth binwidth bin(x,width)=width*floor(x/width) + binwidth/2.0 plot [0:5][0:*]...
9036 просмотров
schedule 06.03.2024

pandas — добавить столбец со значением на основе существующего (bins, qcut)
Я медленно перехожу с R на python + pandas и столкнулся с проблемой, которую не могу решить... Мне нужно дискретизировать значения из одного столбца, назначив их бинам и добавив столбец с этими именами бинов к исходному DataFrame . Я...
2580 просмотров
schedule 07.12.2023

pandas — группировка с определениями корзин на основе значения в другом столбце
Я борюсь с такой задачей: мне нужно дискретизировать значения в столбце из фрейма данных с определением ячеек на основе значения в другом столбце. Для минимального рабочего примера давайте определим простой фрейм данных: import pandas as pd df...
3611 просмотров
schedule 19.01.2023

Динамическое создание бинов в фрейме данных с помощью разрывов и квантилей не удается?
РЕДАКТИРОВАТЬ: я допустил ошибку в своем предыдущем коде, которым я поделился. Я заменил "бины" на "б", но пропустил один... Теперь я также использую правильный data.frame (y вместо оригинального df.score) НОВЫЙ код: # some data x <-...
2322 просмотров
schedule 29.09.2023

Формирование бина в R data.frame
У меня есть data.frame с двумя столбцами: category quantity a 20 b 30 c 100 d 10 e 1 f 23 g 3 h 200 Мне нужно написать функцию с двумя параметрами: dataframe , bin_size...
417 просмотров
schedule 14.12.2022

Биннинг кортежей Python. Ошибка из-за пустых корзин
У меня проблема с сортировкой элементов списка по корзинам. У меня есть два списка, X и Y, с соответствующими значениями X и Y (которые, очевидно, также могут быть одним списком кортежей). Затем мне нужно разделить диапазон X на 10 равных ячеек и...
1921 просмотров
schedule 11.01.2023

Как бинировать матрицу
numpy.histogram(data, bins) — это очень быстрый и эффективный способ подсчитать, сколько элементов массива данных попадает в ячейку, определяемую ячейками массива. Существует ли эквивалентная функция для решения следующей задачи? У меня есть матрица...
1678 просмотров
schedule 09.04.2023

VB.net Histogram - как собирать данные
Я работаю над классом гистограммы и, в частности, над методом биннинга. В связи с этим у меня два вопроса: Является ли это правильным/соответствующим алгоритмом с логической/статистической точки зрения? Является ли код оптимальным или...
1336 просмотров
schedule 15.10.2022

преобразование времени начала и окончания активности в бинарные данные для нескольких групп в R dplyr/tidyr
У меня есть данные, которые выглядят примерно так: foo <- data.frame(userid = c("a","a","b","b","b"), activity = factor(c("x","y","z","z","x")), st=c(0, 20, 0, 10, 25), # start time...
217 просмотров
schedule 07.10.2022

Двухмерный график плотности Matlab
Я пытаюсь построить график плотности для данных, содержащих два столбца с разными диапазонами. Столбец RMSD имеет диапазоны [0–2], а угол — [0–200]. Мои данные в файле такие: 0.0225370 37.088 0.1049553 35.309 0.0710002 33.993 0.0866880...
332 просмотров
schedule 27.10.2023

создание графика временного ряда в R, объединение экземпляров в каждый день и построение размера точки по количеству экземпляров в лотке
У меня есть данные за многие месяцы с показаниями в секунду за каждый день. Есть несколько пропущенных значений. Данные находятся во фрейме данных в R в форме: Дата Значение 2015-01-01 100 2015-01-01 300 2015-01-01 350 2015-02-01 400...
573 просмотров
schedule 04.02.2023

ggplot: построение интервалов по оси x и среднего значения по оси y.
Предположим, что у меня есть кадр данных, который выглядит так: data <- data.frame(y = rnorm(10,0,1), x = runif(10,0,1)) Что я хотел бы сделать, так это разрезать значения x на ячейки, например: data$bins <- cut(data$x,breaks = 4)...
9336 просмотров
schedule 22.07.2022

Значения столбца бининга Pandas в соответствии с индексом [дубликаты]
В настоящее время у меня есть DataFrame, в котором хранится возраст населения и частота этих возрастов, например: freq 27 103 28 43 29 13 ... ... 78 20 79 13 Возраст — это индекс DataFrame. Я хотел бы...
2925 просмотров
schedule 21.08.2022

Как создать цикл for для вычисления функции Джини для бинарных данных в r?
У меня возникли трудности с вычислением коэффициента Джини с использованием данных переписи населения, и я был бы очень признателен за любую помощь. Мои данные выглядят примерно так (но с 14 000 наблюдений 13 переменных). location <-...
888 просмотров
schedule 19.10.2022

Сглаживание значений с использованием границ бина: где вы устанавливаете значение, которое находится прямо между нижней и верхней границей?
В ответ на ответ @j.jerrod.taylor позвольте мне перефразировать мой вопрос, чтобы устранить любые недоразумения. Я новичок в интеллектуальном анализе данных и узнаю, как обрабатывать зашумленные данные, сглаживая мои данные с помощью метода...
14444 просмотров
schedule 06.06.2022

Использование histcountsmex вместо histcounts
Я пытаюсь оптимизировать свой код MATLAB. Мой код требует использования функции histcounts для миллиона векторов в цикле for. Что я хочу сделать, так это напрямую использовать histcountsmex вместо histcounts . Кто-нибудь может подсказать, как...
385 просмотров

Панды уменьшают количество категориальных переменных в таблице value_counts()
Новичок в пандах. Я хочу выполнить что-то похожее на Уменьшите количество уровней для больших категориальных переменных (объединение категориальных переменных для уменьшения их уровней) Следующий код отлично работает в R DTsetlvls <-...
3359 просмотров
schedule 25.12.2022