Публикации по теме 'binning'
Объяснение бинирования данных
Объяснение бинирования данных
Предыстория и отказ от ответственности. В компании, в которой я работаю, мы разделили наших клиентов на четыре класса в зависимости от их платежного поведения. Как правило, при сегментировании клиентов в бизнес-среде используются три параметра: давность (как недавно клиент совершил покупку), частота (как часто клиент совершает покупки) и денежный (сколько клиент тратит на каждую покупку). Однако в этом случае я буду использовать частоту только для..
Снижение шума в нецелевой метаболомике с помощью Binner
Новый подход к аннотации объектов
Мы взяли интервью у Хани Хабра, одного из соавторов программного инструмента Binner : настольного приложения для аннотирования изотопов, аддуктов и исходных фрагментов в нецелевых метаболомических данных, полученных с помощью электрораспылительной ионизационной жидкостной хроматографии с масс-спектрометрией (ESI-LC / РС).
Такие инструменты, как Binner, значительно упрощают нецелевые наборы данных метаболомики. Без них было бы намного труднее..
Вопросы по теме 'binning'
Как связать серию значений с плавающей запятой в гистограмму в Python?
У меня есть набор значений в float (всегда меньше 0). Который я хочу вставить в гистограмму, т.е. каждый столбец в гистограмме содержит диапазон значений [0,0,150)
Данные у меня выглядят так:
0.000
0.005
0.124
0.000
0.004
0.000
0.111
0.112...
24774 просмотров
schedule
23.04.2022
Корзина равномерно: расстояние между остатками неравномерно
Я пишу скрипт для равномерного распределения произвольного числа $epi по произвольному количеству ячеек $dpi . epi означает число концов на дюйм. dpi означает число вмятин на дюйм. Есть 3 требования:
bin number should be reduced by the...
517 просмотров
schedule
30.09.2022
Python – Как создать индекс биннинга для списка?
У меня есть 10 бункеров:
bins = [0,1,2,3,4,5,6,7,8,9]
У меня есть список из 25 значений:
values = [10,0,0,14,14,123,235,0,0,0,0,0,12,12,1235,23,234,15,15,23,136,34,34,37,45]
Я хочу последовательно помещать значения в ячейки,...
1539 просмотров
schedule
05.02.2023
подогнать функцию к гистограмме, созданной с частотой в gnuplot
вступление
В gnuplot есть решение для создания гистограммы из файла с именем hist.dat , что нравится
1
2
2
2
3
с помощью команд
binwidth=1
set boxwidth binwidth
bin(x,width)=width*floor(x/width) + binwidth/2.0
plot [0:5][0:*]...
9036 просмотров
schedule
06.03.2024
pandas — добавить столбец со значением на основе существующего (bins, qcut)
Я медленно перехожу с R на python + pandas и столкнулся с проблемой, которую не могу решить...
Мне нужно дискретизировать значения из одного столбца, назначив их бинам и добавив столбец с этими именами бинов к исходному DataFrame . Я...
2580 просмотров
schedule
07.12.2023
pandas — группировка с определениями корзин на основе значения в другом столбце
Я борюсь с такой задачей: мне нужно дискретизировать значения в столбце из фрейма данных с определением ячеек на основе значения в другом столбце.
Для минимального рабочего примера давайте определим простой фрейм данных:
import pandas as pd
df...
3611 просмотров
schedule
19.01.2023
Динамическое создание бинов в фрейме данных с помощью разрывов и квантилей не удается?
РЕДАКТИРОВАТЬ: я допустил ошибку в своем предыдущем коде, которым я поделился. Я заменил "бины" на "б", но пропустил один...
Теперь я также использую правильный data.frame (y вместо оригинального df.score)
НОВЫЙ код:
# some data
x <-...
2322 просмотров
schedule
29.09.2023
Формирование бина в R data.frame
У меня есть data.frame с двумя столбцами:
category quantity
a 20
b 30
c 100
d 10
e 1
f 23
g 3
h 200
Мне нужно написать функцию с двумя параметрами: dataframe , bin_size...
417 просмотров
schedule
14.12.2022
Биннинг кортежей Python. Ошибка из-за пустых корзин
У меня проблема с сортировкой элементов списка по корзинам. У меня есть два списка, X и Y, с соответствующими значениями X и Y (которые, очевидно, также могут быть одним списком кортежей). Затем мне нужно разделить диапазон X на 10 равных ячеек и...
1921 просмотров
schedule
11.01.2023
Как бинировать матрицу
numpy.histogram(data, bins) — это очень быстрый и эффективный способ подсчитать, сколько элементов массива данных попадает в ячейку, определяемую ячейками массива. Существует ли эквивалентная функция для решения следующей задачи? У меня есть матрица...
1678 просмотров
schedule
09.04.2023
VB.net Histogram - как собирать данные
Я работаю над классом гистограммы и, в частности, над методом биннинга.
В связи с этим у меня два вопроса:
Является ли это правильным/соответствующим алгоритмом с логической/статистической точки зрения?
Является ли код оптимальным или...
1336 просмотров
schedule
15.10.2022
преобразование времени начала и окончания активности в бинарные данные для нескольких групп в R dplyr/tidyr
У меня есть данные, которые выглядят примерно так:
foo <- data.frame(userid = c("a","a","b","b","b"),
activity = factor(c("x","y","z","z","x")),
st=c(0, 20, 0, 10, 25), # start time...
217 просмотров
schedule
07.10.2022
Двухмерный график плотности Matlab
Я пытаюсь построить график плотности для данных, содержащих два столбца с разными диапазонами. Столбец RMSD имеет диапазоны [0–2], а угол — [0–200].
Мои данные в файле такие:
0.0225370 37.088
0.1049553 35.309
0.0710002 33.993
0.0866880...
332 просмотров
schedule
27.10.2023
создание графика временного ряда в R, объединение экземпляров в каждый день и построение размера точки по количеству экземпляров в лотке
У меня есть данные за многие месяцы с показаниями в секунду за каждый день. Есть несколько пропущенных значений. Данные находятся во фрейме данных в R в форме:
Дата Значение 2015-01-01 100 2015-01-01 300 2015-01-01 350 2015-02-01 400...
573 просмотров
schedule
04.02.2023
ggplot: построение интервалов по оси x и среднего значения по оси y.
Предположим, что у меня есть кадр данных, который выглядит так:
data <- data.frame(y = rnorm(10,0,1), x = runif(10,0,1))
Что я хотел бы сделать, так это разрезать значения x на ячейки, например:
data$bins <- cut(data$x,breaks = 4)...
9336 просмотров
schedule
22.07.2022
Значения столбца бининга Pandas в соответствии с индексом [дубликаты]
В настоящее время у меня есть DataFrame, в котором хранится возраст населения и частота этих возрастов, например:
freq
27 103
28 43
29 13
... ...
78 20
79 13
Возраст — это индекс DataFrame. Я хотел бы...
2925 просмотров
schedule
21.08.2022
Как создать цикл for для вычисления функции Джини для бинарных данных в r?
У меня возникли трудности с вычислением коэффициента Джини с использованием данных переписи населения, и я был бы очень признателен за любую помощь.
Мои данные выглядят примерно так (но с 14 000 наблюдений 13 переменных).
location <-...
888 просмотров
schedule
19.10.2022
Сглаживание значений с использованием границ бина: где вы устанавливаете значение, которое находится прямо между нижней и верхней границей?
В ответ на ответ @j.jerrod.taylor позвольте мне перефразировать мой вопрос, чтобы устранить любые недоразумения.
Я новичок в интеллектуальном анализе данных и узнаю, как обрабатывать зашумленные данные, сглаживая мои данные с помощью метода...
14444 просмотров
schedule
06.06.2022
Использование histcountsmex вместо histcounts
Я пытаюсь оптимизировать свой код MATLAB. Мой код требует использования функции histcounts для миллиона векторов в цикле for. Что я хочу сделать, так это напрямую использовать histcountsmex вместо histcounts . Кто-нибудь может подсказать, как...
385 просмотров
schedule
26.08.2022
Панды уменьшают количество категориальных переменных в таблице value_counts()
Новичок в пандах. Я хочу выполнить что-то похожее на Уменьшите количество уровней для больших категориальных переменных (объединение категориальных переменных для уменьшения их уровней) Следующий код отлично работает в R
DTsetlvls <-...
3359 просмотров
schedule
25.12.2022