3 эффективных метода нарезки вашего набора данных с помощью Pandas

Pandas — одна из самых ценных библиотек для задач анализа данных. При глубоком анализе данных мы часто нарезаем данные по мере необходимости. Здесь мы увидим, как мы можем нарезать фрейм данных с помощью панд тремя наиболее эффективными способами.

Я взял набор данных Индийские цены на продукты питания из мира данных. Вы можете скачать его здесь для воспроизводимости.

Перед анализом любого набора данных нам нужно оптимизировать набор данных, преобразовав типы данных столбцов в необходимые типы данных, и здесь я загружаю оптимизированный набор данных.

Загрузка набора данных:

Мы можем делать так много разных вещей, следуя операциям фрейма данных, таким как фильтрация, индексация и так далее. Здесь я сосредоточился только на методах нарезки.

1. Нарезка по iloc[]:

Здесь я нарезал первые 5 строк и первые 5 столбцов фрейма данных. мы сделали целочисленную нарезку на основе местоположения. Начальное значение 0:5 представляет индекс строки, а конечное значение 0:5 представляет индекс столбца.

Разрезание средних n рядов:

Здесь я нарезал средние 5 рядов. Я нашел среднее значение индекса и использовал его внутри iloc.

Я выбрал 5 рядов из среднего ряда в качестве точки разреза.

Здесь я нарезал последние 5 строк и выбрал несколько конкретных столбцов с помощью лямбда-функции. Он будет работать и без использования лямбда-функции.

2. Нарезка с помощью truncate():

Здесь я нарезал от 50 до 100 строк, используя опцию усечения. По умолчанию строки будут обрезаны, если вы не укажете ось.

Нарезка по DateTime:

Давайте нарежем фрейм данных, установив дату в качестве индекса. Перед этим я скопировал фрейм данных по его значению, чтобы исходный фрейм данных не пострадал при выполнении каких-либо операций.

Я обрезал фрейм данных по дате с 2021 по 2022 год.

3. Нарезка по loc[]:

мы можем делать много операций, используя loc[], особенно фильтрацию, фильтрацию фрейма данных по любым условиям. Я думаю, что это один из ключевых атрибутов фрейма данных Pandas. Он принимает значения на основе меток строк и меток столбцов.

Здесь я нарезал от 100-й до 200-й строки, и я нарезал столбец пошагово. Мне нужны только столбцы даты и цены, поэтому я решил игнорировать 11 столбцов между ними. Мы можем сделать это и для строк.

Нарезка по DateTime:

Я нарезал кадр данных за 2000 год.

Я проглядел цены с 1997 по 2000 год.

Мы также можем разрезать столбцы вместе со строками. Здесь я разделил столбец «единица» на столбец «цена» за период 2015–2016 гг.

Здесь я вырезал все столбцы после столбца «цена» и нашел «цена» и «цена в долларах США» за 2010–2011 годы.

Мы можем использовать лямбда для выбора определенных столбцов. Здесь я нашел «рынок» и «цену» для этого конкретного времени.

Мы также можем выбрать определенные столбцы без использования лямбда-функции. Я просто показываю вам варианты. Вы можете следовать любым методам. Здесь я выбрал «рынок», «товар» и «цена» за 1994–2000 гг.

В нашей повседневной жизни, как специалисты по данным, мы играем с наборами данных и извлекаем ценные идеи. Чтобы получить ценную информацию, нам необходимо тщательно проанализировать данные. Здесь мы проверили, каковы цены на каждый товар в разные периоды, используя простые методы нарезки.

Я надеюсь, что эта статья даст вам некоторое представление о нарезке. Мы можем сделать еще много анализов в следующей статье.

Спасибо

Чтобы узнать больше о науке о данных, свяжитесь со мной в LinkedIn.

https://www.linkedin.com/in/arunkumar-data-scientist/

3 эффективных метода нарезки вашего набора данных с помощью Pandas

Загрузка набора данных:

1. Нарезка по iloc[]:

Разрезание средних n рядов:

2. Нарезка с помощью truncate():

Нарезка по DateTime:

3. Нарезка по loc[]:

Нарезка по DateTime:

Вопросы по теме