У меня есть большой массив данных расписаний, и мне нужно подсчитать количество проведенных экспериментов. Проблема в том, что использование for повторяется в строках (что нормально), но дублируется в некоторых, но не во всех столбцах. Я хочу удалить вторую запись (если она дублируется), но я не могу удалить весь второй столбец, потому что он также будет содержать некоторые новые значения. Как я могу сравнить отдельные записи для двух столбцов бок о бок и удалить вторую, если есть дубликат? Продолжительность для этого составляет максимум два дня, поэтому три дня подряд новое событие с тем же названием, начиная с третьего дня. Фактический текст для названий экспериментов сложен, а фрейм данных имеет ширину 120 столбцов, поэтому ввод его в виде списка или словаря невозможен. Я надеюсь на функцию python или numpy, но мог бы использовать цикл.
Вот изображения для примера начального фрейма данных и желаемого вывода. пример начального фрейма данных а>
subset
в drop_duplicates - person dubbbdan   schedule 16.09.2020