Уникальность с существующими базовыми объектами данных

Я использую Core Data для хранения большого количества (1000) элементов. Пара свойств каждого элемента используется для определения уникальности, поэтому, когда появляется новый элемент, я сравниваю его с существующими элементами перед вставкой. Поскольку входящие данные представлены в виде RSS-канала, дубликатов часто много, а стоимость этапа уникальности составляет O(N^2), что стало значительным.

Прямо сейчас я создаю набор существующих элементов, прежде чем перебирать список (возможных) новых элементов. Моя теория состоит в том, что на первой итерации все элементы будут ошибочными, и если предположить, что мы не нуждаемся в памяти, большинство этих элементов останутся резидентными в течение итерации.

Я вижу свои варианты таким образом:

Используйте сравнение строк для уникальности, повторения всех «новых» элементов и сравнения со всеми существующими элементами (текущий подход).
Используйте предикат для фильтрации набора существующих элементов по свойствам «новых» элементов.
Используйте предикат с базовыми данными, чтобы определить уникальность каждого «нового» элемента (без извлечения набора существующих элементов).

Будет ли вариант 3 быстрее, чем мой текущий подход? Вы знаете лучший способ?

warrenm 29.05.2010 источник

Ответы (3)

arrow_upward
2
arrow_downward

Сравнение целочисленных хеш-значений — создание хэш-компонентов входящих новостей RSS, использование предиката для фильтрации всех элементов с одинаковым значением хеш-атрибута и проверка того, был ли извлечен какой-либо объект — может дать более высокую производительность, чем сравнение строк все атрибуты внутри каждой сущности.

Alex Reynolds 30.05.2010

comment

Я пошел по этому пути, и пока он кажется довольно эффективным. Спасибо за помощь. - warrenm; 28.06.2010

arrow_upward
1
arrow_downward

Третий шаг предложенного ohhorob решения, вероятно, реализован наиболее эффективно, как описано в документации Core Data в разделе 'Эффективная реализация функции "Найти или создать". То есть сортировка как входящих элементов, так и соответствующих им существующих элементов после свойства hash, а затем параллельный цикл по двум коллекциям.

cahlbin 03.06.2010

comment

Это выдающийся документ. Я не знаю, как я не видел его раньше. - warrenm; 06.06.2010

arrow_upward
0
arrow_downward

Согласно ответу Алекса, предикат для целочисленного свойства должен быть быстрее, но стратегия должна быть скорректирована, чтобы лучше соответствовать задаче:

собрать список всех входящих хэшей элементов
извлекать все объекты, соответствующие этому списку хэшей (извлекать только свойство хэша)
перебирать входящие элементы, пропуская те, у которых есть хэш в выбранных совпадениях

Кроме того, вы можете получить результат словаря, чтобы избежать настройки управляемых объектов, которые вы не будете использовать (если только вы не собираетесь обновлять существующие объекты, а не просто пропускать идентичные входящие элементы).

ohhorob 30.05.2010

Уникальность с существующими базовыми объектами данных

Ответы (3)

Вопросы по теме