У меня есть папка с *.txt
файлами. Я хочу регулярно проверять эти файлы на наличие повторяющихся URL-адресов.
На самом деле, я сохраняю свои закладки в этих файлах, всегда как минимум с двумя строками, например:
www.domain.com
Quite a popular domain name
Как это бывает, я сохраняю тот же URL с другим описанием, например:
www.domain.com
I should buy this domain
Whenever I happen to have enough money for this
Все записи разделены одиночными пустыми строками. А иногда URL-адреса имеют формат уценки:
[domain.com](www.domain.com)
Как мне просканировать папку на наличие повторяющихся URL-адресов?
Единственное решение, которое я нашел до сих пор, это cat
в сочетании с его uniq
каналом:
cat folder/* |sort|uniq|less > dupefree.txt
Проблема в следующем:
- Это проверяет только полные идентичные строки - URL-адреса уценки игнорируются, а связанные комментарии теряются.
- Я не хочу выводить очищенный текстовый файл, мне просто нужна подсказка, какие URL-адреса дублируются.
Как я могу сделать надлежащую проверку дубликатов?