Сценарий:
Мне нужно разобрать миллионы HTML-файлов/страниц (насколько я могу), а затем прочитать только заголовок или мета-часть и сбросить его в базу данных.
Что я делаю, так это использую System.Net.WebClient
Class DownloadString(url_path)
для загрузки, а затем сохраняю его в базе данных с помощью LINQ To SQL.
Но эта функция DownloadString
дает мне полный исходный код html, мне просто нужны только часть заголовка и часть тега META.
Любые идеи, чтобы загрузить только столько контента?