Привет народ,

Это разработчик программного обеспечения, запускающий очень интересный контент о науке о данных. Многие знают, что наука о данных — это обработка данных с помощью различных методов. Некоторые из них делают это с помощью инструментов, некоторые из них используют другую перспективу кодирования, или даже многие делают это вручную, что является худшим способом сделать это.

Но прежде чем анализировать или визуализировать данные, вы должны собрать их из разных источников. Многие нетехнари собирают данные с помощью опросов, что в какой-то степени нормально, давайте не будем вдаваться в рамки этого. Но большинство из нас, как программисты, делают это, написав несколько строк кода и получив огромное количество данных из любого места, доступного в Интернете.

Итак, сегодня я ухожу, чтобы показать вам базовую часть кодирования на python, за которой очень легко следовать, и откуда вы также можете получить все данные онлайн из интересующей вас области.

Для очистки данных с любого веб-сайта. Вам нужно выбрать любой веб-сайт, с которого вам нужно удалить информацию (Примечание: удаление данных с любого сайта является незаконным и рискованным. Если они обнаружат какие-либо вредоносные действия на своем сайте с вашей стороны, они могут принять меры против вас. Так что будьте будьте осторожны и не удаляйте никакие интимные данные без разрешения владельца сайта).

Выберите любой редактор по вашему выбору, если я рекомендую, используйте Google Colab.

Google Colaboratory
Изменить описаниеcolab.research.google.com

Это очень настраиваемый редактор Google, который используется для анализа и визуализации данных, даже многие отраслевые эксперты также используют этот инструмент для своей работы.

Сначала импортируйте все необходимые библиотеки в этот колаб.

Эти команды загрузят все эти библиотеки, и теперь вы можете лучше использовать их.

request → позволяет отправлять HTTP запросы.

BeautifulSoup → для извлечения данных из файлов HTML и XML.

pandas → инструмент для анализа и обработки данных.

re →регулярное выражение указывает набор строк, которые ему соответствуют.

matplotlib → для двумерных графиков массивов.

Затем создайте переменный URL-адрес, который содержит ссылку на ваш веб-сайт внутри него, и получите все текстовое содержимое этого веб-сайта в своей переменной содержимого.

Теперь создайте переменную словаря, в которой вы собираетесь хранить все ссылки и заголовки с этого сайта.

После этого вам нужно разобрать контент в html, используя Beautiful Soup, и сохранить его в своем супе переменной.

Теперь зацикливаемся на всех тегах привязки и проверяем, больше ли текст ссылки, чем 1, и привязка начинается с HTTP, и игнорируются ссылки, которые содержат ключевые слова, ссылку на которые вы не хотите извлекать.

Затем сохраните текст ссылки в текстовой переменной словаря и ссылку внутри переменной ссылок.

Затем измените эту информацию в формате таблицы с помощью библиотеки pandas, установите индекс заголовка и сохраните эту таблицу в переменной blog_list.

Теперь вы можете проверить эту таблицу с помощью синтаксиса print(blog_list) и сохранить в файле csv, чтобы вы могли использовать ее вне colab, следуя приведенному ниже коду.

Вот и все, что нужно для простого извлечения любых данных веб-сайта. Будут некоторые проблемы с логикой для разных веб-сайтов, но основная концепция всего этого заключается только в этом.

Привет народ,

Вопросы по теме