Всем привет! В этом посте я хочу поделиться с вами своим опытом веб-скрейпинга в качестве разработчика интерфейса и тем, чем он может быть полезен для вас, так что давайте начнем!

При разработке личных проектов одной из самых больших проблем, с которыми мы сталкиваемся, является отсутствие данных для отображения на наших веб-сайтах. Поскольку проекты являются полностью независимыми, сложные внутренние операции, такие как проверка пользователей, сложные базы данных и веб-сокеты, несколько выпадают из нашего поля зрения и не могут быть реализованы в этих проектах.

Чтобы решить эту проблему, разработчики по всему миру разработали API с открытым исходным кодом для предоставления нам этих данных. С этими API становится проще самостоятельно создавать интересные веб-сайты. Один пример, который сразу же приходит мне на ум, — это серповидный рост общедоступных API для отслеживания данных о COVID-19.

Хотя это чрезвычайно полезно, не существует единого общедоступного API для каждой темы, и снова в игру вступает нехватка данных. Чтобы решить эту проблему, я нашел решение — веб-скрапинг. Используя свои знания javascript и несколько случайных ускоренных курсов NodeJS, я смог разрабатывать API в реальном времени, не беспокоясь о сложных внутренних темах, поскольку это не моя сфера деятельности.

Чтобы объяснить функциональность парсеров, я буду использовать ситуацию, которая произошла со мной в моем последнем проекте. Я хотел разработать платформу для чтения веб-новелл, так как люблю романы, но не смог найти подходящего места для их чтения. При поиске централизованного веб-сайта пользовательский интерфейс был полностью устаревшим и не радовал глаз, что побудило меня создать свою собственную платформу, без рекламы и с чистым интерфейсом. Проблема возникла при поиске данных для этого. Большинство API, доступных на GitHub, были на китайском языке, и я не знаю, как вы, но я не знаю ни одного китайского языка, поэтому я вернулся к этапу 0.

После некоторых онлайн-исследований я обнаружил, что разработка API на базе Puppeteer, безголового браузера с открытым исходным кодом, чрезвычайно проста, поэтому я попробовал. Затем этот API должен был пройти через Интернет и получить запрошенные данные. Менее чем через неделю у меня был готов API, и я смог самостоятельно разработать полностью готовый к работе веб-сайт.

Ниже вы можете ознакомиться с конечным результатом для этого конкретного приложения!

И вот так, дамы и господа, фронтенд-разработчики, такие как я, могут разрабатывать более масштабные проекты для своего портфолио. Спасибо за Ваше внимание! Для дальнейшего исследования, пожалуйста, проверьте ссылку ниже.

Как парсить с помощью puppeteer: https://medium.com/@rexben/introduction-to-web-scraping-with-puppeteer-1465b89fcf0b