Простой парсер, предназначенный для получения информации с ресурса https://peps.python.org/ с помощью фреймворка Scrapy. В частности:
- получает ссылки на все документы PEP.
- формирует пул задач в рамках которого переходит на страницы каждого документа и собирает следующие данные:
- номер документа;
- название документа;
- статус документа.
- в результате работы формирует 2 отчета в формате csv:
- отчет по документам PEP(Python Enhancement Proposal) содержащий их номера, название и статусы;
- сводный отчет, сожержащий информацию по количеству докуентов с тем или иным статусом.
Выполните команду для клонирования и перехода в проект:
git clone https://github.com/4its/scrapy_parser_pep.git && cd scrapy_parser_pepДля создания и активации окружения:
python -m venv vevn %% source venv/bin/activateДля установки зависимостей, выполните команду:
pip install -r requirements.txtscrapy crawl pep