Skip to content

Простой парсер на Scrapy, иллюстрирующий как можно получать данные с помощью FW Scrapy на языке Python

Notifications You must be signed in to change notification settings

4its/scrapy_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

34 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проект асинхронного парсера страниц pep.

Простой парсер, предназначенный для получения информации с ресурса https://peps.python.org/ с помощью фреймворка Scrapy. В частности:

  • получает ссылки на все документы PEP.
  • формирует пул задач в рамках которого переходит на страницы каждого документа и собирает следующие данные:
    • номер документа;
    • название документа;
    • статус документа.
  • в результате работы формирует 2 отчета в формате csv:
    • отчет по документам PEP(Python Enhancement Proposal) содержащий их номера, название и статусы;
    • сводный отчет, сожержащий информацию по количеству докуентов с тем или иным статусом.

Технологии

Использование

Клонирование проекта

Выполните команду для клонирования и перехода в проект:

git clone https://github.com/4its/scrapy_parser_pep.git && cd scrapy_parser_pep

Виртуальное окружение

Для создания и активации окружения:

python -m venv vevn %% source venv/bin/activate

Установка зависимостей

Для установки зависимостей, выполните команду:

pip install -r requirements.txt

Запуск парсера

scrapy crawl pep       

Разработчик проекта

About

Простой парсер на Scrapy, иллюстрирующий как можно получать данные с помощью FW Scrapy на языке Python

Topics

Resources

Stars

Watchers

Forks

Languages