Этот парсер помогает быть в курсе новостей в мире Python. Он выполняет четыре функции:
- собирает ссылки на статьи о нововведениях в Python, переходит по ним и забирает информацию об авторах и редакторах статей;
- собирает информацию о статусах версий Python;
- скачивает архив с актуальной документацией;
- собирает данные о документах PEP, считает их количество в каждом статусе и общее количество PEP и сравнивает статусы на главной странице со статусами в отдельной карточке PEP.
Парсер работает в разных режимах через аргументы командной строки. В него включено логирование и обработка ошибок.
- Клонируйте репозиторий и перейдите в него:
git clone [email protected]:photometer/bs4_parser_pep.git
cd bs4_parser pep- Cоздайте и активируйте виртуальное окружение:
python -m venv env
. venv/scripts/activate- Обновите
pipи установите зависимости из файлаrequirements.txt:
python -m pip install --upgrade pip
pip install -r requirements.txt-
Запустите парсера:
- либо из корня проекта:
python src/main.py {режим работы парсера} [-ключ аргумент]- либо из директории с программой:
cd src python main.py {режим работы парсера} [-ключ аргумент]
-
Этот парсер поможет быть в курсе важных изменений между основными версиями Python. Для этого он собирает ссылки на статьи о нововведениях и достает из них справочную информацию (обычно это имя автора или редактора статьи, но может быть, например, ещё дата публикации и версия Python:
python main.py whats-new [-ключ аргумент]
-
Этот парсер собирает информацию о версиях Python — номера, статусы (in development, pre-release, stable и так далее) и ссылки на документацию.
python main.py latest-versions [-ключ аргумент]
-
Этот парсер скачивает архив с документацией Python на ваш локальный диск.
python main.py download [-ключ аргумент]
-
Этот парсер получает данные обо всех документах PEP, сравнивает статус на странице PEP со статусом в общем списке (при несоответсвии информация выводится в логи), подсчитывает количество PEP в каждом статусе и общее количество PEP.
python main.py pep [-ключ аргумент]
- Справка о режимах работы парсера и синтаксисе:
-h, --help
python main.py -h- Очистка кеша перед выполнением парсинга:
-c, --clear-cache
python main.py {режим работы парсера} -c-
Дополнительные способы вывода данных (для всех режимов работы, кроме
download):-o {pretty,file}, --output {pretty,file}pretty- выводит данные в командной строке в таблице
python main.py {режим работы парсера} -o prettyfile- сохраняет информацию в файл.csvв папкуresults/
python main.py {режим работы парсера} -o file