Парсер новостных сайтов, разработанный с использованием Python. Позволяет собирать статьи из различных источников на основе пользовательского ввода.
- Парсинг популярных российских новостных ресурсов:
- РБК
- Медуза
- Хабр
- Лента.ру
- Mail.ru
- КоммерсантЪ
- Другие сайты (некоторые скрипты временно не работают, помечены комментариями в коде).
- Асинхронная загрузка данных.
- Фильтрация контента по ключевым словам.
- Сохранение статей в текстовые файлы.
- Python — основной язык разработки.
- Requests — для выполнения HTTP-запросов.
- BeautifulSoup — для обработки HTML и поиска данных на страницах.
- Убедитесь, что у вас установлен Python 3.7+.
- Клонируйте репозиторий:
git clone https://github.com/ValekusVachpekus/parser.git
- Установите зависимости:
pip install -r requirements.txt
- Запустите нужный скрипт и введите текст для поиска:
python parser_rbc.py
- Некоторые скрипты могут требовать отдельных доработок для корректной работы с новыми форматами сайтов.
- В проекте предоставлены заготовки для будущих улучшений.