Skip to content

Новостной парсер. Для проекта "Сириус ИИ"

Notifications You must be signed in to change notification settings

ValekusVachpekus/parser

Repository files navigation

Парсер новостей

Парсер новостных сайтов, разработанный с использованием Python. Позволяет собирать статьи из различных источников на основе пользовательского ввода.

Возможности

  • Парсинг популярных российских новостных ресурсов:
    • РБК
    • Медуза
    • Хабр
    • Лента.ру
    • Mail.ru
    • КоммерсантЪ
    • Другие сайты (некоторые скрипты временно не работают, помечены комментариями в коде).
  • Асинхронная загрузка данных.
  • Фильтрация контента по ключевым словам.
  • Сохранение статей в текстовые файлы.

Технологический стек

  • Python — основной язык разработки.
  • Requests — для выполнения HTTP-запросов.
  • BeautifulSoup — для обработки HTML и поиска данных на страницах.

Установка и использование

  1. Убедитесь, что у вас установлен Python 3.7+.
  2. Клонируйте репозиторий:
    git clone https://github.com/ValekusVachpekus/parser.git
  3. Установите зависимости:
    pip install -r requirements.txt
  4. Запустите нужный скрипт и введите текст для поиска:
    python parser_rbc.py

Примечания

  • Некоторые скрипты могут требовать отдельных доработок для корректной работы с новыми форматами сайтов.
  • В проекте предоставлены заготовки для будущих улучшений.

Автор

About

Новостной парсер. Для проекта "Сириус ИИ"

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages