Skip to content

Nickname-is-not-avaliable/Pandas_lections

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Конспекты лекций по курсу "Основы Pandas для начинающих"

👋 Добро пожаловать!

Важное примечание: примеры кода в этих конспектах отличаются от тех, что были в лекциях. Я создавал их самостоятельно.

Этот репозиторий содержит мои личные конспекты, которые я веду по мере прохождения курса. Вся демо-часть курса законспектирована. А также самые интересные на мой взгляд задачки (из 4 части) сохранены. Пользуйтесь!

Структура курса

  • Часть 1: Вводная Информация о курсе.
  • Часть 2: Основы NumPy — Создание, индексация и математические операции.
  • Часть 3: Введение в Pandas — Объекты Series и DataFrame, индексация, арифметика и базовые операции.
  • Часть 4: Pandas: работа с источниками данных
  • Часть 5: Pandas: чистка и подготовка данных к анализу

📘 Содержание Части 2: Основы NumPy

Первая часть полностью посвящена библиотеке NumPy — фундаменту для всех вычислений в анализе данных и машинном обучении на Python.

Ключевые темы, рассмотренные в конспекте:

  • Создание массивов: np.array, np.zeros, np.ones, np.arange и другие.
  • Атрибуты массива: .shape, .ndim, .dtype.
  • Типы данных: Явное и неявное приведение типов с помощью .astype().
  • Векторизация: Отличие арифметических операций в NumPy от стандартных списков Python.
  • Индексация и срезы:
    • Базовые срезы (arr[a:n]).
    • Многомерная индексация (arr[x, y]).
    • Булевы маски и логические операции.
    • "Причудливая" индексация (Fancy indexing).
  • Манипуляции с формой: .reshape(), .T (транспонирование).
  • Универсальные функции (ufunc): Математические, статистические и агрегирующие операции (np.sqrt, .sum(), .mean(), .max() и т.д.).
  • Основы линейной алгебры: Матричное умножение, определитель, обратная матрица.
  • Генерация случайных данных: Модуль np.random.

📘 Содержание Части 3: Введение в Pandas

Этот раздел посвящен основам библиотеки Pandas, ключевому инструменту для анализа данных в Python.

  • Объект Series (1D):
    • Создание из списков и словарей.
    • Индексация (включая неуникальные индексы).
    • Работа с пропущенными данными (NaN, isnull).
    • Автоматическое выравнивание данных по индексу при арифметических операциях.
  • Объект DataFrame (2D):
    • Создание из словарей, в том числе вложенных.
    • Гибкое управление столбцами (.columns) и строками (.index).
    • Удаление данных (del, .drop).
    • Транспонирование (.T).
  • Индексация и выбор данных:
    • Базовый выбор [] (для столбцов, срезов строк и масок).
    • Точный выбор по меткам: .loc.
    • Точный выбор по позициям: .iloc.
    • Быстрый скалярный доступ: .at и .iat.
  • Ключевые операции:
    • Изменение индексов: .reindex.
    • Сортировка: .sort_index() и .sort_values().
    • Арифметика с заполнением пропусков (.add с fill_value).
    • Операции между DataFrame и Series (broadcasting).
  • Описательные статистики и уникальные значения:
    • Агрегирующие функции (.sum, .mean) и их параметры (axis, skipna).
    • Сводная статистика: .describe().
    • Подсчет уникальных значений: .value_counts().
    • Фильтрация по вхождению: .isin().

📘 Содержание Части 4: Pandas: работа с источниками данных

Этот раздел посвящен чтению и записи данных в самых распространенных форматах.

  • Работа с CSV:
    • Чтение с помощью pd.read_csv() и его ключевые параметры: sep, header, names, index_col, skiprows, nrows.
    • Обработка пропущенных значений при чтении: na_values, keep_default_na.
    • Обработка больших файлов с помощью chunksize.
    • Запись данных с помощью df.to_csv().
  • Работа с JSON:
    • Чтение (pd.read_json()) и запись (df.to_json()).
    • Параметр orient для контроля структуры JSON.
    • Получение JSON-данных из веб-источников по URL с помощью библиотеки requests.
  • Чтение HTML и XML:
    • Чтение таблиц с веб-страниц с помощью pd.read_html().
    • Чтение данных из XML-файлов (pd.read_xml() или ручной парсинг с lxml).
  • Бинарные форматы: Pickle и HDF5:
    • Быстрое сохранение/чтение объектов Python с помощью pickle.
    • Работа с высокопроизводительным форматом HDF5 для больших наборов данных (HDFStore, to_hdf/read_hdf).
  • Работа с Excel:
    • Чтение листов из .xlsx файлов с помощью pd.read_excel() (sheet_name, header).
    • Запись одного или нескольких DataFrame в один Excel-файл с помощью pd.ExcelWriter.
  • Работа с базами данных:
    • Чтение данных из БД с помощью pd.read_sql() и библиотеки SQLAlchemy.
    • Запись DataFrame в SQL-таблицу с помощью df.to_sql() и управление существующими таблицами (if_exists).

📘 Содержание Части 5: Pandas: чистка и подготовка данных к анализу

Этот раздел посвящен ключевым техникам предобработки данных, которые необходимы для подготовки данных к анализу и моделированию.


Как использовать

Вы можете свободно просматривать файлы прямо в браузере или скачать репозиторий к себе на компьютер для локального доступа.

Для того чтобы скачать репозиторий с помощью git, вам сначала нужно его установить.

  1. Установите Git: Скачайте и установите его с официального сайта git-scm.com. Или в командной строке:

    winget install --id Git.Git -e --source winget
  2. Клонируйте репозиторий: Откройте терминал (командную строку), перейдите в папку, куда хотите сохранить проект, и выполните команду:

    git clone https://github.com/Nickname-is-not-avaliable/Pandas_lections

Предложения и исправления

Если вы заметили ошибку, опечатку или у вас есть предложение, как улучшить конспект, — смело создавайте Issue или Pull Request. Буду рад любой помощи.

About

Конспект лекций по курсу Основы Pandas для начинающих

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages