Конспекты лекций по курсу "Основы Pandas для начинающих"

👋 Добро пожаловать!

Важное примечание: примеры кода в этих конспектах отличаются от тех, что были в лекциях. Я создавал их самостоятельно.

Этот репозиторий содержит мои личные конспекты, которые я веду по мере прохождения курса. Вся демо-часть курса законспектирована. А также самые интересные на мой взгляд задачки (из 4 части) сохранены. Пользуйтесь!

Структура курса

Часть 1: Вводная Информация о курсе.
Часть 2: Основы NumPy — Создание, индексация и математические операции.
Часть 3: Введение в Pandas — Объекты Series и DataFrame, индексация, арифметика и базовые операции.
Часть 4: Pandas: работа с источниками данных
Часть 5: Pandas: чистка и подготовка данных к анализу

📘 Содержание Части 2: Основы NumPy

Первая часть полностью посвящена библиотеке NumPy — фундаменту для всех вычислений в анализе данных и машинном обучении на Python.

Ключевые темы, рассмотренные в конспекте:

Создание массивов: np.array, np.zeros, np.ones, np.arange и другие.
Атрибуты массива: .shape, .ndim, .dtype.
Типы данных: Явное и неявное приведение типов с помощью .astype().
Векторизация: Отличие арифметических операций в NumPy от стандартных списков Python.
Индексация и срезы:
- Базовые срезы (arr[a:n]).
- Многомерная индексация (arr[x, y]).
- Булевы маски и логические операции.
- "Причудливая" индексация (Fancy indexing).
Манипуляции с формой: .reshape(), .T (транспонирование).
Универсальные функции (ufunc): Математические, статистические и агрегирующие операции (np.sqrt, .sum(), .mean(), .max() и т.д.).
Основы линейной алгебры: Матричное умножение, определитель, обратная матрица.
Генерация случайных данных: Модуль np.random.

📘 Содержание Части 3: Введение в Pandas

Этот раздел посвящен основам библиотеки Pandas, ключевому инструменту для анализа данных в Python.

Объект Series (1D):
- Создание из списков и словарей.
- Индексация (включая неуникальные индексы).
- Работа с пропущенными данными (NaN, isnull).
- Автоматическое выравнивание данных по индексу при арифметических операциях.
Объект DataFrame (2D):
- Создание из словарей, в том числе вложенных.
- Гибкое управление столбцами (.columns) и строками (.index).
- Удаление данных (del, .drop).
- Транспонирование (.T).
Индексация и выбор данных:
- Базовый выбор [] (для столбцов, срезов строк и масок).
- Точный выбор по меткам: .loc.
- Точный выбор по позициям: .iloc.
- Быстрый скалярный доступ: .at и .iat.
Ключевые операции:
- Изменение индексов: .reindex.
- Сортировка: .sort_index() и .sort_values().
- Арифметика с заполнением пропусков (.add с fill_value).
- Операции между DataFrame и Series (broadcasting).
Описательные статистики и уникальные значения:
- Агрегирующие функции (.sum, .mean) и их параметры (axis, skipna).
- Сводная статистика: .describe().
- Подсчет уникальных значений: .value_counts().
- Фильтрация по вхождению: .isin().

📘 Содержание Части 4: Pandas: работа с источниками данных

Этот раздел посвящен чтению и записи данных в самых распространенных форматах.

Работа с CSV:
- Чтение с помощью pd.read_csv() и его ключевые параметры: sep, header, names, index_col, skiprows, nrows.
- Обработка пропущенных значений при чтении: na_values, keep_default_na.
- Обработка больших файлов с помощью chunksize.
- Запись данных с помощью df.to_csv().
Работа с JSON:
- Чтение (pd.read_json()) и запись (df.to_json()).
- Параметр orient для контроля структуры JSON.
- Получение JSON-данных из веб-источников по URL с помощью библиотеки requests.
Чтение HTML и XML:
- Чтение таблиц с веб-страниц с помощью pd.read_html().
- Чтение данных из XML-файлов (pd.read_xml() или ручной парсинг с lxml).
Бинарные форматы: Pickle и HDF5:
- Быстрое сохранение/чтение объектов Python с помощью pickle.
- Работа с высокопроизводительным форматом HDF5 для больших наборов данных (HDFStore, to_hdf/read_hdf).
Работа с Excel:
- Чтение листов из .xlsx файлов с помощью pd.read_excel() (sheet_name, header).
- Запись одного или нескольких DataFrame в один Excel-файл с помощью pd.ExcelWriter.
Работа с базами данных:
- Чтение данных из БД с помощью pd.read_sql() и библиотеки SQLAlchemy.
- Запись DataFrame в SQL-таблицу с помощью df.to_sql() и управление существующими таблицами (if_exists).

📘 Содержание Части 5: Pandas: чистка и подготовка данных к анализу

Этот раздел посвящен ключевым техникам предобработки данных, которые необходимы для подготовки данных к анализу и моделированию.

Работа с пропущенными значениями:
- Обнаружение пропусков: .isnull(), .notnull().
- Удаление пропусков: .dropna() с параметрами axis, how, thresh.
- Заполнение пропусков: .fillna() со значениями, словарями, методами (ffill, bfill) и статистиками (.mean()).
Удаление дубликатов:
- Обнаружение дублей: .duplicated().
- Удаление дублей: .drop_duplicates() с параметрами subset и keep.
Преобразование данных:
- Замена значений: .replace().
- Переименование индексов и столбцов: .rename(), .map().
- Применение функций к данным: .map().
Дискретизация и группировка:
- Разбивка на интервалы: pd.cut() для группировки по заданным границам.
- Разбивка по квантилям: pd.qcut() для создания групп с равным количеством элементов.
Обнаружение и обработка выбросов:
- Идентификация с помощью .describe() и булевых масок.
- Замена или ограничение выбросов с помощью .clip().
- Перемешивание и случайная выборка: np.random.permutation(), .take(), .sample().
Создание фиктивных переменных (One-Hot Encoding):
- Автоматическое создание с помощью pd.get_dummies().
- Создание для ячеек с несколькими категориями с помощью .str.get_dummies().
Векторизованные строковые операции:
- Использование accessor'а .str для безопасной работы со строками.
- Методы .str.replace(), .str.contains(), .str.startswith(), .str.upper() и другие.

Как использовать

Вы можете свободно просматривать файлы прямо в браузере или скачать репозиторий к себе на компьютер для локального доступа.

Для того чтобы скачать репозиторий с помощью git, вам сначала нужно его установить.

Установите Git: Скачайте и установите его с официального сайта git-scm.com. Или в командной строке:
```
winget install --id Git.Git -e --source winget
```
Клонируйте репозиторий: Откройте терминал (командную строку), перейдите в папку, куда хотите сохранить проект, и выполните команду:
```
git clone https://github.com/Nickname-is-not-avaliable/Pandas_lections
```

Предложения и исправления

Если вы заметили ошибку, опечатку или у вас есть предложение, как улучшить конспект, — смело создавайте Issue или Pull Request. Буду рад любой помощи.

Name		Name	Last commit message	Last commit date
Latest commit History 135 Commits
lesson 2		lesson 2
lesson 3		lesson 3
lesson 4		lesson 4
lesson 5		lesson 5
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Конспекты лекций по курсу "Основы Pandas для начинающих"

Структура курса

📘 Содержание Части 2: Основы NumPy

📘 Содержание Части 3: Введение в Pandas

📘 Содержание Части 4: Pandas: работа с источниками данных

📘 Содержание Части 5: Pandas: чистка и подготовка данных к анализу

Как использовать

Предложения и исправления

About

Uh oh!

Releases

Packages

Languages

Nickname-is-not-avaliable/Pandas_lections

Folders and files

Latest commit

History

Repository files navigation

Конспекты лекций по курсу "Основы Pandas для начинающих"

Структура курса

📘 Содержание Части 2: Основы NumPy

📘 Содержание Части 3: Введение в Pandas

📘 Содержание Части 4: Pandas: работа с источниками данных

📘 Содержание Части 5: Pandas: чистка и подготовка данных к анализу

Как использовать

Предложения и исправления

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages