Steam-Games-Dataset

Repositório dedicado ao controle de versionamento do Banco de Dados "Steam Games Dataset".

🎮 Steam ETL Pipeline

Este projeto consiste em um pipeline de Engenharia de dados completo para ingestão, processamento, importação e análise do dataset de jogos da Steam. O sistema envolve a leitura de dados brutos, normalização para um banco transacional (OLTP), criação de automatizações no PostgreSQL e transformação final para um Data Warehouse (OLAP/Star Schema).

🏗️ Arquitetura do Projeto

O pipeline foi desenhado para ser reproduzível via Docker.

Extract (Extração): Leitura de arquivo JSON (Steam Games Dataset) utilizando processamento em stream (ijson) para alta performance.
Transform (Transformação):
- Limpeza de dados (Data Cleaning) e tratamento de tipos.
- Normalização de dados (Terceira Forma Normal) para tabelas relacionais (games, publishers, developers).
Load (Carga):
- Modelagem Dimensional (Star Schema).
- Carga na Tabela Fato (fato_performance_steam) e Dimensões (dim_tempo, dim_jogo, dim_publisher).

📋 Pré-requisitos

Para rodar este projeto, você precisa apenas ter instalado na sua máquina:

Docker Desktop
Git (Para clonar o repositório)

Nota: Não é necessário instalar Python ou Airflow localmente. O Docker cuidará de todas as dependências.

🚀 Como Executar (Passo a Passo)

Siga estas instruções para subir o ambiente do zero.

1° Clone o Repositório

Rode o comando:

git clone https://github.com/HenriqueIgreja/Steam-Games-Dataset.git
cd Steam-Games-Dataset

2° Configure o arquivo config.py

Verifique o arquivo dags/Scripts_normalizacao/DML/config.py. O projeto está configurado para rodar no Docker conectando-se ao PostgreSQL local.

Host: host.docker.internal (Padrão para Docker comunicar com Windows/Mac)

Database: postgres (Banco padrão)

Senha: Certifique se a senha no arquivo bate com a senha do seu banco local, ou ajuste conforme necessário

3° Suba o Ambiente (Docker)

Com docker aberto, abra a raiz do projeto (onde está o docker-compose.yaml), e então execute: docker compose up -d

4° Acesse o Airflow

Abra seu navegador e acesse:

URL: http://localhost:8080

Usuário: airflow

Senha: airflow

5° Execute o Pipeline

Na lista de DAGs, procure por steam_etl_v1

Ative a DAG clicando no interruptor na esquerda.

Clique no botão play na direita e selecione "Trigger DAG".

6° Acompanhe o Processo

Clique no nome da DAG e vá para a aba "Graph". Você verá as tarefas sendo executadas:

✅ 0_instalar_libs: Instala dependências Python (ijson, psycopg2)

✅ 0.5_criar_database: Cria o banco de dados automaticamente se não existir

✅ 1_criar_estrutura: Cria/Recria as tabelas (OLTP e OLAP) e os objetos (Automações: triggers, view, etc)

✅ 2_popular_banco: Popula o banco transacional

✅ 2.5_criar_índices: Cria os índices para as tabelas OLTP

✅ 3_carregar_dw: Carrega o Data Warehouse

OBS: NÃO ESQUEÇA DE COLOCAR O ARQUIVO .JSON NA PASTA Scripts_normalizacao que se encontra na pasta ETL.

Outra maneira de rodar (Ainda faltando instruções aqui | Mais manual)

Importação dos Dados

Instale o Python 3.12+
Clone o repositório
Crie um ambiente virtual na pasta raiz do projeto com o comando py -m venv venv
Ative o ambiente com o comando venv\Scripts\activate
Instale as libs necessárias com o comando pip install psycopg2 ijson
Ajuste o arquivo config.py colocando sua senha corretamente.
Rode o arquivo main.py
Espere a importação de todos registros acabarem
Pronto!

📦 Entregável 1 — Dicionário de Dados Inicial (Concluído)

Objetivo

Compreender completamente a estrutura atual da base de dados original antes de qualquer alteração.

Checklist

Analisar a base de dados original (sem modificar nada)
Listar todas as tabelas existentes
Documentar cada coluna contendo:
- Tipo de dado
- Descrição
- Observações relevantes
Identificar todas as chaves:
Primárias
Estrangeiras
Criar o dicionário de dados (Excel, Word ou PDF)

Arquivo .csv contendo o Dicionário de Dados Inicial se encontra no caminho Dicionário_de_Dados_Inicial.

⚙️ Entregável 2 — Análise da Base, Ajustes e Indexação (Concluído)

Objetivo

Corrigir problemas estruturais, normalizar, ajustar relações e preparar um novo modelo consistente.

Checklist

🧩 Entregável 3 — Automatizações no PostgreSQL (Concluído)

Objetivo

Criar automações significativas que agreguem valor ao domínio da base.

Devem ser criados

3 Triggers
3 Functions
3 Views
3 Procedures

Regras

Automatizações devem ser coerentes com o domínio
Não pode ser trivial (ex.: SELECT simples)
Cada automação deve ter justificativa explicando:
- Por que existe
- Qual problema resolve
- Como melhora o sistema
Adicionar nova seção no novo dicionário de dados

🗄️ Entregável 4 — Modelagem do Data Warehouse (DW) (Concluído)

Objetivo

Desenvolver o DW usando modelagem dimensional.

Checklist

Escolher o tipo de modelagem (estrela, floco de neve etc.)
Criar pelo menos 1 tabela fato
Criar pelo menos 3 dimensões
Justificar o DW, explicando:
- Quais perguntas de negócio ele responde
- Qual valor analítico ele gera

🔄 Entregável 5 — ETL para popular o DW (Concluído)

Objetivo

Carregar o DW de forma automatizada utilizando uma ferramenta de ETL.

Ferramentas (escolher uma)

Apache NiFi
Apache Airflow
Pentaho
Kafka

Checklist

Desenvolver o pipeline de ETL
Popular o DW automaticamente
Garantir que o processo seja reproduzível
Demonstrar o funcionamento do ETL

⭐ Bônus (opcional, mas vale nota extra)

🎁 Bônus 1 — Backup Automático

Implementar backup com:
- pgBackRest
- ou pgBarman

📊 Bônus 2 — Monitoramento do Banco

Ferramentas possíveis

pgBadger
TemBoard
Prometheus + Grafana

Checklist

📈 Bônus 3 — Visualização Analítica

Criar dashboards usando Apache Superset com dados do DW

📌 Observações Importantes

Todas as entregas devem ser feitas pelo GitHub

A avaliação considerará:

Commits de cada aluno
Clareza no histórico do repositório

Cada aluno deve enviar:

Um vídeo de ~10 minutos explicando o que desenvolveu

Name		Name	Last commit message	Last commit date
Latest commit History 87 Commits
CSV		CSV
DW		DW
ETL		ETL
Objetos		Objetos
Scripts normalização		Scripts normalização
Vídeo Explicativo		Vídeo Explicativo
.gitignore		.gitignore
README.md		README.md

HenriqueIgreja/Steam-Games-Dataset

Folders and files

Latest commit

History

Repository files navigation

Steam-Games-Dataset

🎮 Steam ETL Pipeline

🏗️ Arquitetura do Projeto

📋 Pré-requisitos

🚀 Como Executar (Passo a Passo)

1° Clone o Repositório

2° Configure o arquivo config.py

3° Suba o Ambiente (Docker)

4° Acesse o Airflow

5° Execute o Pipeline

6° Acompanhe o Processo

Outra maneira de rodar (Ainda faltando instruções aqui | Mais manual)

Importação dos Dados

📦 Entregável 1 — Dicionário de Dados Inicial (Concluído)

Objetivo

Checklist

⚙️ Entregável 2 — Análise da Base, Ajustes e Indexação (Concluído)

Objetivo

Checklist

🧩 Entregável 3 — Automatizações no PostgreSQL (Concluído)

Objetivo

Devem ser criados

Regras

🗄️ Entregável 4 — Modelagem do Data Warehouse (DW) (Concluído)

Objetivo

Checklist

🔄 Entregável 5 — ETL para popular o DW (Concluído)

Objetivo

Ferramentas (escolher uma)

Checklist

⭐ Bônus (opcional, mas vale nota extra)

🎁 Bônus 1 — Backup Automático

📊 Bônus 2 — Monitoramento do Banco

Ferramentas possíveis

Checklist

📈 Bônus 3 — Visualização Analítica

📌 Observações Importantes

A avaliação considerará:

Cada aluno deve enviar:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Uh oh!

Languages

Packages