TrilhaDataScience

Trilha de conhecimentos para data science.

1 - Fundamentos

OLAP

ETL

XML

JSON

REGEX

Abreviação de Regular Expression, em portugêns expressão regular.

"O termo deriva do trabalho do matemático norte-americano Stephen Cole Kleene, que desenvolveu as expressões regulares como uma notação ao que ele chamava de álgebra de conjuntos regulares. Seu trabalho serviu de base para os primeiros algoritmos computacionais de busca, e depois para algumas das mais antigas ferramentas de tratamento de texto da plataforma Unix. (Wikipédia)

É uma notação para busca de caracteres em cadeia. Muito utilizado em programação para busca de palavras, sequências numéricas, trechos de código, validação de entradas e várias outras aplicações. Muitas linguagem tem REGEX nativo. Existem diversos testadores online para desenvolvimento de e aprendizado de expressões.

Exemplos

2 - Estatística

3 - Programação

Python Basics

Pequenas aplicações em python nível iniciante. Trata-se de um jogo de forca e um jogo de adivinhação, feitos sob orientação durante o curso de Python da plataforma Alura.

FORCA: Aplicação onde é apresentado uma palavra secreta apresentando o número de letras da palavras e solicitando a entrada de uma letra. Acertando, os espaços são preenchidos, errando, é preenchido as partes do bonequinho na forca. FORCA

ADVINHAÇÃO: É apresentado os níveis de dificuldade para escolha. O usuário tem, algumas chances de erro para acertar o número sorteado aleatóriamente entre 1 e 100. A cada erro, é apresentado a dica se o chute foi mais baixo ou mais alto que o número oculto. ADIVINHAÇÃO

Todo o projeto está neste link. JOGOS

Working in Excel

R Basics

4 - Machine Learning

Data Mining

É o processo de descoberta de novas e significativas correlações, padrões e tendências em grandes volumes de dados, através do uso de técnicas de reconhecimento de padrões, estatística e outras ferramentas matemáticas. (Gartner Group) O objetivo principal é a extração de conhecimento, não levando em conta o tempo ou a natureza das atividades para esta tarefa.

Machile Learning

É uma técnica para descoberta de padrões que utiliza algorítimos para extrair informações de dados brutos e representá-los através de algum tipo de modelo matemático. Este modelo é então usado para fazer inferências em outros conjuntos de dados. Machine Learning é uma técnica de Data Mining (mineração de dados).

Variáveis

As variáveis podem ser classificadas em qualitativas e quantitativas

Qualitativas estão ligados a característica da informação. Podem ser ordinais e nominais. 1. Ordinais quando existir uma ordem implícita. Classe social, grau de instrução, estágio de doença. 2. Nominais quando exprimem uma característica. Cor dos olhos, fumante ou não fumante, doente ou sadio.

Quantitativa estão relacionadas a números e medidas. Podem ser discretas ou contínuas. 1. Discretas quando forem finitas e enumeráveis. Quantidade de filhos, número de dias de execução. 2. Contínuas quando pertencem a um intervalo de números reais ou são resultados de medidas. Peso, altura, salário.

Variáveis Categóricas

Quando é possível separar as váriáveis em grupos, finito e distintos.Podendo ou não ter uma ordem lógica.

Exemplos:

Um grupo de flores pode ser categorizado em classes de cor, espécie...

Um grupo de carros pose ser categorizado em classes de cor, marca, modelo, ano...

Aprendizado supervisionado

O modelo de conhecimento é construído a partir de dados apresentados na forma de pares ordenados onde existe uma entrada de dados e uma sáda esperada. O algorítimo é treinado com um número suficiente de exemplos como objetivo de mapear a regra geral das entras com as saídas. Depois, aplica-se ester modelo para entradas que não possuem a saiída, para que seja inferido pelo algorítimo. Os modelos supervisionados são divididos em modelos de clasificação e de regressão.

Classificação: busca uma funçaõ matemática capaz de associar corretamente uma entrada de um conjunto único de dados a um único rótulo demoninado classe. O resultado será sempre uma classe. Um exemplo é mapear um perfil para classeificar uma pessoa em um perfil de bom pagador ou de mal pagador para decisão se lhe pode conceder empréstimo ou não.

Regressão: é semelhante a classificação, porém o resultado retorna um resultado numérico, podendo ser contínuo ou discreto. A saída deve ser o mais próximo possível do resultado desejado e fornecer uma medida de erro de estimaçao do algorítimo. Um exemplo de regressão é, saebr quanto de crédito oferecer para um cliente. A resposta é um número único.

Aprendizado não supervisionado

O modelo é construído para analisar grupo e padrões, sem ter um objetivo objetivo específico a ser alcançado, não tem uma saída mapeada. É dividi em Agrupamento e Associação.

Agrupamento:

Associação:

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
README.md		README.md

israelss1-git/TrilhaDataScience

Folders and files

Latest commit

History

Repository files navigation

TrilhaDataScience

1 - Fundamentos

OLAP

ETL

XML

JSON

REGEX

2 - Estatística

3 - Programação

Python Basics

Working in Excel

R Basics

4 - Machine Learning

Data Mining

Machile Learning

Variáveis

Variáveis Categóricas

Aprendizado supervisionado

Aprendizado não supervisionado

Atributos

Base de treino e base de teste

Classificação

Predição

Lift ?

Overfitting

Bias & Variance

Árvore de classificação

5 - Text Mining / NPL

6 - Visualização

7 - Big Data

8 - Data Ingestion

9 - Data Munging

10 - Tool Box

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages