Este repositório contém o material de apoio para o livro "Sanice: Data Science Ágil para Quem Tem Pressa". Aqui você encontrará os datasets utilizados nos exemplos práticos, os scripts comentados de cada capítulo e o projeto de conclusão (Capstone).
O objetivo deste material é garantir que você foque na resolução de problemas e na estratégia de dados, eliminando a barreira da sintaxe repetitiva através do framework S.A.N.I.C.E. (Sistema Automatizado de Normalização, Inteligência Computacional e Estatística).
Este repositório contém os arquivos de dados e gabaritos utilizados nos exemplos práticos do livro.
Seguindo a organização proposta no livro, o repositório está estruturado da seguinte forma:
/data:
raw/: Arquivos CSV brutos (como o vendas_jan_2025.csv e o listings.csv do Airbnb).
processed/: Resultados das etapas de limpeza e engenharia de features.
/chapters: Scripts individuais de cada capítulo (Cap 01 ao 10), incluindo o código da API e o Torneio de Modelos.
/models: Onde o seu "Cérebro Digital" (.pkl) será salvo após o treinamento do AutoML.
- Descrição: Dataset de vendas de e-commerce fictício.
- Contém: 1.000 linhas.
- Desafios: Datas em string, valores nulos e formatação de moeda mista (para testar limpeza).
- Descrição: Dados reais do Airbnb (Rio de Janeiro).
- Contém: Informações de imóveis, preços, reviews e características.
- Fonte: Inside Airbnb.
Como usar este repositório
Clone o projeto:
git clone https://github.com/wSanice/sanice-book-datasets.gitInstale o framework Sanice (v1.0.10+):
pip install "sanice[api,db]"Acompanhe os capítulos: Cada script na pasta /chapters corresponde a um estágio da jornada "Do Caos à Inteligência".