Skip to content

liapsps/avanti-bootcamp-cdd

Repository files navigation

Análise Exploratória de Dados: Conjunto de Dados de Diamantes

Este projeto realiza uma análise exploratória no conjunto de dados diamonds do pacote ggplot2 em R, abordando a composição e características dos diamantes com base em suas propriedades físicas e de qualidade.

Justificativa

A análise dos dados de diamantes é essencial tanto para o setor de joalheria quanto para os consumidores que buscam fazer escolhas informadas na compra desses produtos. A capacidade de prever o preço de um diamante com base em suas características (como peso, corte, cor, clareza, etc.) pode ajudar a indústria a otimizar os processos de fabricação e distribuição, além de ajudar os consumidores a escolherem diamantes que melhor atendam suas necessidades e orçamentos.

Além disso, entender os fatores que mais influenciam o preço de um diamante permite que os varejistas ofereçam produtos de forma mais eficiente, levando em consideração as tendências do mercado e as preferências do consumidor.

Neste projeto, serão abordadas questões como:

  • Quais variáveis mais influenciam o preço de um diamante?
  • Como podemos prever o preço de um diamante com base em suas características?
  • Existe uma tendência nos preços dos diamantes em relação ao ano de fabricação, tamanho ou qualidade do corte?

Metodologia

O projeto será desenvolvido utilizando a metodologia CRISP-DM, que inclui as seguintes etapas:

  1. Entendimento do Negócio: Compreensão da importância dos diamantes e suas características, e a necessidade de prever seu preço com base em atributos como peso (carat), qualidade do corte, cor, clareza, entre outros.

  2. Entendimento dos Dados: Análise do conjunto de dados diamonds para entender as variáveis presentes, sua estrutura, e identificar valores faltantes ou discrepantes.

  3. Preparação dos Dados: Limpeza dos dados, tratamento de valores ausentes e conversão de variáveis para tipos apropriados, além de explorar a distribuição das variáveis.

  4. Modelagem: Construção de modelos preditivos utilizando as variáveis para prever o preço de novos diamantes com base em suas características.

O projeto será dividido em duas entregas principais:

  1. Análise Exploratória de Dados (EDA): Entendimento das variáveis que influenciam o preço e identificação de padrões por meio de visualizações, hipóteses e insights.
  2. Análise Comparativa de Modelos: Construção e avaliação de modelos de aprendizado de máquina para previsão de preços de diamantes, com foco na precisão das previsões.

Estrutura do Notebook

O notebook de análise exploratória conterá as seguintes seções:

  1. Descrição dos Dados: Informações detalhadas sobre o conjunto de dados, incluindo a quantidade de instâncias, variáveis e seus tipos, além da identificação de valores faltantes. Será fornecido também um dicionário de dados.

  2. Perguntas de Partida e Hipóteses: Definição das perguntas que guiarão a análise, como:

  • Qual a relação entre o peso (carat) e o preço dos diamantes?
  • Como as variáveis cut, color e clarity afetam o preço?
  • Existe algum padrão de preço em relação ao ano de fabricação e outras características?
  1. Insights: Respostas às perguntas formuladas, com visualizações gráficas que evidenciam as relações entre as variáveis e a variação do preço com base nas características dos diamantes.

Resultados Esperados

Espera-se identificar as variáveis mais relevantes para o preço dos diamantes e fornecer insights úteis para consumidores e fabricantes. Além disso, será desenvolvido um modelo preditivo que possa estimar o preço de um diamante com base em suas características, ajudando na tomada de decisões tanto do ponto de vista comercial quanto para os consumidores.

Objetivos Finais

  • Exploração e visualização das principais variáveis que afetam o preço dos diamantes.
  • Estabelecimento de um conjunto de hipóteses para entender melhor a relação entre essas variáveis.
  • Desenvolvimento de um modelo preditivo para estimar o preço de novos diamantes, com base nas características observadas no conjunto de dados.

About

Repositório do Bootcamp Avanti

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published