Análise Exploratória de Dados (AED) com R: Descubra Insights Ocultos!

Descubra tudo o que você precisa saber sobre a análise exploratória de dados, um processo fundamental para identificar tendências, padrões e resumir conjuntos de dados, empregando resumos estatísticos e representações gráficas.

Assim como qualquer projeto, um projeto de ciência de dados é uma jornada longa que exige tempo, organização e um cuidado rigoroso com as diversas etapas. A análise exploratória de dados (AED) é uma das fases mais cruciais desse processo.

Neste artigo, vamos explorar brevemente o conceito de análise exploratória de dados e como você pode implementá-la usando a linguagem R!

O que é Análise Exploratória de Dados?

A análise exploratória de dados é o processo de examinar e estudar as características de um conjunto de dados antes de sua aplicação, seja ela em um contexto comercial, estatístico ou de aprendizado de máquina.

Essa sumarização da natureza da informação e de suas principais particularidades é geralmente realizada por meio de métodos visuais, como representações gráficas e tabelas. Essa prática é executada de maneira antecipada, precisamente para avaliar o potencial desses dados, que serão submetidos a um tratamento mais complexo futuramente.

A AED possibilita:

  • Formular hipóteses para o uso dessas informações;
  • Explorar detalhes ocultos na estrutura dos dados;
  • Identificar valores ausentes, discrepâncias ou comportamentos anômalos;
  • Descobrir tendências e variáveis relevantes em um contexto geral;
  • Descartar variáveis irrelevantes ou correlacionadas com outras;
  • Definir o modelo formal a ser utilizado.

Qual a Diferença entre Análise de Dados Descritiva e Exploratória?

Existem dois tipos de análise de dados: a análise descritiva e a análise exploratória de dados, que caminham lado a lado, apesar de possuírem objetivos distintos.

Enquanto a primeira se concentra em descrever o comportamento das variáveis, por meio de medidas como média, mediana, moda, etc.,

A análise exploratória busca identificar relações entre variáveis, extrair insights preliminares e direcionar a modelagem para os paradigmas de aprendizado de máquina mais comuns: classificação, regressão e agrupamento.

Ambas podem utilizar representações gráficas; contudo, apenas a análise exploratória procura gerar insights acionáveis, ou seja, aqueles que levam o tomador de decisão a agir.

Em resumo, enquanto a análise exploratória de dados visa solucionar problemas e fornecer soluções que guiarão as etapas de modelagem, a análise descritiva, como o nome indica, tem o propósito de gerar uma descrição detalhada do conjunto de dados em questão.

Análise Descritiva Análise Exploratória de Dados
Analisa o comportamento Analisa comportamento e relações
Fornece um resumo Leva a especificações e ações
Organiza dados em tabelas e gráficos Organiza dados em tabelas e gráficos
Não possui um grande poder explicativo Possui um considerável poder explicativo

Casos Práticos de Uso da AED

#1. Marketing Digital

O marketing digital evoluiu de um processo criativo para uma abordagem orientada por dados. As organizações de marketing empregam a análise exploratória de dados para avaliar os resultados de campanhas e direcionar investimentos e decisões de segmentação de clientes.

Estudos demográficos, segmentação de clientes e outras técnicas permitem que os profissionais de marketing utilizem grandes volumes de dados de compras, pesquisas e painéis de consumidores para entender e comunicar a estratégia de marketing.

A análise exploratória da web permite que os profissionais de marketing coletem informações no nível da sessão sobre interações em um site. O Google Analytics é um exemplo de ferramenta de análise gratuita e popular para esse fim.

Técnicas exploratórias frequentemente utilizadas em marketing incluem modelagem de mix de marketing, análises de preços e promoções, otimização de vendas e análise exploratória de clientes, como segmentação.

#2. Análise Exploratória de Portfólio

Uma aplicação comum da análise exploratória de dados é a análise exploratória de portfólio. Um banco ou agência de crédito possui um conjunto de contas com valores e riscos variados.

As contas podem diferir dependendo do status social do titular (alto, médio, baixo), localização geográfica, patrimônio líquido e muitos outros fatores. O credor precisa equilibrar o retorno do empréstimo com o risco de inadimplência de cada um. O desafio reside em como avaliar o portfólio como um todo.

Empréstimos de menor risco podem ser direcionados a pessoas de alta renda, mas o número dessas pessoas é limitado. Por outro lado, muitas pessoas de baixa renda podem solicitar empréstimos, mas com um risco maior.

A análise exploratória de dados pode combinar a análise de séries temporais com outras abordagens para decidir quando emprestar a esses diferentes segmentos de mutuários e qual taxa de juros aplicar. Os juros são cobrados dos membros de um segmento da carteira para cobrir perdas entre os membros desse segmento.

#3. Análise Exploratória de Riscos

Modelos preditivos estão sendo desenvolvidos no setor bancário para fornecer estimativas de risco para clientes individuais. As pontuações de crédito são projetadas para prever o comportamento de inadimplência de um indivíduo e são amplamente utilizadas para avaliar a qualidade de crédito de cada solicitante.

A análise de risco também é realizada no mundo científico e no setor de seguros. Além disso, é amplamente utilizada por instituições financeiras, como empresas de gateway de pagamento online, para analisar se uma transação é genuína ou fraudulenta.

Para isso, utiliza-se o histórico de transações do cliente. É mais comum em compras com cartão de crédito: quando há um pico repentino no volume de transações do cliente, ele recebe uma ligação para confirmar se iniciou a transação. Isso ajuda a reduzir perdas devido a essas circunstâncias.

Análise Exploratória de Dados com R

O primeiro passo para realizar a AED com R é baixar o R base e o R Studio (IDE), em seguida, instalar e carregar os seguintes pacotes:

#Instalando Pacotes
install.packages("dplyr")
install.packages("ggplot2")
install.packages("magrittr")
install.packages("tsibble")
install.packages("forecast")
install.packages("skimr")

#Carregando Pacotes
library(dplyr)
library(ggplot2)
library(magrittr)
library(tsibble)
library(forecast)
library(skimr)

Para este tutorial, utilizaremos um conjunto de dados econômicos que já vem embutido no R, contendo dados de indicadores econômicos anuais dos EUA. Renomearemos o conjunto de dados para “econ” para simplificar:

econ <- ggplot2::economics

Para realizar a análise descritiva, utilizaremos o pacote skimr, que calcula essas estatísticas de forma simples e organizada:

#Análise Descritiva
skimr::skim(econ)

Você também pode utilizar a função “summary” para análise descritiva:

Aqui, a análise descritiva revela 547 linhas e 6 colunas no conjunto de dados. O valor mínimo é para 01-07-1967 e o máximo para 01-04-2015. Da mesma forma, também são apresentados o valor médio e o desvio padrão.

Agora você tem uma ideia básica do conteúdo do conjunto de dados “econ”. Vamos plotar um histograma da variável “uempmed” para analisar os dados de forma mais detalhada:

#Histograma do Desemprego
econ %>%
ggplot2::ggplot() +
ggplot2::aes(x = uempmed) +
ggplot2::geom_histogram() +
labs(x = "Desemprego", title = "Taxa Mensal de Desemprego nos EUA entre 1967 e 2015")

A distribuição do histograma mostra que ele possui uma cauda alongada à direita; ou seja, possivelmente existem algumas observações dessa variável com valores mais “extremos”. Surge a pergunta: em que período esses valores ocorreram e qual é a tendência da variável?

A forma mais direta de identificar a tendência de uma variável é por meio de um gráfico de linhas. Abaixo, geramos um gráfico de linhas e adicionamos uma linha de suavização:

#Gráfico de Linhas do Desemprego
econ %>%
ggplot2::autoplot(uempmed) +
ggplot2::geom_smooth()

Nesse gráfico, podemos observar que, no período mais recente, nas últimas observações de 2010, há uma tendência de aumento do desemprego, superando o histórico observado nas décadas anteriores.

Outro ponto importante, principalmente em contextos de modelagem econométrica, é a estacionariedade das séries; isto é, a média e a variância são constantes ao longo do tempo?

Quando essas suposições não são válidas para uma variável, dizemos que a série tem uma raiz unitária (não estacionária), de modo que choques que a variável sofre geram um efeito permanente.

Parece ser o caso da variável em questão, a duração do desemprego. Vimos que as flutuações da variável mudaram consideravelmente, o que tem fortes implicações relacionadas às teorias econômicas sobre ciclos. Mas, deixando a teoria de lado, como verificamos na prática se a variável é estacionária?

O pacote “forecast” oferece uma excelente função que permite aplicar testes, como ADF, KPSS, e outros, que já retornam o número de diferenças necessárias para que a série seja estacionária:

#Utilizando o Teste ADF para Verificar a Estacionariedade
forecast::ndiffs(
x = econ$uempmed,
test = "adf")

Nesse caso, um valor de p maior que 0,05 indica que os dados não são estacionários.

Outra questão relevante em séries temporais é a identificação de possíveis correlações (relações lineares) entre os valores defasados da série. Os correlogramas ACF e PACF ajudam nessa identificação.

Como a série não apresenta sazonalidade, mas possui uma certa tendência, as autocorrelações iniciais tendem a ser grandes e positivas, pois as observações próximas no tempo também tendem a ter valores próximos.

Assim, a função de autocorrelação (ACF) de uma série temporal com tendência tende a ter valores positivos que diminuem lentamente à medida que as defasagens aumentam.

#Resíduos do Desemprego
checkresiduals(econ$uempmed)
pacf(econ$uempmed)

Conclusão

Ao lidarmos com dados mais ou menos limpos, ou seja, já tratados, sentimos uma vontade imediata de avançar para a etapa de construção do modelo para obter os primeiros resultados. É necessário resistir a essa tentação e iniciar uma análise exploratória de dados, que, apesar de simples, nos ajuda a obter informações valiosas sobre os dados.

Você também pode explorar alguns dos melhores recursos para aprender estatísticas para ciência de dados.