Como fazer Análise Exploratória de Dados (EDA) em R (com exemplos)

Aprenda tudo o que você precisa saber sobre análise exploratória de dados, um processo crítico usado para descobrir tendências e padrões e resumir conjuntos de dados com a ajuda de resumos estatísticos e representações gráficas.

Como qualquer projeto, um projeto de ciência de dados é um processo longo que requer tempo, boa organização e respeito escrupuloso por várias etapas. A análise exploratória de dados (EDA) é uma das etapas mais importantes nesse processo.

Portanto, neste artigo, veremos brevemente o que é análise exploratória de dados e como você pode realizá-la com o R!

O que é Análise Exploratória de Dados?

A análise exploratória de dados examina e estuda as características de um conjunto de dados antes de ser submetido a um aplicativo, seja exclusivamente comercial, estatístico ou de aprendizado de máquina.

Esse resumo da natureza da informação e suas principais particularidades é geralmente feito por métodos visuais, como representações gráficas e tabelas. A prática é realizada antecipadamente justamente para avaliar o potencial desses dados, que receberão um tratamento mais complexo no futuro.

A EDA permite, portanto:

  • Formular hipóteses para o uso dessas informações;
  • Explore detalhes ocultos na estrutura de dados;
  • Identifique valores ausentes, discrepâncias ou comportamentos anormais;
  • Descubra tendências e variáveis ​​relevantes como um todo;
  • Descarte variáveis ​​irrelevantes ou correlacionadas com outras;
  • Determine a modelagem formal a ser usada.

Qual é a diferença entre análise de dados descritiva e exploratória?

Existem dois tipos de análise de dados, análise descritiva e análise exploratória de dados, que caminham lado a lado, apesar de terem objetivos diferentes.

Enquanto o primeiro se concentra em descrever o comportamento das variáveis, por exemplo, média, mediana, moda, etc.

A análise exploratória visa identificar relações entre variáveis, extrair insights preliminares e direcionar a modelagem para os paradigmas de aprendizado de máquina mais comuns: classificação, regressão e clustering.

Em comum, ambos podem tratar da representação gráfica; entretanto, apenas a análise exploratória busca trazer insights acionáveis, ou seja, insights que provoquem a ação do tomador de decisão.

  Como personalizar a barra de ferramentas de acesso rápido em aplicativos do Microsoft Office

Por fim, enquanto a análise exploratória de dados busca solucionar problemas e trazer soluções que nortearão as etapas de modelagem, a análise descritiva, como o próprio nome indica, visa apenas produzir uma descrição detalhada do conjunto de dados em questão.

Análise DescritivaAnálise Exploratória de DadosAnalisa comportamentoAnalisa comportamento e relacionamentoFornece um resumo Leva a especificações e açõesOrganiza dados em tabelas e gráficosOrganiza dados em tabelas e gráficosNão tem poder explicativo significativoTem poder explicativo significativo

Alguns Casos de Usos Práticos da EDA

#1. Marketing digital

O Marketing Digital evoluiu de um processo criativo para um processo orientado a dados. As organizações de marketing usam a análise exploratória de dados para determinar os resultados de campanhas ou esforços e para orientar o investimento do consumidor e as decisões de direcionamento.

Estudos demográficos, segmentação de clientes e outras técnicas permitem que os profissionais de marketing usem grandes quantidades de compras de consumidores, pesquisas e dados de painel para entender e comunicar a estratégia de marketing.

A análise exploratória da Web permite que os profissionais de marketing coletem informações em nível de sessão sobre interações em um site. O Google Analytics é um exemplo de ferramenta de análise gratuita e popular que os profissionais de marketing usam para essa finalidade.

As técnicas exploratórias frequentemente usadas em marketing incluem modelagem de mix de marketing, análises de preços e promoções, otimização de vendas e análise exploratória de clientes, por exemplo, segmentação.

#2. Análise Exploratória de Portfólio

Uma aplicação comum da análise exploratória de dados é a análise exploratória de portfólio. Um banco ou agência de crédito tem uma coleção de contas de valor e risco variados.

As contas podem diferir dependendo do status social do titular (rico, classe média, pobre etc.), localização geográfica, patrimônio líquido e muitos outros fatores. O credor deve equilibrar o retorno do empréstimo com o risco de inadimplência de cada empréstimo. A questão então passa a ser como avaliar o portfólio como um todo.

O empréstimo de menor risco pode ser para pessoas muito ricas, mas há um número muito limitado de pessoas ricas. Por outro lado, muitos pobres podem emprestar, mas com maior risco.

A solução de análise exploratória de dados pode combinar a análise de séries temporais com muitos outros problemas para decidir quando emprestar dinheiro a esses diferentes segmentos de mutuários ou a taxa de empréstimo. Os juros são cobrados dos membros de um segmento da carteira para cobrir perdas entre os membros desse segmento.

  Como você exclui mensagens no aplicativo Reddit

#3. Análise Exploratória de Riscos

Modelos preditivos no setor bancário estão sendo desenvolvidos para fornecer certeza sobre as pontuações de risco para clientes individuais. As pontuações de crédito são projetadas para prever o comportamento inadimplente de um indivíduo e são amplamente utilizadas para avaliar a qualidade de crédito de cada solicitante.

Além disso, a análise de risco é realizada no mundo científico e no setor de seguros. Também é amplamente utilizado em instituições financeiras, como empresas de gateway de pagamento online, para analisar se uma transação é genuína ou fraudulenta.

Para isso, eles usam o histórico de transações do cliente. É mais comumente usado em compras com cartão de crédito; quando há um pico repentino no volume de transações do cliente, o cliente recebe uma chamada de confirmação se ele iniciou a transação. Também ajuda a reduzir as perdas devido a tais circunstâncias.

Análise Exploratória de Dados com R

A primeira coisa que você precisa para realizar o EDA com R é baixar o R ​​base e o R Studio (IDE), seguido de instalar e carregar os seguintes pacotes:

#Installing Packages
install.packages("dplyr")
install.packages("ggplot2")
install.packages("magrittr") 
install.packages("tsibble")
install.packages("forecast")
install.packages("skimr")

#Loading Packages
library(dplyr)
library(ggplot2)
library(magrittr)
library(tsibble)
library(forecast)
library(skimr)

Para este tutorial, usaremos um conjunto de dados de economia que vem embutido no R e fornece dados de indicadores econômicos anuais da economia dos EUA e alteramos seu nome para econ para simplificar:

econ <- ggplot2::economics

Para realizar a análise descritiva, utilizaremos o pacote skimr, que calcula essas estatísticas de forma simples e bem apresentada:

#Descriptive Analysis
skimr::skim(econ)

Você também pode usar a função de resumo para análise descritiva:

Aqui a análise descritiva mostra 547 linhas e 6 colunas no conjunto de dados. O valor mínimo é para 01-07-1967 e o máximo é para 01-04-2015. Da mesma forma, também mostra o valor médio e o desvio padrão.

Agora você tem uma ideia básica do que está dentro do conjunto de dados econ. Vamos plotar um histograma da variável uempmed para ver melhor os dados:

#Histogram of Unemployment
econ %>%
  ggplot2::ggplot() +
  ggplot2::aes(x = uempmed) +
  ggplot2::geom_histogram() +
  labs(x = "Unemployment", title = "Monthly Unemployment Rate in US between 1967 to 2015")

A distribuição do histograma mostra que ele possui uma cauda alongada à direita; ou seja, possivelmente existem algumas observações dessa variável com valores mais “extremos”. Surge a pergunta: em que período esses valores ocorreram e qual é a tendência da variável?

  Como lembrar mensagens importantes no Slack

A maneira mais direta de identificar a tendência de uma variável é através de um gráfico de linhas. Abaixo, geramos um gráfico de linhas e adicionamos uma linha de suavização:

#Line Graph of Unemployment
econ %>%
  ggplot2::autoplot(uempmed) +
  ggplot2::geom_smooth()

A partir desse gráfico, podemos identificar que no período mais recente, nas últimas observações de 2010, há uma tendência de aumento do desemprego, superando o histórico observado em décadas anteriores.

Outro ponto importante, principalmente em contextos de modelagem econométrica, é a estacionaridade das séries; isto é, a média e a variância são constantes ao longo do tempo?

Quando essas suposições não são verdadeiras em uma variável, dizemos que a série tem uma raiz unitária (não estacionária) de modo que os choques que a variável sofre geram um efeito permanente.

Parece ter sido o caso da variável em questão, a duração do desemprego. Vimos que as flutuações da variável mudaram consideravelmente, o que tem fortes implicações relacionadas às teorias econômicas que tratam dos ciclos. Mas, partindo da teoria, como verificamos na prática se a variável é estacionária?

O pacote de previsão possui uma excelente função permitindo aplicar testes, como ADF, KPSS, e outros, que já retornam o número de diferenças necessárias para que a série seja estacionária:

 #Using ADF test for checking stationarity
forecast::ndiffs( 
  x    = econ$uempmed,
  test = "adf")

Aqui o valor de p maior que 0,05 mostra que os dados não são estacionários.

Outra questão importante em séries temporais é a identificação de possíveis correlações (a relação linear) entre os valores defasados ​​da série. Os correlogramas ACF e PACF ajudam a identificá-lo.

Como a série não tem sazonalidade, mas tem certa tendência, as autocorrelações iniciais tendem a ser grandes e positivas porque as observações próximas no tempo também são próximas em valor.

Assim, a função de autocorrelação (ACF) de uma série temporal tendenciosa tende a ter valores positivos que diminuem lentamente à medida que as defasagens aumentam.

#Residuals of Unemployment 
checkresiduals(econ$uempmed) 
pacf(econ$uempmed)

Conclusão

Quando colocamos as mãos em dados mais ou menos limpos, ou seja, já limpos, somos imediatamente tentados a mergulhar na etapa de construção do modelo para tirar os primeiros resultados. Você precisa resistir a essa tentação e começar a fazer uma análise exploratória de dados, que é simples, mas nos ajuda a obter insights poderosos sobre os dados.

Você também pode explorar alguns dos melhores recursos para aprender estatísticas para ciência de dados.