Como (e por que) usar a função de outliers no Excel

Um valor atípico é um valor significativamente maior ou menor do que a maioria dos valores em seus dados. Ao usar o Excel para analisar dados, os valores discrepantes podem distorcer os resultados. Por exemplo, a média média de um conjunto de dados pode realmente refletir seus valores. O Excel fornece algumas funções úteis para ajudar a gerenciar seus outliers, então vamos dar uma olhada.

Um exemplo rápido

Na imagem abaixo, os outliers são razoavelmente fáceis de detectar – o valor de dois atribuído a Eric e o valor de 173 atribuído a Ryan. Em um conjunto de dados como esse, é fácil identificar e lidar com esses valores discrepantes manualmente.

Em um conjunto maior de dados, esse não será o caso. Ser capaz de identificar os outliers e removê-los dos cálculos estatísticos é importante – e é isso que veremos como fazer neste artigo.

  Automatize Muzei Live Wallpaper com Tasker

Como Encontrar Outliers em seus Dados

Para encontrar os outliers em um conjunto de dados, usamos as seguintes etapas:

Calcule o primeiro e o terceiro quartis (falaremos sobre o que são daqui a pouco).
Avalie o intervalo interquartil (também iremos explicar isso um pouco mais adiante).
Retorne os limites superior e inferior de nosso intervalo de dados.
Use esses limites para identificar os pontos de dados remotos.

O intervalo de células à direita do conjunto de dados visto na imagem abaixo será usado para armazenar esses valores.

Vamos começar.

Etapa um: calcular os quartis

Se você dividir seus dados em trimestres, cada um desses conjuntos é chamado de quartil. Os 25% mais baixos dos números no intervalo constituem o primeiro quartil, os próximos 25% o segundo quartil e assim por diante. Tomamos essa etapa primeiro porque a definição mais amplamente usada de um outlier é um ponto de dados que está mais de 1,5 intervalos interquartílicos (IQRs) abaixo do primeiro quartil e 1,5 intervalos interquartil acima do terceiro quartil. Para determinar esses valores, primeiro temos que descobrir quais são os quartis.

O Excel fornece uma função QUARTILE para calcular quartis. Requer duas informações: o array e o quart.

=QUARTILE(array, quart)

A matriz é o intervalo de valores que você está avaliando. E o quarto é um número que representa o quartil que você deseja retornar (por exemplo, 1 para o primeiro quartil, 2 para o segundo quartil e assim por diante).

  Como se conectar a um servidor SFTP no Ubuntu

Observação: no Excel 2010, a Microsoft lançou as funções QUARTILE.INC e QUARTILE.EXC como melhorias para a função QUARTILE. QUARTILE é mais compatível com versões anteriores ao trabalhar em várias versões do Excel.

Voltemos à nossa tabela de exemplo.

Para calcular o primeiro quartil, podemos usar a seguinte fórmula na célula F2.

=QUARTILE(B2:B14,1)

Conforme você insere a fórmula, o Excel fornece uma lista de opções para o argumento quart.

Para calcular o 3º quartil, podemos inserir uma fórmula como a anterior na célula F3, mas usando três em vez de um.

=QUARTILE(B2:B14,3)

Agora, temos os pontos de dados quartil exibidos nas células.

Etapa dois: avaliar o intervalo interquartil

O intervalo interquartil (ou IQR) é o meio de 50% dos valores em seus dados. É calculado como a diferença entre o valor do 1º quartil e o valor do 3º quartil.

Vamos usar uma fórmula simples na célula F4 que subtrai o primeiro quartil do terceiro quartil:

=F3-F2

Agora, podemos ver nosso intervalo interquartil exibido.

Etapa três: retornar os limites inferior e superior

Os limites inferior e superior são os menores e maiores valores do intervalo de dados que desejamos usar. Quaisquer valores menores ou maiores do que esses valores limites são os outliers.

Vamos calcular o limite inferior na célula F5 multiplicando o valor IQR por 1,5 e, em seguida, subtraindo-o do ponto de dados Q1:

=F2-(1.5*F4)

Nota: Os colchetes nesta fórmula não são necessários porque a parte da multiplicação será calculada antes da parte da subtração, mas eles tornam a fórmula mais fácil de ler.

  Como contar células em branco ou vazias em planilhas do Google

Para calcular o limite superior na célula F6, vamos multiplicar o IQR por 1,5 novamente, mas desta vez adicionando-o ao ponto de dados Q3:

=F3+(1.5*F4)

Etapa quatro: identificar os outliers

Agora que configuramos todos os nossos dados subjacentes, é hora de identificar nossos pontos de dados periféricos – aqueles que são inferiores ao valor do limite inferior ou superiores ao valor do limite superior.

Vamos usar o Função OR para realizar este teste lógico e mostrar os valores que atendem a esses critérios, inserindo a seguinte fórmula na célula C2:

=OR(B2$F$6)

Em seguida, copiaremos esse valor em nossas células C3-C14. Um valor TRUE indica um outlier e, como você pode ver, temos dois em nossos dados.

Ignorando os outliers ao calcular a média média

Usando a função QUARTILE, vamos calcular o IQR e trabalhar com a definição mais amplamente usada de um outlier. No entanto, ao calcular a média média para uma faixa de valores e ignorar outliers, existe uma função mais rápida e fácil de usar. Esta técnica não identificará um outlier como antes, mas nos permitirá ser flexíveis com o que podemos considerar nossa porção outlier.

A função de que precisamos é chamada TRIMMEAN, e você pode ver a sintaxe dela abaixo:

=TRIMMEAN(array, percent)

A matriz é o intervalo de valores que você deseja calcular a média. A porcentagem é a porcentagem de pontos de dados a serem excluídos da parte superior e inferior do conjunto de dados (você pode inseri-la como uma porcentagem ou um valor decimal).

Inserimos a fórmula abaixo na célula D3 em nosso exemplo para calcular a média e excluir 20% dos outliers.

=TRIMMEAN(B2:B14, 20%)

Lá você tem duas funções diferentes para lidar com outliers. Se você deseja identificá-los para algumas necessidades de relatório ou excluí-los de cálculos como médias, o Excel tem uma função para atender às suas necessidades.