Como detectar outliers: 10 etapas (com imagens)

Índice:

Como detectar outliers: 10 etapas (com imagens)
Como detectar outliers: 10 etapas (com imagens)

Vídeo: Como detectar outliers: 10 etapas (com imagens)

Vídeo: Como detectar outliers: 10 etapas (com imagens)
Vídeo: Modelagem de Calçados - Etapas do processo de modelagem (passo a passo) 2024, Abril
Anonim

Em estatística, um outlier ou “outlier” é um dado que se desvia muito de qualquer outro datum dentro de uma amostra ou conjunto de datums (o conjunto de datums é chamado de dados). Freqüentemente, um valor discrepante em um conjunto de dados pode servir de alerta ao estatístico sobre uma anormalidade ou erro experimental nas medições realizadas, o que pode levar o estatístico a remover o valor discrepante do conjunto de dados. Se o estatístico remover os outliers do conjunto de dados, as conclusões tiradas do estudo podem ser muito diferentes. Portanto, saber calcular e analisar outliers é muito importante para garantir o correto entendimento de um conjunto de dados estatísticos.

Etapa

Calcular valores atípicos, etapa 1
Calcular valores atípicos, etapa 1

Etapa 1. Aprenda como identificar dados potencialmente discrepantes

Antes de decidirmos se devemos remover dados discrepantes do conjunto de dados ou não, é claro que devemos identificar quais dados têm o potencial de se tornarem discrepantes. Em geral, um outlier é um dado que se desvia muito dos outros datums em um conjunto de datum - em outras palavras, um outlier está “fora” dos outros datums. Geralmente, é fácil detectar valores discrepantes em uma tabela de dados ou (em particular) em um gráfico. Se um conjunto de datums for descrito visualmente com um gráfico, o datum discrepante parecerá estar "muito longe" dos outros datums. Se, por exemplo, a maioria dos datums em um conjunto de datum forma uma linha reta, o datum outlier não será razoavelmente interpretado como formando essa linha.

Vejamos um conjunto de datums que representam as temperaturas de 12 objetos diferentes em uma sala. Se 11 objetos têm uma temperatura de cerca de 70 Fahrenheit (21 graus Celsius), mas o 12º objeto, um forno, tem uma temperatura de 300 Fahrenheit (150 graus Celsius), pode ser visto imediatamente que a temperatura do forno é muito provável de ser um outlier

Calcular valores atípicos, etapa 2
Calcular valores atípicos, etapa 2

Etapa 2. Organize os dados em um conjunto de dados do menor ao maior

A primeira etapa para calcular outliers em um conjunto de dados é encontrar a mediana (valor médio) desse conjunto de dados. Esta tarefa se torna muito simples se os datums em um conjunto de datums são organizados do menor ao maior. Portanto, antes de continuar, organize os datums em um desses conjuntos de datum.

Vamos continuar com o exemplo acima. Este é o nosso conjunto de dados que representam as temperaturas de vários objetos em uma sala: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Se organizarmos os dados do mais baixo para o mais alto, a ordem dos dados se torna: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Calcular valores discrepantes, etapa 3
Calcular valores discrepantes, etapa 3

Etapa 3. Calcule a mediana do conjunto de dados

A mediana de um datum é um datum em que a outra metade do datum está acima desse datum e a outra metade está abaixo dele - basicamente, esse datum é o datum que está no "meio" do datum. Se o número de datums em um conjunto de datum for ímpar, é muito fácil encontrar - a mediana é o datum que tem o mesmo número acima e abaixo dele. No entanto, se o número de datums no conjunto de datums for par, então, como nenhum datum cabe no meio, os 2 datums do meio são calculados em média para encontrar a mediana. Deve-se notar que, ao calcular outliers, a mediana é geralmente atribuída à variável Q2-ni porque Q2 está entre Q1 e Q3, o quartil inferior e superior, que discutiremos mais tarde.

  • Não deve ser confundido com um conjunto de dados onde o número de dados é par - a média dos 2 dados do meio geralmente retornará um número que não está no próprio conjunto de dados - está tudo bem. No entanto, se os 2 dados do meio forem o mesmo número, a média, é claro, também será o mesmo número, o que também está bom.
  • No exemplo acima, temos 12 datums. Os 2 datums do meio são o 6º e o 7º datums - 70 e 71 respectivamente. Portanto, a mediana do nosso conjunto de datums é a média desses 2 números: ((70 + 71) / 2), = 70.5.
Calcular valores discrepantes, etapa 4
Calcular valores discrepantes, etapa 4

Etapa 4. Calcule o quartil inferior

Este valor, que damos à variável Q1, é o datum que representa 25 por cento (ou um quarto) dos datums. Em outras palavras, é o datum que divide ao meio os datums que estão abaixo da mediana. Se o número de datums abaixo da mediana for par, você deve novamente calcular a média dos 2 datums no meio para encontrar Q1, da mesma forma que faria para encontrar a própria mediana.

Em nosso exemplo, existem 6 datums acima da mediana e 6 datums abaixo da mediana. Isso significa que, para encontrar o quartil inferior, precisaremos calcular a média dos 2 datums no meio dos 6 datums abaixo da mediana. O terceiro e o quarto datums de 6 datums abaixo da mediana são ambos 70. Portanto, a média é ((70 + 70) / 2), = 70. 70 se torna nosso primeiro trimestre.

Calcular valores atípicos, etapa 5
Calcular valores atípicos, etapa 5

Etapa 5. Calcule o quartil superior

Este valor, que damos à variável Q3, é o datum em que existem 25 por cento dos datums no conjunto de datum. Encontrar Q3 é praticamente o mesmo que encontrar Q1, exceto que, neste caso, estamos olhando para os datums acima da mediana, não abaixo da mediana.

Continuando nosso exemplo acima, os 2 datums no meio dos 6 datums acima da mediana são 71 e 72. A média desses 2 datums é ((71 + 72) / 2), = 71, 5. 71, 5 sendo nosso terceiro trimestre.

Calcular valores atípicos, etapa 6
Calcular valores atípicos, etapa 6

Etapa 6. Encontre a distância interquartil

Agora que encontramos Q1 e Q3, precisamos calcular a distância entre essas duas variáveis. A distância de Q1 a Q3 é encontrada subtraindo Q1 de Q3. Os valores que você obtém para distâncias interquartis são muito importantes para definir os limites de datums não discrepantes em seu conjunto de datum.

  • Em nosso exemplo, nossos valores de Q1 e Q3 são 70 e 71, 5. Para encontrar a distância interquartil, subtraímos Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Deve-se observar que isso também é verdadeiro mesmo se Q1, Q3 ou ambos forem números negativos. Por exemplo, se nosso valor Q1 fosse -70, nossa distância interquartil correta seria 71,5 - (-70) = 141,5.
Calcular valores discrepantes, etapa 7
Calcular valores discrepantes, etapa 7

Etapa 7. Encontre a “cerca interna” no conjunto de dados

Os valores discrepantes são encontrados verificando se o dado cai dentro dos limites numéricos chamados “cerca interna” e “cerca externa”. Um datum que fica fora da cerca interna do conjunto de dados é referido como um “outlier menor”, enquanto um datum que cai fora da cerca externa é referido como um “outlier principal”. Para encontrar a cerca interna em seu conjunto de referência, primeiro multiplique a distância interquartil por 1, 5. Em seguida, adicione o resultado por Q3 e também subtraia de Q1. Os dois valores que você obtém são os limites da cerca interna de seu conjunto de dados.

  • Em nosso exemplo, a distância interquartil é (71,5 - 70), ou 1,5. Multiplique 1,5 por 1,5, o que resulta em 2,25. Adicionamos este número a Q3 e subtraímos Q1 por este número para encontrar os limites da cerca interna da seguinte maneira:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Então, os limites de nossa cerca interna são 67, 75 e 73, 75.
  • Em nosso conjunto de dados, apenas a temperatura do forno, 300 Fahrenheit - está fora desses limites e, portanto, esse dado é um valor menor. No entanto, ainda não calculamos se essa temperatura é um grande outlier, então não tire conclusões precipitadas antes de fazer nossos cálculos.

    Calcular valores atípicos da etapa 7Bullet2
    Calcular valores atípicos da etapa 7Bullet2
Calcular valores atípicos, passo 8
Calcular valores atípicos, passo 8

Etapa 8. Encontre a “cerca externa” no conjunto de dados

Isso é feito da mesma forma que encontrar a cerca interna, exceto que a distância interquartil é multiplicada por 3 em vez de 1,5. O resultado é então adicionado a Q3 e subtraído de Q1 para encontrar os limites superior e inferior da cerca externa.

  • Em nosso exemplo, multiplicar a distância interquartil por 3 dá (1, 5 x 3), ou 4, 5. Encontramos os limites da cerca externa da mesma maneira que antes:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Os limites da cerca externa são 65,5 e 76.
  • Os dados que ficam fora do limite da cerca externa são chamados de outliers principais. Neste exemplo, a temperatura do forno, 300 Fahrenheit, está claramente fora da cerca externa, portanto, esse dado é "definitivamente" um grande valor discrepante.

    Calcular valores atípicos da etapa 8Bullet2
    Calcular valores atípicos da etapa 8Bullet2
Calcular valores atípicos, etapa 9
Calcular valores atípicos, etapa 9

Etapa 9. Use o julgamento qualitativo para determinar se deve ou não “descartar” o dado atípico

Usando o método descrito acima, pode-se determinar se um dado é um dado secundário, um dado principal ou não é um dado atípico. No entanto, não se engane - encontrar um datum como um outlier apenas marca esse datum como um “candidato” a ser removido do conjunto de datum, não como um datum que “deveria” ser descartado. O "motivo" que faz com que um dado atípico se desvie de outros dados em um conjunto de dados é muito importante para determinar se deve ser descartado ou não. Em geral, um outlier causado por um erro na medição, registro ou planejamento experimental, por exemplo, pode ser descartado. Por outro lado, outliers que não são causados por erro e que indicam novas informações ou tendências que não foram previstas anteriormente geralmente “não” são descartados.

  • Outro critério a considerar é se o valor discrepante tem um grande efeito na média de um conjunto de dados, ou seja, se o valor discrepante o confunde ou o faz parecer errado. É muito importante considerar isso se você pretende tirar conclusões da média de seu conjunto de dados.
  • Vamos estudar nosso exemplo. Neste exemplo, uma vez que parece "altamente" improvável que o forno tenha atingido 300 Fahrenheit por meio de forças naturais imprevisíveis, podemos concluir com quase certeza que o forno foi acidentalmente deixado ligado, resultando em uma anormalidade de dados de alta temperatura. Além disso, se não removermos os outliers, a média do nosso conjunto de dados é (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 Fahrenheit (32 graus Celsius), enquanto a média se removermos os outliers é (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 Fahrenheit (21 graus Celsius).

    Uma vez que esses valores discrepantes foram causados por erro humano e porque seria incorreto dizer que a temperatura ambiente média chega a quase 90 Fahrenheit (32 graus Celsius), é melhor escolhermos “descartar” nossos valores discrepantes

Calcular valores atípicos, etapa 10
Calcular valores atípicos, etapa 10

Etapa 10. Saiba a importância (às vezes) de manter valores discrepantes

Embora alguns outliers devam ser removidos do conjunto de dados porque eles causam erros e / ou tornam os resultados imprecisos ou errôneos, alguns outliers devem ser mantidos. Se, por exemplo, um outlier parece ser adquirido naturalmente (ou seja, não é o resultado de um erro) e / ou fornece uma nova perspectiva sobre o fenômeno em estudo, o outlier não deve ser removido do conjunto de dados. A pesquisa científica é geralmente uma situação muito delicada quando se trata de valores discrepantes - a remoção incorreta de valores discrepantes pode significar o descarte de informações que indicam uma nova tendência ou descoberta.

Por exemplo, digamos que estejamos desenvolvendo um novo medicamento para aumentar o tamanho dos peixes em um viveiro de peixes. Usaremos nosso antigo conjunto de datums ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), exceto, desta vez, cada datum representará o peso de um peixe (em gramas) após receber um medicamento experimental diferente desde o nascimento. Em outras palavras, a primeira droga faz com que um peixe pese 71 gramas, a segunda droga faz com que outro peixe pese 70 gramas e assim por diante. Nesse caso, 300 é “ainda” um grande outlier, mas não devemos descartar esse dado porque, supondo que foi obtido sem erro, representa um sucesso no estudo. A droga que pode fazer peixes pesar 300 gramas funciona melhor do que todas as outras drogas, então esse dado é na verdade o "mais" importante em nosso conjunto de dados, não o "menos importante"

Recomendado: