Como mentir com a estatística

Livro que está nas estantes há bastante tempo, Darrelll Huff traz as artimanhas que muitos estatísticos utilizam para passar a informação de um jeito que a interpretação seja alterada. Huff não era nenhum matemático, e sim, escritor, porém a sua série de “Como…” é cheia de detalhes e muito bem escrita.

O livro traz diversas questões e noções básicas de estatísticas e como essas são manipuladas: amostras, média, gráficos, correlações, etc.

Amostras

O primeiro ponto que Huff traz a tona é a questão de quão representativa é amostra de um estudo que foi demonstrado. O que ele quer dizer com isso, matematicamente é visto como p-valor, mas sem entrar em muitos detalhes aqui, a variável indica quanto seu estudo poderá ser replicado, dado a amostra que você escolheu. Uma amostra representativa suficiente irá trazer resultados muito próximos 95 de 100vezes que for executada.

Há diversas maneiras de selecionar uma amostra, a principal dela é a aleatória: a cada dez nomes em sequência, um é puxado. Obviamente podemos dizer que será difícil que as seleções aleatórias irão realmente representar minha amostra, por isso precisa-se de um número grande o suficiente de escolhas.

Juntamente com amostragem, tem-se o tema de média. A média aritmética é uma medida que tenta representar o valor do meio, no entanto, em alguns casos isso pode ser falso e por isso deve-se estar atento. A média só irá representar o valor do meio em uma distribuição normal, ou seja, uma distribuição que forma uma curva em forma de sino. Uma medida melhor para representar o valor do meio talvez seja a mediana, que mostra qual é literalmente o valor do meio da amostra, após esta ser ordenada. Por fim, temos a moda, medida que representa o valor que aparece mais vezes na amostra. Uma medida talvez mais representativa que a média aritmética é a média geométrica, onde os extremos são retirados. Todas essas medidas podem ser utilizadas para dizer coisas diferentes de uma mesma amostra.

Para tentar ser o mais exato possível, ser se comprometer, o que é usado é uma faixa de variação. Ou seja, os estudos mostram que os valores podem ser X +- 2%, eles incluem um erro na medida, e isso é totalmente aceitável. Quanto maior for sua amostra, ou seja, o número de pessoas escolhidas no estudo, menor será também sua margem de erro, dado que você aumenta as chances de ter uma amostra representativa o suficiente.  Mas há um trade-off, quanto maior a amostra, mais caro o estudo.

Gráficos

Estes artifícios gráficos são usados há tempos para representar algo numérico de forma visual. O ser humano interpreta informações melhor de maneira visual do que com números somente.

Dado esse fato, os gráficos podem ser feitos e ajustados de maneira que os valores pareçam menos ou mais do que realmente são. Um ponto muito importante de gráficos representativos são os eixos, caso a proporção de um seja muito maior que a do outro, as medidas não serão representadas fielmente. Outro artifício, porém que entra no mesmo quesito, é cortar uma parte do eixo para alterar a proporção.

Um tipo muito comum de gráfico e que vem sendo aplicado constantemente é o infografo. Neste, os valores são representados por figuras, por exemplo, valores de dinheiro são representados por sacos de dinheiros preenchidos. Não há nada de errado com esse tipo de gráfico, e sim como ele é abordado em proporções. Por exemplo, colocar duas figuras de saco de dinheiro para representar o dobro do valor é correto. Mas, o que é muitas vezes utilizado é representar o dobro do valor com um saco de dinheiro maior em tamanho. Isso é realmente, porque teoricamente uma figura que dobra de tamanho, na verdade quadriplica em volume e algumas vezes é 8x maior, dependendo da geometria da figura. Deve-se sempre estar atento à esses gráficos para não correlacionar aumentos onde não são expressivos.

Correlações

Entramos então na parte dos estudos onde se deve ter o maior cuidado. As conclusões. Muito estudos utilizam algo para explicar um fato, porém, tais situações podem não estar causando uma a outra e por isso, as conclusões na verdade são inconclusivas. Por exemplo, um estudo mostra que morrem mais pessoas às 18hr do que 6hr da manhã. O que devemos notar é que morre mais pessoas a noite, porque realmente há mais pessoas na rua, ou seja, a amostra é maior e as chances são maiores. Esse tipo de acontecimento é conhecido por falácia post hoc: um evento é causado por outro acontecimento.

Resumo

O livro da Huff é muito bom para quem está adentrando o mundo da análise de dados e melhorando sua capacidade analítica, pois irá mostrar vários exemplos de como os números são deturpados em certas ocasiões e qualquer dado pode ser mostrado da maneira com que você quer que os outros interpretem.

Huff passa um checklist para você verificar em qualquer estudo que for avaliar:

  1. Quem está dizendo? Avalie a fonte;
  2. Como ele sabe? Avalie a amostra;
  3. O que está faltando? Avalie as correlações feitas no estudo;
  4. Alguém mudou de assunto? Um número inicialmente foi apresentado, porém outro foi utilizado na conclusão;
  5. Isso faz sentido? Use sua experiência, outras fontes e confronte o estudo;

Lembre-se o básico da estatística: um valor que caiu 50% precisa subir 100% para voltar ao valor inicial.

Leave a Reply

Your email address will not be published. Required fields are marked *