Um gráfico de dispersão, ou diagrama de dispersão, é uma ferramenta de visualização de dados utilizada para identificar relações entre duas variáveis.
Neste tipo de gráfico, cada ponto representa um par de valores das variáveis que estão sendo estudadas, uma no eixo X (horizontal) e outra no eixo Y (vertical). Esses pontos ajudam a visualizar padrões, detectar correlações e possíveis outliers, também conhecidos como valores fora do padrão.
Se você já se perguntou: “Como uma variável influencia outra?“, um gráfico de dispersão pode ser uma das melhores formas de responder essa pergunta.
Ou seja, é intuitivo pensar que um aumento na quantidade de exercícios físicos resultará em uma melhora na saúde cardiovascular, mas é o gráfico de dispersão que nos mostra como, exatamente, essas variáveis se relacionam. O gráfico, aliado a uma linha de tendência, torna claro o impacto de uma variável na outra.
Como Funciona um Gráfico de Dispersão?
O funcionamento de um gráfico de dispersão é simples: cada ponto no gráfico representa uma observação ou um par de valores e a posição destes pontos no plano cartesiano indica a relação entre as duas variáveis.
Quanto mais próximos os pontos estiverem de uma linha imaginária ou de uma linha de tendência, mais forte é a relação entre as variáveis. Essa linha de tendência pode ser adicionada para melhor visualizar a direção e a força da relação.
Em um gráfico de dispersão, a variável independente é aquela que acreditamos influenciar ou causar mudanças em outra variável; ela é posicionada no eixo x (horizontal). Já a variável dependente, por sua vez, é a que responde à mudança na variável independente, sendo plotada no eixo y (vertical).
Exemplificando, ao analisar a relação entre o número de campanhas promocionais realizadas por mês (variável independente) e o aumento nas vendas de um produto (variável dependente), estamos interessados em ver como variações nas campanhas impactam o crescimento das vendas.
Outliers em um gráfico de dispersão são pontos de dados que se desviam significativamente do padrão geral observado entre as variáveis. Esses pontos estão notavelmente distantes dos outros dados e podem indicar uma anomalia ou um comportamento diferente, como erros de medição, casos extremos, ou fenômenos especiais que não seguem a tendência predominante.
Como Analisar um Gráfico de Dispersão?
Ao analisar um gráfico de dispersão, é possível determinar se a relação entre as variáveis é positiva, negativa ou inexistente. Por exemplo, se os pontos no gráfico tendem a formar uma linha crescente, isso indica uma correlação positiva. Já se formarem uma linha decrescente, a correlação é negativa. E, se os pontos estiverem dispersos sem uma direção clara, é provável que não haja uma correlação significativa.
Para compreender melhor o conceito de correlação, que é fundamental na análise de gráficos de dispersão, veja o próximo tópico.
O Que é Correlação?
Correlação é uma medida estatística que indica a intensidade e a direção da relação entre duas variáveis. Pode ser calculada de diversas formas, sendo a mais comum a correlação de Pearson. Essa correlação varia de -1 a 1, onde valores próximos de 1 indicam uma correlação positiva forte, valores próximos de -1 indicam uma correlação negativa forte, e valores próximos de 0 indicam que não há correlação significativa.
A correlação de Pearson é particularmente útil para identificar relações lineares entre variáveis e foi utilizada em todos os exemplos deste texto para calcular a relação entre as variáveis. Nesse sentido, a correlação positiva significa que, à medida que uma variável aumenta, a outra tende a aumentar também. Já a correlação negativa significa que, à medida que uma variável aumenta, a outra tende a diminuir.
Além da correlação de Pearson, existem outras formas, como a correlação de Spearman, que é utilizada para identificar relações não necessariamente lineares e a correlação de Kendall, que mede a concordância entre variáveis ordinais.
É importante lembrar que correlação não implica causalidade. Ou seja, mesmo que duas variáveis apresentem uma correlação forte, isso não significa necessariamente que uma causa a outra. Existem muitos fatores que podem estar envolvidos em uma relação de causa e efeito, e a correlação é apenas um indicativo de que pode haver uma ligação entre as variáveis.
Tipos de Correlação em um Gráfico de Dispersão
Existem basicamente três tipos principais de correlação que podemos observar em um gráfico de dispersão:
Correlação Positiva
Esse tipo de correlação ocorre quando, ao aumentar os valores da variável independente (eixo x), os valores da variável dependente (eixo y) também aumentam. No gráfico de dispersão, os pontos tendem a se alinhar em uma direção crescente, ou seja, formam uma inclinação para cima.
Correlação Negativa
A correlação negativa é observada quando o aumento dos valores da variável independente resulta na diminuição dos valores da variável dependente. Isso cria uma tendência descendente nos pontos do gráfico, ou seja, eles se alinham de forma decrescente. Um exemplo seria a relação entre a quantidade de tempo gasto em redes sociais e o desempenho em atividades físicas: quanto mais tempo se passa nas redes sociais, menos tempo é investido em exercícios, por exemplo.
Ausência de Correlação
Em muitos casos, pode não haver uma relação significativa entre as variáveis analisadas, resultando em uma distribuição aleatória dos pontos no gráfico de dispersão. Os pontos não seguem nenhuma inclinação clara, nem positiva, nem negativa. Um exemplo disso seria a relação entre o número de sapatos que uma pessoa possui e o seu peso corporal. Não existe uma tendência clara entre as duas variáveis.
Quando Utilizar um Gráfico de Dispersão?
Os gráficos de dispersão são ideais quando se quer verificar se existe alguma relação entre duas variáveis quantitativas. Por exemplo, ele é frequentemente utilizado em estudos para descobrir se existe uma correlação entre variáveis como tempo de estudo e nota de prova, temperatura e volume de vendas de sorvete, entre outros.
Mas em que momento escolher o gráfico de dispersão em vez de outro tipo de visualização? Essa ferramenta é mais adequada quando o objetivo é explorar possíveis relações lineares ou não-lineares entre duas métricas. Em contraste, gráficos de barras, por exemplo, são mais indicados para comparações entre categorias discretas.
Exemplos de Gráficos de Dispersão
Relação entre Temperatura e Vendas de Sorvetes
Neste exemplo, foram utilizados 100 pares de dados para explorar a relação entre a temperatura (em graus Celsius) e as vendas de sorvete (em unidades). Cada ponto no gráfico representa uma combinação entre a temperatura e o número de sorvetes vendidos.
Horas de Estudo e Notas de Prova
Este exemplo analisa a relação entre o número de horas de estudo e as notas obtidas em uma prova. É intuitivo pensar que mais horas de estudo podem ajudar na melhora das notas, mas o gráfico de dispersão nos permite visualizar essa relação de maneira clara e estatisticamente suportada.
Investimento em Publicidade e Volume de Vendas
Outro exemplo clássico é a relação entre investimento em publicidade e volume de vendas. Neste caso, podemos usar um gráfico de dispersão para tentar compreender se a quantidade de recursos investidos em campanhas publicitárias influencia no aumento das vendas.
Idade e Pressão Arterial
No campo da saúde, entender relações entre variáveis é essencial para prever e prevenir problemas. Um exemplo interessante é a relação entre a idade de uma pessoa e sua pressão arterial. A expectativa é que, conforme a idade avança, a pressão arterial aumente. O gráfico de dispersão nos mostra se isso é verdadeiro em uma amostra específica.
Horas de Operação da Máquina e Número de Falhas
Em ambientes industriais, é importante entender como o desgaste de máquinas impacta sua performance. Um gráfico de dispersão entre as horas de operação de uma máquina e o número de falhas pode ajudar a visualizar esse comportamento.
Limitações do Gráfico de Dispersão
Embora seja uma ferramenta poderosa, o gráfico de dispersão tem suas limitações. Em conjuntos de dados com muitos pontos, pode ocorrer o fenômeno conhecido como overplotting, onde os pontos se sobrepõem e dificultam a visualização de padrões.
Uma solução para esse problema é utilizar técnicas como a jittering, que adiciona pequenas variações aos pontos para evitar sobreposições, ou até representar os pontos com transparência.
Além disso, é importante lembrar que correlação não implica causalidade. O fato de duas variáveis apresentarem um padrão no gráfico de dispersão não significa que uma seja a causa direta da outra. Esse é um erro comum que precisa ser evitado em análises de dados.
Conclusão
Em minha experiência trabalhando na área de dados para o mercado B2B, percebo que o gráfico de dispersão é bastante subutilizado, uma vez que na maioria dos projetos de business intelligence as empresas buscam focar na análise de dados históricos, fazendo uso principalmente de gráficos de barras, colunas, linhas e donuts. Ou seja, um trabalho mais de post mortem, analisando o que já aconteceu.
Nesse sentido, poucos profissionais da área de negócios buscam encontrar relações entre as variáveis para descobrir correlações, identificar tendências e prever comportamentos, o que certamente contribuiria para uma melhora nos resultados empresariais.
No entanto, é importante notar que nem sempre uma correlação significa causalidade; outros fatores podem estar em jogo. Portanto, esse tipo de gráfico é apenas um ponto de partida para uma investigação mais profunda.