O coeficiente de correlação de Pearson, também conhecido como coeficiente de correlação produto-momento de Pearson, é uma medida estatística que quantifica a força e a direção da relação linear entre duas variáveis quantitativas.

Introduzido por Karl Pearson no final do século XIX, este coeficiente é amplamente utilizado em várias disciplinas, incluindo estatística, ciência de dados, machine learning, economia, psicologia e ciências naturais.

Neste artigo, exploraremos a definição, a formulação matemática, a interpretação, as aplicações, as limitações e os métodos de cálculo do coeficiente de correlação de Pearson.

 

O Que é o Coeficiente de Correlação de Pearson?

O coeficiente de correlação de Pearson, frequentemente representado pela letra “r”, é uma ferramenta estatística que mede a intensidade e a direção da relação linear entre duas variáveis quantitativas.

Imagine que você deseja entender como duas coisas estão relacionadas, como a altura e o peso de um grupo de pessoas. O coeficiente de Pearson ajuda a quantificar essa relação.

O coeficiente de correlação de Pearson é representado pela letra “r” e varia entre -1 e 1, onde:

  • r = 1: Indica uma correlação linear perfeita positiva (quando uma variável aumenta, a outra também aumenta de maneira consistente).
  • r = -1: Indica uma correlação linear perfeita negativa (quando uma variável aumenta, a outra diminui de maneira consistente).
  • r = 0: Indica que não há correlação linear (as variáveis não têm uma relação linear perceptível).

Exemplos Práticos:

  1. Educação: Um pesquisador quer entender a relação entre o tempo de estudo e as notas dos alunos. Utilizando o coeficiente de correlação de Pearson, ele descobre que existe uma forte correlação positiva (por exemplo, r = 0,85), indicando que alunos que estudam mais tendem a obter notas mais altas.
  2. Saúde Pública: Um estudo quer analisar a relação entre o consumo de frutas e vegetais e a incidência de doenças cardíacas em uma população. O coeficiente de Pearson revela uma correlação negativa significativa (por exemplo, r = -0,75), sugerindo que maior consumo de frutas e vegetais está associado a uma menor incidência de doenças cardíacas.
  3. Fitness: Um pesquisador está investigando a relação entre o número de horas de exercício físico por semana e a qualidade do sono. Após analisar os dados, ele encontra uma correlação fraca positiva (por exemplo, r = 0,25), indicando que, embora haja uma tendência de que mais horas de exercício físico possam estar associadas a uma melhor qualidade do sono, a relação não é forte e outros fatores podem estar influenciando a qualidade do sono.

 

Formulação Matemática

A formulação matemática para calcular o coeficiente de correlação de Pearson entre duas variáveis [math]X[/math] e [math]Y[/math] é dada por:

 
[math]r = \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum (X_i – \bar{X})^2 \sum (Y_i – \bar{Y})^2}}[/math]

 
onde:

  • [math]X_i[/math] e [math]Y_i[/math] são os valores individuais das variáveis [math]X[/math] e [math]Y[/math].
  • [math]\bar{X}[/math] e [math]\bar{Y}[/math] são as médias de [math]X[/math] e [math]Y[/math], respectivamente.

 

Interpretação do Coeficiente de Pearson

A interpretação do coeficiente de correlação de Pearson depende do valor de [math]r[/math]:

  • 0.8 ≤ |r| ≤ 1.0: correlação forte.
  • 0.5 ≤ |r| < 0.8: correlação moderada.
  • 0.3 ≤ |r| < 0.5: correlação fraca.
  • 0.0 ≤ |r| < 0.3: correlação desprezível.

Além disso, a direção da correlação é indicada pelo sinal de [math]r[/math]:

  • r > 0: correlação positiva, onde um aumento em [math]X[/math] está associado a um aumento em [math]Y[/math].
  • r < 0: correlação negativa, onde um aumento em [math]X[/math] está associado a uma diminuição em [math]Y[/math].

Exemplo visual de como seria um gráfico com diferentes coeficientes de Pearson:

 
Gráfico Coeficiente de Correlação de Pearson

 

Aplicações do Coeficiente de Pearson

O coeficiente de correlação de Pearson é amplamente utilizado em diversas áreas para explorar relações entre variáveis. Algumas das aplicações incluem:

  • Pesquisa em Psicologia: Para examinar a relação entre variáveis como inteligência e desempenho acadêmico.
  • Economia: Para analisar a relação entre diferentes indicadores econômicos, como taxa de desemprego e crescimento do PIB.
  • Ciências da Saúde: Para investigar a relação entre variáveis biológicas, como níveis de colesterol e risco de doenças cardíacas.
  • Ciência de Dados: Para verificar correlações entre características em conjuntos de dados grandes, auxiliando em análises exploratórias de dados e na construção de modelos preditivos.

 

Calculando o Coef. de Correlação de Pearson

Vamos considerar um exemplo prático para calcular o coeficiente de correlação de Pearson. Suponha que temos os seguintes dados de duas variáveis [math]X[/math] e [math]Y[/math]:

X Y
1 2
2 3
3 5
4 4
5 6

 
Primeiro, calculamos as médias [math]\bar{X}[/math] e [math]\bar{Y}[/math]:

[math]\bar{X} = \frac{1+2+3+4+5}{5} = 3[/math] [math]\bar{Y} = \frac{2+3+5+4+6}{5} = 4[/math]

 
Em seguida, calculamos os componentes da fórmula:

[math]\sum (X_i – \bar{X})(Y_i – \bar{Y}) = (1-3)(2-4) + (2-3)(3-4) + (3-3)(5-4) + (4-3)(4-4) + (5-3)(6-4)[/math]

 
= 4 + 1 + 0 + 0 + 4 = 9

[math]\sum (X_i – \bar{X})^2 = (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2 = 4 + 1 + 0 + 1 + 4 = 10[/math] [math]\sum (Y_i – \bar{Y})^2 = (2-4)^2 + (3-4)^2 + (5-4)^2 + (4-4)^2 + (6-4)^2 = 4 + 1 + 1 + 0 + 4 = 10[/math]

 
Finalmente, aplicamos os valores na fórmula do coeficiente de correlação de Pearson:

[math]r = \frac{9}{\sqrt{10 \times 10}} = \frac{9}{10} = 0.9[/math]

 
Portanto, há uma forte correlação positiva entre [math]X[/math] e [math]Y[/math].

 

Limitações do Coeficiente de Correlação de Pearson

Apesar de sua utilidade, o coeficiente de correlação de Pearson possui algumas limitações:

  • Linearidade: Pearson mede apenas relações lineares. Ele pode ser enganoso se a relação entre as variáveis for não linear.
  • Sensibilidade a Outliers: Valores extremos podem influenciar significativamente o valor de [math]r[/math], distorcendo a verdadeira relação entre as variáveis.
  • Normalidade: Pearson assume que as variáveis são aproximadamente normalmente distribuídas. Em distribuições não normais, o coeficiente pode não ser um bom indicador da relação entre as variáveis.
  • Independência de Escala: Pearson não é afetado pela escala das variáveis, mas é sensível à variância conjunta. Assim, pode não detectar correlações em dados escalados ou transformados inadequadamente.

 

Métodos de Cálculo

O coeficiente de correlação de Pearson pode ser calculado usando várias ferramentas estatísticas, incluindo:

  • Software Estatístico: Ferramentas como R, Python (biblioteca pandas), SPSS e SAS oferecem funções integradas para calcular [math]r[/math].
  • Calculadoras Online: Existem várias calculadoras online que permitem o cálculo rápido do coeficiente de correlação.
  • Planilhas Eletrônicas: Softwares como Microsoft Excel e Google Sheets possuem funções para calcular a correlação, como CORREL() em Excel.

 

Considerações Finais

O coeficiente de correlação de Pearson é uma ferramenta poderosa para analisar a relação linear entre duas variáveis quantitativas. Sua simplicidade e facilidade de interpretação o tornam uma escolha popular em muitas áreas de pesquisa.

No entanto, os pesquisadores devem estar cientes de suas limitações e considerar outras medidas de correlação ou análise adicional quando necessário. Compreender as nuances do coeficiente de correlação de Pearson e suas aplicações é essencial para realizar análises estatísticas robustas e informadas.

💡
Gostou do artigo? Então deixa um comentário e compartilha nas redes sociais. Quer trocar uma ideia pelo LinkeIN? Me adiciona lá!

 

Referências Bibliográficas

  • Pearson, K. (1896). Mathematical Contributions to the Theory of Evolution. III. Regression, Heredity, and Panmixia. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character, 187, 253-318.
  • Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. Routledge.
  • Rodgers, J. L., & Nicewander, W. A. (1988). Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1), 59-66.
  • Mukaka, M. M. (2012). Statistics corner: A guide to appropriate use of correlation coefficient in medical research. Malawi Medical Journal, 24(3), 69-71.

Categoria:

Estatística,

Última Atualização: outubro 7, 2024