* 모든 내용은 아래의 '파이썬으로 배우는 포트폴리오' 책을 읽고 정리한 내용입니다.
공분산과 상관계수
- 두 변수의 상관관계를 나타내는 척도 : 공분산 & 상관계수
공분산
- x, y 는 각각 데이터변수
- 사각형 1 : (x - Mx)(y- My) > 0
- 사각형 2 : (x - Mx)(y- My) < 0
- 사각형 3 : (x - Mx)(y- My) > 0
- 사각형 4 : (x - Mx)(y- My) < 0
공분산에서 중요한 것은 부호
공분산이 (+) : x와 y는 양의 상관관계
x가 증가 -> y도 증가
공분산이 (-) : x와 y는 음의 상관관계
x가 증가 -> y는 감소
공분산이 0 : 두 변수간에는 아무런 선형관계가 없음
두 변수는 서로 독립적인 관계
공분산은 방향성만 알려주고, 상관관계의 정도는 구체적으로 표현하지 못한다
상관계수 (상관관계를 나타냄)
- 상관계수는 (-1) ~ (+1) 사이로 상관관계 비교가 가능
각 변수의 표준편차의 곱으로 나타낸 직사각형 넓이에 비해
두 변수의 공분산이 얼마나 되는가
- 상관계수는 두 변수 간의 연관된 정도를 나타낼 뿐 인과관계를 설명 x
- 두 변수 간의 인과관계는 회귀분석을 통해 확인
- 보통 피어슨 상관계수를 많이 사용
피어슨 상관계수
상관계수 r 값은 -1.0 ~ +1.0 사이의 값으로 X와 Y의 방향성이 완전히 동일하면 +1.0 (양의 선형관계)
전혀다르면 0.0 (두 변수는 독립)
완전히 반대방향으로 일치시 -1.0 (음의 선형관계)
결정계수 (r**2) , Coefficient of Determination
- 결정계수 : 추정하는 선형 모델이 실제 데이터에 얼마나 잘 맞는지 알려주는 적합도를 나타내는 척도
- 두 변수의 상관계수 : + 0.995076
- 두 변수의 상관계수 : - 0.991039
- 두 변수의 상관계수 : 0.0