티스토리 뷰

커뮤니케이션 통계 방법 - 회귀분석의 내용을 요약 ]

[네이버 지식백과] 회귀분석 (커뮤니케이션 통계 방법, 2013. 2. 25., 커뮤니케이션북스)





Linear Regression: 선형 회귀 분석, 인과관계를 분석하는 추측통계의 한 분야.


사회과학자들의 주요 관심사는 어떤 사회현상을 발생시킨 원인이 무엇인지를 규명하는 것. 즉 결과를 일으키는 원인, 인과성을 밝히고자 함.

  • 기본적인 3가지 조건
    • 첫째 조건은 원인이 시간적으로 항상 결과보다 앞서야 한다
    • 둘째, 원인과 결과는 서로 연관성, 즉 상관관계가 있어야 한다. 원인이 결과를 일으킨다고 할 때, 최소한 두 변인 간에는 논리적인 연관성이 있어야 한다는 것을 의미한다. 
    • 마지막으로 결과를 발생시키는 원인 이외에 결과를 발생시킬 수 있는 그럴듯한 제3의 원인(들)을 제거해야 한다. 이렇게 제3의 원인을 제거하는 것을 통계 전문용어로 '통제(control)'라고 한다.
이러한 인과성을 밝히기 위한 통계적인 방법이 회귀분석

용어: 회귀
회귀분석(regression analysis)에서 '회귀(regression)'란 용어는 19세기 프랜시스 갤턴(Francis Galton)이 키 큰 선대 부모들이 낳은 자식들의 키가 점점 더 커지지 않고, 다시 평균 키로 회귀하는 경향을 보고서 발견한 개념이다. 이를 통계학 용어로 '평균으로의 회귀(regression toward mean)'라고 한다.

독립변인(예측변인, 설명변인)
종속변인(결과변인, 피설명변인)

회귀분석은 하나 이상의 독립변인이 변할 때, 종속변인이 얼마나 변할 것인지(영향력)를 예측하는데 주로 사용하는 통계분석 기법이다. 또한 회귀분석은 종속변인에 영향을 줄 개연성이 있는 제3의 변인들을 통계적으로 통제했을 때, 특정 독립변인(들)이 하나의 결과변인에 미치는 영향, 즉 인과성(causality)을 밝혀내는 데도 사용할 수 있다.

선형 회귀분석
주로 독립변인과 종속변인이 유사등간수준 이상 데이터인 양적 데이터일 경우에 주로 사용한다. 
그러나 선형 회귀분석은 독립변인이 범주수준의 질적 데이터인 독립변인일 경우에도 가변인 또는 더미변인(dummy variable)을 사용해 종속변인을 추정하기도 한다. 

회귀분석은 크게 단순 (선형) 회귀분석과 다중 회귀분석, 그리고 위계적 회귀분석으로 구분할 수 있다. 







둘 또는 그 이상의 변수 사이의 관계 특히 변수 사이의 인과관계를 분석하는 추측통계의 한 분야이다. 회귀분석은 특정 변수값의 변화와 다른 변수값의 변화가 가지는 수학적 선형의 함수식을 파악함으로써 상호관계를 추론하게 되는데 추정된 함수식을 회귀식이라고 한다. 이러한 회귀식을 통하여 특정변수(독립변수 또는 설명변수라고 함)의 변화가 다른 변수(종속변수라고 함)의 변화와 어떤 관련성이 있는지 관련이 있다면 어느 변수의 변화가 원인이 되고 어느 변수의 변화가 결과적인 현상인지 등에 관한 사항을 분석할 수 있다. 이러한 회귀분석은 인과관계가 아닌 단순한 변수 사이의 관계의 밀접도만을 조사하는 상관분석과 차이가 있다. 회귀분석은 본질적으로 인과관계가 있는 두 변수 즉 독립변수와 종속변수 사이의 함수식을 분석대상으로 삼게 되는데, 학문연구에 있어서 다음 두 가지 측면에서 큰 역할을 담당하고 있다. ① 실증분석을 통해 가설의 타당성 여부를 검토하는 데 유용한 도구가 된다. ② 회귀식이 타당시 되는 상황일 경우 독립변수의 값을 기초로 종속변수의 값을 추정 또는 예측할 수 있다. 회귀분석은 독립변수가 하나인 경우와 2개 이상인 경우로 구분되는데, 하나인 경우를 단순회귀분석, 2개 이상인 경우를 다중회귀분석이라고 한다.


[네이버 지식백과] 회귀분석 (매일경제, 매경닷컴)





회귀분석 종속변수 를 다른 변수들 로 설명하는 자료분석 방법이다. 여기서 종속변수는 설명이 되는 변수로 반응변수라고도 한다. 그리고 설명을 위해 쓰이는 변수들을 설명변수 또는 독립변수라고 한다. 

회귀분석의 목적은 설명변수에 의한 종속변수의 예측 또는 설명변수와 종속변수 간 관계의 설명에 있다. 이 글에서는 설명변수가 하나인 경우만 다룬다 ()

[네이버 지식백과] 회귀분석 [回歸分析, regression analysis] (수학백과, 2015.5, 대한수학회)



종속변수 독립변수들 사이의 최적 선형함수관계를 밝히는 통계적 기법이다. 

회귀분석에서는 종속변수의 변산을 설명하는 예측변수들의 선형조합을 통하여 

- 각 예측변수가 종속변수 값의 변화에 미치는 고유영향의 추정(회귀계수 추정), 

- 예측변수들의 조합으로 종속변수의 변산을 설명하는 정도(결정계수 추정), 

- 예측변수들의 조합으로 종속변수의 값을 추정하는 정밀도(잔차 분산의 추정) 

등이 주요 관심사이다.


회귀분석에 의하여 추정된 다양한 추정치들에 대한 통계적 유의도 검정과 실제 효과의 크기도 연구자들의 관심사이다. 

회귀분석을 위한 통계모형은 회귀분석모형 또는 회귀방정식이라고 한다. 회귀분석에서 종속변수는 연속변수를 가정하며 예측변수는 연속변수와 이분변수, 경향변수를 사용할 수 있다. 변수가 K개의 범주를 갖는 변수인 경우에는 K-1개의 가변수로 전환하여 사용할 수 있다. 회귀분석모형에서 연속변수의 값은 예측변수 값의 모든 범위에서 등분산성을 갖고, 상호 독립이다. 예측변수들은 오차 없이 추정된 값이며, 예측변수로 준거변수를 설명하고 난 이후의 잔차와는 독립적 관계이다.

회귀분석에서 예측변수가 하나인 경우는 단순회귀분석(simple regression analysis)이라고 하며, 예측변수가 여럿인 경우는 중다회귀분석(multiple regression analysis)이라고 한다. 단순회귀분석과 중다회귀분석은 예측변수의 수에만 차이가 있을 뿐, 모형의 추정방법(최소자승법), 모형의 양호도 평가기준, 결과의 해석방법 등은 같은 원리에 따른다. 회귀분석은 여러 변수들의 정보를 조합하여 한 변수의 정보를 추리하기 때문에 다양한 변수들이 상호 상관을 갖는 복잡한 현상을 연구하는 사회과학에서 많이 사용된다.

[네이버 지식백과] 회귀분석 [regression analysis] (교육평가용어사전, 2004. 5. 31., 학지사)


- 트레이닝 데이터를 통해 기본적인 가설을 만들어 냄.

- 만들어진 가설의 검증은 실제값과 가설의 값 차이를 통해 확인함.








'공부하자 > 머신러닝' 카테고리의 다른 글

ML01. 학습 및 참고 사이트  (0) 2019.03.18
ML03. 데이터 분석  (0) 2018.04.25
Analytics 유형, Types of Data Analytics  (0) 2017.09.11
#3. Window 기반 Python 개발 환경  (0) 2017.09.01
#2. ML 기본 개념  (0) 2017.09.01
댓글