추정 (estimation)과 파라미터(parameter)

선형회귀 모형이 $y=ax+b$라고 할 때 모집단의 특성을 나타내는 값인 $a, b$를 파라미터 (parameter. 모수) 라고 부르며 이 값들을 알아내는 과정을 추정 (estimate) 이라고 한다. 추정된 값은 보통 ^ 기호를 사용해 $\hat{a}, \hat{b}$처럼 적는다. 또, 이들을 사용해 구한 예측값을 $\hat{y}$라고 적으며 $\hat{y}=\hat{a}x+\hat{b}$이다.

파라미터는 무엇인가? 이 설명을 하기위해서는 통계학이 어떤 학문인지에 대한 약간의 이해가 필요하다.

  • 통계학에서의 예측은 통계적 모델을 기반으로 한다. 예를들어 "데이터가 정규분포이다." 는 모델이다. 또는 데이터가 $y=ax+b$ 를 따른다는 것도 모델이다.
  • 또한 통계학은 모집단 (population. 전체 데이터) 중 일부 데이터를 추출한 표본 (sample) 으로 부터 모집단의 성질을 추정한다. 예를들어, 대통령 선거에서 소수의 선택된 사람들에게 어느 후보자에게 투표하였는지 물어보고 이로부터 대선 결과를 예측하는 것이 통계학이다. $(x, y)$의 순서쌍의 샘플들을 입력으로 받아 모집단에 대해 성립하는 $y=ax+b$의 $a, b$를 추정하는 것 역시 통계학이다.

파라미터란 모집단의 성격을 설명하는 수치값이다. 예를들어 정규분포를 모델로 사용한 경우라면 평균과 표준 편차로 그 분포가 규정된다. $y=ax+b$를 모집단에 대한 모델이라고 가정한다면 $a, b$가 파라미터이다.

추정은 $a, b$를 알아내는 것을 뜻한다. 이 때 한가지 유의할 점은 제한된 데이터로부터 구한 추정에는 불확실성이 있다는 점이다. 예를들어 1반 학생들의 수학 성적의 평균을 구하기 위해 30명중 3명의 수학성적의 평균을 구했다고 해보자. 이 값은 전체 학생들의 평균에 대한 최선의 추정치이지만 그 정확도는 30명중 10명의 수학성적의 평균을 구해 그것으로 전체 학생의 평균을 추정한 경우에 비해 정확도가 떨어진다.

얼핏 생각하기에는 많은 데이터를 모으면 파라미터 추정에서의 불확실성을 없앨 수 있을 것처럼 생각된다. 그러나 이는 대부분의 애플리케이션에서 어려운 일이다. 첫번째 이유는 우리는 늘 모집단의 일부인 표본을 보기 때문이다. 표본의 크기가 크고 모집단을 잘 표현하는 데이터가 표본으로 뽑혀졌다면 표본으로부터 구한 파라미터가 모집단을 잘 표현하겠지만 이것은 쉽지 않은 일이다.

두번째 이유는 데이터가 늘 변하는 성격을 갖고 있기 때문이다. 예를들어 공부시간으로부터 토익 성적을 예측하는 경우를 살펴보자. 토익 시험의 난이도가 시간에 따라 변한다면, 과거에 추정된 파라미터는 더 이상 현재의 데이터에 적합하지 않을 수 있다. 우리가 '전체 데이터'라고 생각 했던 목표는 늘 변하며 파라미터는 매번 업데이트 되어야한다.

세번째 이유는 대표적인 데이터를 뽑기가 어렵단 점이다. 예를들어 특정 브랜드에 대한 선호도를 조사하기 위하여 토요일 강남역 오후 1시부터 6시까지 해당 지역을 지나가는 임의의 사람들에게 브랜드 선호도 설문을 했다고 생각해보자. 이 데이터는 특정 부류 사람들에 대한 정보는 담고 있겠지만 전체 국민의 브랜드에 대한 생각을 담고 있지는 않다. 비록 이 경우는 명확해보이는 사례지만, 웹 사이트에서 사용자의 행동양식을 조사할 때 특정 요일의 행동 방식만 사용한다던가처럼 미처 깨닫지 못한 실수의 여지는 항상 존재한다.

이처럼 추정된 파라미터의 불확실성은 표본의 크기, 데이터의 변동성, 표본의 대표성 등 여러 요인에 의해 영향을 받을 수 있다.

Last change: 2024-01-13