머신 러닝의 영역

머신러닝이 해결하는 문제들은 위키피디아페이지에 나열되어 있다. 여기서는 그 중 가장 대표적인 문제 분류 방법들을 소개한다.

첫번째는 원하는 출력 값이 데이터에 있는지에 따른 분류이다. (입력, 출력)의 순서쌍으로부터 모델을 훈련한 뒤, 입력이 주어졌을 때 출력값을 맞추는 이 방식을 지도 학습 (Supervised Learning) 이라 한다. 예를들어 $(x=3, y=6), (x=4, y=8), ..., (x=10, y=20)$ 이라는 데이터로부터 $y=2x$의 관계를 찾아 $x=11$이 주어졌을 때 $y=22$를 예측하는 경우를 들 수 있다. 또 다른 예로 많은 사람들로부터 DNA 정보와 그들이 평생 겪었던 질병을 조사한 뒤, 이전에 보지 못했던 사람의 DNA 정보로부터 그가 미래에 겪을 질병을 예측하는 것도 지도 학습의 예이다.

지도학습의 대비되는 개념은 비지도 학습 (Unsupervised Learning) 이다. 데이터가 어떻게 모여있는지를 판단하는 군집 (Clustering)이 이에 해당한다. 군집 문제의 사례로, 예를들어 데이터가 1, 2, 3, 4, 100, 101, 102, 103이 있다고 하자. 직관적으로 볼 때 이 데이터는 1, 2, 3, 4 와 100, 101, 102, 103 두 개의 군으로 나눌 수 있다. 이 군집은 각 군내의 데이터 값은 서로 유사해야하고 서로 다른 군에 속한 데이터끼리의 값은 그에 비해 크게 달라야한다는 기준으로 나눈 것이다. 이처럼 비지도 학습은 모델을 만들 때 어떻게 데이터를 모을지에 대한 기준을 정해놓는다.

두번째 분류는 회귀 (Regression) 와 분류 (Classification) 이다.

MLBook

머신 러닝의 영역

TODO: Finish me