[머신러닝] 머신러닝 용어
Updated:
레이블(label)
레이블은 기계학습으로 예측하는 실제 항목입니다. y = f(x)에서 y 변수에 해당합니다(단순 선형 회귀의 y변수). 이메일 스팸 필터링의 경우, 레이블은 ‘스팸’ 또는 ‘스팸이 아님’ 이 될 수 있습니다.
특징(feature)
특징은 학습 모델에게 제공하는 입력 변수입니다. 단순 선형 회귀의 x변수에 해당합니다. 이메일 스팸 필터링의 경우, 이메일 텍스트의 단어, 발신 및 수신 주소, 이메일이 전송된 시간, 다양한 라우팅 또는 헤더 정보가 될 수 있습니다.
샘플
샘플은 데이터(x)의 특정 인스턴스(특정한 예)입니다. y = f(x)에서 x 에 해당합니다. x 는 벡터라는 것을 나타내기 위해 굵게 표시합니다. 샘플은 레이블이 있는 샘플과 레이블이 없는 샘플 두 가지 카테고리로 구분됩니다.
레이블이 있는 샘플
labeled example: {features, label} : (x, y)
레이블이 있는 샘플은 특성과 레이블이 모두 포함되어 있는 샘플로 모델을 학습시키는 데 사용됩니다. 스팸 필터링의 경우에서는 사용자가 명시적으로 ‘스팸’ 또는 ‘스팸 아님’으로 표시한 개별 이메일에 해당합니다.
레이블이 없는 샘플
unlabeled example: {features, ?} : (x, ?)
레이블이 없는 샘플은 특성은 포함되지만 레이블은 포함되지 않습니다. 레이블이 있는 샘플로 모델을 학습시킨 후, 해당 모델을 사용하여 레이블이 없는 예의 레이블을 예측합니다. 스팸 필터링 예에서는 사람이 레이블을 지정하지 않은 새 이메일에 해당합니다.
모델
모델은 특성과 레이블의 관계를 정의합니다. 스팸 감지 모델에서는 특정 특성을 ‘스팸’과 긴밀하게 연결할 수 있습니다.
학습(Learning)
학습은 모델을 만들거나 배우는 것을 의미합니다. 레이블이 있는 예를 모델에 보여주고, 모델이 특성과 레이블의 관계를 점차적으로 학습하도록 합니다.
추론(Prediction)
추론은 학습된 모델을 레이블이 없는 샘플에 적용하는 것을 의미합니다. 학습된 모델을 사용하여 유용한 예측 (y’)을 해내는 것입니다. 추론하는 동안 레이블이 없는 새로운 샘플의 레이블을 추론할 수 있습니다.
학습 데이터와 테스트 데이터
학습 데이터는 훈련 데이터라고도 불립니다. 머신러닝에서는 항상 학습 데이터와 테스트 데이터가 있어야 합니다. 입력을 “개”와 “고양이”로 분류하는 기계 학습에서는 “개”와 “고양이”의 레이블이 붙어 있는 학습 데이터로 시스템을 학습시킵니다. 학습 알고리즘은 입력 데이터의 특징에 따라 입력은 “개”와 “고양이”로 분류할 수 있는 모델을 내부적으로 생성합니다. 학습이 끝나면 새로운 데이터로 테스트 해야합니다.
Leave a comment