Machine Learning(ML) - ML 문제로 표현하기(용어 정리)

본 게시물은 구글 머신러닝 단기집중과정 스터디을 참고하여 작성되었습니다.

ML로 전환하기

선형 회귀(Linear Regression)

  • 예측하는 항목입니다(단순 선형 회귀의 y 변수)
  • ex) 밀의 향후 가격, 사진에 표시되는 동물의 종류, 오디오 클립의 의미

특성(Features)

  • 입력 변수입니다(단순 선형 회귀의 x 변수)
    Figure 1 : 여러개의 특성을 식으로 표현
  • ex) 스팸 감지에서 특성 예시
    • 이메일 텍스트의 단어
    • 보내는 사람의 주소
    • 이메일이 전송된 시간
    • ‘이상한 속임수 하나’라는 구문이 포함된 이메일

예(Examples)

  • 데이터(x)의 특정 인스턴스입니다. x는 벡터라는 것을 나타내기 위해 굵게 표시합니다. 예는 두 카테고리로 구분됩니다.
  • 구분

    • 라벨이 있는 예 : 특성과 라벨이 모두 포함

      1
      labeled examples: {features, label}: (x, y)
    • 라벨이 없는 예 : 특성은 포함되지만 라벨은 포함안함

      1
      unlabeled examples: {features, ?}: (x, ?)
  • 모델을 학습시키려면 라벨이 있는 예를 사용!

  • 라벨이 있는 예로 모델을 학습시킨 다음 해당 모델을 사용하여 라벨이 없는 예의 라벨을 예측
    • 쉽게말하면, 결과를 아는 데이터(라벨이 있는 예)로 모델(예측 모델)을 만들어서
      결과를 모르는 데이터(라벨이 없는 예)를 모델에 대입하여 값을 도출

모델(Models)

  • 모델은 특성과 라벨의 관계를 정의
  • 모델 수명의 두단계
    1. 학습
      • 모델을 만들거나 배우는 것을 의미합니다.
      • 즉, 라벨이 있는 예를 모델에 보여 주고, 모델이 특성과 라벨의 관계를 점차적으로 학습하도록 합니다.
    2. 추론
      • 학습된 모델을 라벨이 없는 예에 적용하는 것을 의미합니다.
      • 즉 학습된 모델을 사용하여 유용한 예측(y’)을 해냅니다.

회귀와 분류(Regression vs classification)

  • 회귀 모델
    • 연속적인 값을 예측(실수범위, 정수범위 등등)
    • 예시)
      • 캘리포니아의 주택 가격이 얼마인가요?
      • 사용자가 이 광고를 클릭할 확률이 얼마인가요?
  • 분류 모델
    • 불연속적인 값을 예측(true/false, 0/1 등등)
    • 예시)
      • 주어진 이메일 메시지가 스팸인가요, 스팸이 아닌가요?
      • 이 이미지가 강아지, 고양이 또는 햄스터의 이미지인가요?