본문 바로가기
Computer Science/Deep Learning Application

[딥러닝] 8장 Generalization과 Evaluation

by na1-4an 2024. 6. 9.

8장 Generalization과 Evaluation

1. Generalization(일반화)

: 보지 못한 데이터에서도 잘 작동하는 능력!

1. 보통 데이터셋을 training:validation:test = 6:2:2로 나눔

 

2. K-fold Cross Validtaion

: 데이터를 무작위로 나누는 것에는 문제가 있어 나온 방법(현재는 사용 x)

  매 iteration마다 test set을 바꿔서 실행

 

3. Overfitting & Underfitting

  • Overfitting: training set을 너무 잘 맞춰서 새로운데이터에 일반화가 잘 안 됨.
  • Underfitting: training set조차 못 맞춤.

Machine Learning Process

 

4. Shortcut Learning(지름길 학습)

: 모델이 단순한 패턴을 보고 spurious correlation을 따르게 되는 현상. CV분야에서도 많이 발생.

→ 모델 일반화를 막음.

ex. 아이스크림을 많이 먹으면 상어가 많이 공격하나?

아래와 같은 문제점때문에 Shortcut Learning이 됨.

  • 문제점1: Annotation Artifacts
  • : 데이터셋을 만드는 과정에서 생기는 비의도적인 패턴
  • 함의, 중립, 거짓 여부를 판단하는 자연어 추론 작업에서 67%의 정확도가 나왔었는데
  • 알고보니 그냥 단어의 분포만 보고 추론한 거 였음..
  • 문제점2: Data Distribution Short-head & Long-tail
  • Short-head - 높은 빈도의 단어. the, and 등과 같은애들
  • Long-tail - 낮은 빈도의 단어. 특정 주제에서 나타나는 단어

 

5. Data Contamination(데이터 오염)

: 공정한 평가가 안되는 것!

  test set이 training set으로 들어가서 자동 암기만 하게 되는 상황

 

2. Evaluation for Classification

1. Accuracy

 

2. Precision, Recall, F1-score ************중요 ************

 

3. PR 곡선(Precision-Recall Curve)

multiclass에서의 p r f

4. ROC 곡선:

 

3. Evaluation for Generation

1. Precision

  생성된 단어의 순서를 고려하기 위해! 보통 4gram까지 확인함.

  짧게 대답하면 precision에 유리.

 

2. BLEU 점수(Bilingual Evaluation Understudy Score)

  길이를 정규화하는 것이 필요하다! → precision에 페널티를 주자!

    Brevity Penalty 

[최종식] 보통 4gram까지 한다고 했으니까 기하평균냄

 

3. 사람 평가

  : 감각성, 특이성(구체적), 흥미로움, 안전성, 정보성(사실성), 유용성

 

4. AI 평가

ai로 평가될 수 있음.

ex. 대화식 평가에서는 MT-Bench 평가 방법을 씀.

 

5. Factuality 평가 (사실평가)

Hallucination(환각) 문제: 사실이 아닌 문제에 대해서 있었던 것 처럼 이야기하는 문제.

사실성 평가가 필요해 보임!

 

어떻게? → 요약본을 평가해보자! or Biograpy(전기) 생성 평가해보자!

 

요약본 평가방법1: QA 평가

요약본을 기반으로 생성된 지문에 대해 답변이 일치하는지 평가.

일치하면 1점 아니면, 0점

 

요약본 평가방법2: Entailment 평가

요약문의 문장이 원본 문서에 의해 뒷받침되는지(entailed) 여부를 판단.

 

전기 평가방법:

모델이 생성한 전기(biography)가 얼마나 일치하는지 평가.

wikipedia와 같은 신뢰할 수 있는 출처와 비교 평가.

 

우선 알고 있는 내용 다 말하라고 하고,

그 내용들을 독립적인 문장으로 만들어달라고 하고,

한문장 한문장 fact 여부를 따짐.