8장 Generalization과 Evaluation
1. Generalization(일반화)
: 보지 못한 데이터에서도 잘 작동하는 능력!
1. 보통 데이터셋을 training:validation:test = 6:2:2로 나눔
2. K-fold Cross Validtaion
: 데이터를 무작위로 나누는 것에는 문제가 있어 나온 방법(현재는 사용 x)
매 iteration마다 test set을 바꿔서 실행
3. Overfitting & Underfitting
- Overfitting: training set을 너무 잘 맞춰서 새로운데이터에 일반화가 잘 안 됨.
- Underfitting: training set조차 못 맞춤.
4. Shortcut Learning(지름길 학습)
: 모델이 단순한 패턴을 보고 spurious correlation을 따르게 되는 현상. CV분야에서도 많이 발생.
→ 모델 일반화를 막음.
ex. 아이스크림을 많이 먹으면 상어가 많이 공격하나?
아래와 같은 문제점때문에 Shortcut Learning이 됨.
- 문제점1: Annotation Artifacts
- : 데이터셋을 만드는 과정에서 생기는 비의도적인 패턴
- 함의, 중립, 거짓 여부를 판단하는 자연어 추론 작업에서 67%의 정확도가 나왔었는데
- 알고보니 그냥 단어의 분포만 보고 추론한 거 였음..
- 문제점2: Data Distribution → Short-head & Long-tail
- Short-head - 높은 빈도의 단어. the, and 등과 같은애들
- Long-tail - 낮은 빈도의 단어. 특정 주제에서 나타나는 단어
5. Data Contamination(데이터 오염)
: 공정한 평가가 안되는 것!
test set이 training set으로 들어가서 자동 암기만 하게 되는 상황
2. Evaluation for Classification
1. Accuracy
2. Precision, Recall, F1-score ************중요 ************
3. PR 곡선(Precision-Recall Curve)
4. ROC 곡선:
3. Evaluation for Generation
1. Precision
생성된 단어의 순서를 고려하기 위해! 보통 4gram까지 확인함.
짧게 대답하면 precision에 유리.
2. BLEU 점수(Bilingual Evaluation Understudy Score)
길이를 정규화하는 것이 필요하다! → precision에 페널티를 주자!
→ Brevity Penalty
3. 사람 평가
: 감각성, 특이성(구체적), 흥미로움, 안전성, 정보성(사실성), 유용성
4. AI 평가
ai로 평가될 수 있음.
ex. 대화식 평가에서는 MT-Bench 평가 방법을 씀.
5. Factuality 평가 (사실평가)
Hallucination(환각) 문제: 사실이 아닌 문제에 대해서 있었던 것 처럼 이야기하는 문제.
사실성 평가가 필요해 보임!
어떻게? → 요약본을 평가해보자! or Biograpy(전기) 생성 평가해보자!
요약본 평가방법1: QA 평가
요약본을 기반으로 생성된 지문에 대해 답변이 일치하는지 평가.
일치하면 1점 아니면, 0점
요약본 평가방법2: Entailment 평가
요약문의 문장이 원본 문서에 의해 뒷받침되는지(entailed) 여부를 판단.
전기 평가방법:
모델이 생성한 전기(biography)가 얼마나 일치하는지 평가.
wikipedia와 같은 신뢰할 수 있는 출처와 비교 평가.
우선 알고 있는 내용 다 말하라고 하고,
그 내용들을 독립적인 문장으로 만들어달라고 하고,
한문장 한문장 fact 여부를 따짐.
'Computer Science > Deep Learning Application' 카테고리의 다른 글
[딥러닝] 10장 컴퓨터 비전, Conv와 멀티모달 학습 (0) | 2024.06.15 |
---|---|
[딥러닝] 9장 최근 언어 모델 (0) | 2024.06.14 |
[딥러닝] 7장 Language Model에서 어시스턴트로의 발전(언어모델의 3단계) (0) | 2024.06.09 |
[딥러닝] Subword Tokenizer (0) | 2024.04.10 |
[딥러닝] 4장 NLP&RNN&LSTM (0) | 2024.04.04 |