[딥러닝] 8장 Generalization과 Evaluation

8장 Generalization과 Evaluation

1. Generalization(일반화)

: 보지 못한 데이터에서도 잘 작동하는 능력!

1. 보통 데이터셋을 training:validation:test = 6:2:2로 나눔

2. K-fold Cross Validtaion

: 데이터를 무작위로 나누는 것에는 문제가 있어 나온 방법(현재는 사용 x)

매 iteration마다 test set을 바꿔서 실행

3. Overfitting & Underfitting

Overfitting: training set을 너무 잘 맞춰서 새로운데이터에 일반화가 잘 안 됨.
Underfitting: training set조차 못 맞춤.

4. Shortcut Learning(지름길 학습)

: 모델이 단순한 패턴을 보고 spurious correlation을 따르게 되는 현상. CV분야에서도 많이 발생.

→ 모델 일반화를 막음.

ex. 아이스크림을 많이 먹으면 상어가 많이 공격하나?

아래와 같은 문제점때문에 Shortcut Learning이 됨.

문제점1: Annotation Artifacts
: 데이터셋을 만드는 과정에서 생기는 비의도적인 패턴
함의, 중립, 거짓 여부를 판단하는 자연어 추론 작업에서 67%의 정확도가 나왔었는데
알고보니 그냥 단어의 분포만 보고 추론한 거 였음..

문제점2: Data Distribution → Short-head & Long-tail
Short-head - 높은 빈도의 단어. the, and 등과 같은애들
Long-tail - 낮은 빈도의 단어. 특정 주제에서 나타나는 단어

5. Data Contamination(데이터 오염)

: 공정한 평가가 안되는 것!

test set이 training set으로 들어가서 자동 암기만 하게 되는 상황

2. Evaluation for Classification

1. Accuracy

2. Precision, Recall, F1-score ************중요 ************

3. PR 곡선(Precision-Recall Curve)

4. ROC 곡선:

3. Evaluation for Generation

1. Precision

생성된 단어의 순서를 고려하기 위해! 보통 4gram까지 확인함.

짧게 대답하면 precision에 유리.

2. BLEU 점수(Bilingual Evaluation Understudy Score)

길이를 정규화하는 것이 필요하다! → precision에 페널티를 주자!

→ Brevity Penalty

3. 사람 평가

: 감각성, 특이성(구체적), 흥미로움, 안전성, 정보성(사실성), 유용성

4. AI 평가

ai로 평가될 수 있음.

ex. 대화식 평가에서는 MT-Bench 평가 방법을 씀.

5. Factuality 평가 (사실평가)

Hallucination(환각) 문제: 사실이 아닌 문제에 대해서 있었던 것 처럼 이야기하는 문제.

사실성 평가가 필요해 보임!

어떻게? → 요약본을 평가해보자! or Biograpy(전기) 생성 평가해보자!

요약본 평가방법1: QA 평가

요약본을 기반으로 생성된 지문에 대해 답변이 일치하는지 평가.

일치하면 1점 아니면, 0점

요약본 평가방법2: Entailment 평가

요약문의 문장이 원본 문서에 의해 뒷받침되는지(entailed) 여부를 판단.

전기 평가방법:

모델이 생성한 전기(biography)가 얼마나 일치하는지 평가.

wikipedia와 같은 신뢰할 수 있는 출처와 비교 평가.

우선 알고 있는 내용 다 말하라고 하고,

그 내용들을 독립적인 문장으로 만들어달라고 하고,

한문장 한문장 fact 여부를 따짐.

'Computer Science > Deep Learning Application' 카테고리의 다른 글

[딥러닝] 10장 컴퓨터 비전, Conv와 멀티모달 학습 (0)	2024.06.15
[딥러닝] 9장 최근 언어 모델 (0)	2024.06.14
[딥러닝] 7장 Language Model에서 어시스턴트로의 발전(언어모델의 3단계) (0)	2024.06.09
[딥러닝] Subword Tokenizer (0)	2024.04.10
[딥러닝] 4장 NLP&RNN&LSTM (0)	2024.04.04

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

나는 나은

[딥러닝] 8장 Generalization과 Evaluation

8장 Generalization과 Evaluation

1. Generalization(일반화)

2. Evaluation for Classification

3. Evaluation for Generation

'Computer Science > Deep Learning Application' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[딥러닝] 8장 Generalization과 Evaluation

8장 Generalization과 Evaluation

1. Generalization(일반화)

2. Evaluation for Classification

3. Evaluation for Generation

'Computer Science > Deep Learning Application' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역