What Makes for Good View for Conrastive Learning?
Yonglong Tian et al. NIPS 2020
c. https://arxiv.org/pdf/2005.10243
https://github.com/HobbitLong/PyContrast
이 논문을 보게된 배경...
그래프에서 링크를 예측하는 것은 중요하다.
→ 예측을 잘 하려면 경향성을 아는 것이 중요하다. (특정 값보단!!)
→ 이 방안으로 Contrastive Learning이 뜬다.
→ Contrastive Learning을 잘 하기 위해서는 View를 잘 만들어야 한다!
→ "What Makes for Good View for Conrastive Learning?"
Information Theory
이 논문을 잘 이해하기 위해서는 정보이론 개념을 어느정도 알고 있어야 한다!
(나는 잘 모르는 채로 이해해서 조금 어려웠다..)
기본적으로 알아야 하는 개념과, 이 논문에서 사용하는 몇가지 개념에 대해 알아보겠다.
⊙ Information,
흠..
⊙ Mutual Information,
하나의 변수에 대한 정보가 주어졌을 때 다른 변수에 대한 불확실성이 얼마나 줄어드는지를 나타냄.
즉, 두 변수간의 상호 의존성을 평가하는 데 사용.
⊙ Entropy,
확률 변수의 불확실성을 나타내는 정도.
높은 엔트로피는 데이터 예측이 어려움을, 낮은 엔트로피는 데이터 예측이 비교적 쉬움을 의미함.
⊙ Cross Entropy,
두 확률 분포 간의 차이를 측정하는 척도.
실제 분포와 예측 분포 사이의 불일치를 평가하는 데 사용.
⊙ KL divergence,
Kullback-Leibler divergence(발산)으로, 두 확률 분포의 엔트로피 차이를 계산.
비대칭적임
cross entropy = H(p)+KL(p|q)
(H는 정보)
⊙ NCE,
noise contrastive estimationfh, 확률 분포를 추정하기 위한 방법 .
실제 데이터와 노이즈 데이터를 비교해 학습.
⊙ InfoNCE,
대조 학습에서 유사한 샘플을 가깝게, 비유사한 샘플을 멀리 배치하는 임베딩을 학습하는 데 사용되는 손실 함수
내가 생각하는 논문의 결론
• reducing the Mutual Information(MI) - removing task-irrelevant information
• keeping task-relevant information
Contrastive Learning이 할 때, x에서 추출된 v1, v2는 낮은 MI(Mutual Information)를 가져야 하고,
x의 label인 y와는 v1, v2 모두 각각 x와 y 사이 만큼의 MI를 가지고 있어야 한다.
위의 두 가지를 만족 시키는 View가 좋은 View다!
Reference
https://hyunw.kim/blog/2017/10/27/KL_divergence.html
'연구 > 논문' 카테고리의 다른 글
[논문정리, 미팅기록] Hard Sample Aware Network for Contrastive Deep Graph Clustering (AAAI 2023) (1) | 2024.05.29 |
---|---|
[논문정리, 미팅기록] What Makes for Good View for Conrastive Learning? (NIPS 2020) (0) | 2024.05.23 |