본문 바로가기
연구/논문

[미팅 후 기록] What Makes for Good View for Conrastive Learning? (NIPS 2020)

by na1-4an 2024. 5. 29.
What Makes for Good View for Conrastive Learning?
Yonglong Tian et al. NIPS 2020
c. https://arxiv.org/pdf/2005.10243
https://github.com/HobbitLong/PyContrast

 

이 논문을 보게된 배경...

그래프에서 링크를 예측하는 것은 중요하다.

→ 예측을 잘 하려면 경향성을 아는 것이 중요하다. (특정 값보단!!)

→ 이 방안으로 Contrastive Learning이 뜬다.

→ Contrastive Learning을 잘 하기 위해서는 View를 잘 만들어야 한다!

"What Makes for Good View for Conrastive Learning?"

 

Information Theory

이 논문을 잘 이해하기 위해서는 정보이론 개념을 어느정도 알고 있어야 한다!

(나는 잘 모르는 채로 이해해서 조금 어려웠다..)

기본적으로 알아야 하는 개념과, 이 논문에서 사용하는 몇가지 개념에 대해 알아보겠다.

Information,

    흠.. 

Mutual Information,

    하나의 변수에 대한 정보가 주어졌을 때 다른 변수에 대한 불확실성이 얼마나 줄어드는지를 나타냄.

    즉, 두 변수간의 상호 의존성을 평가하는 데 사용.

Entropy,

    확률 변수의 불확실성을 나타내는 정도.

    높은 엔트로피는 데이터 예측이 어려움을, 낮은 엔트로피는 데이터 예측이 비교적 쉬움을 의미함.

Cross Entropy,

    두 확률 분포 간의 차이를 측정하는 척도.

    실제 분포와 예측 분포 사이의 불일치를 평가하는 데 사용.

KL divergence,

    Kullback-Leibler divergence(발산)으로, 두 확률 분포의 엔트로피 차이를 계산.

    비대칭적임

    cross entropy = H(p)+KL(p|q)

    (H는 정보)

NCE,

    noise contrastive estimationfh, 확률 분포를 추정하기 위한 방법 .

   실제 데이터와 노이즈 데이터를 비교해 학습.

InfoNCE

    대조 학습에서 유사한 샘플을 가깝게, 비유사한 샘플을 멀리 배치하는 임베딩을 학습하는 데 사용되는 손실 함수

 

내가 생각하는 논문의 결론

•  reducing the Mutual Information(MI) - removing task-irrelevant information

  keeping task-relevant information

 

Contrastive Learning이 할 때, x에서 추출된 v1, v2는 낮은 MI(Mutual Information)를 가져야 하고,

x의 label인 y와는 v1, v2 모두 각각 x와 y 사이 만큼의 MI를 가지고 있어야 한다.

위의 두 가지를 만족 시키는 View가 좋은 View다!

 

 

Reference

https://hyunw.kim/blog/2017/10/27/KL_divergence.html

 

초보를 위한 정보이론 안내서 - KL divergence 쉽게 보기

사실 KL divergence는 전혀 낯선 개념이 아니라 우리가 알고 있는 내용에 이미 들어있는 개념입니다. 두 확률분포 간의 차이를 나타내는 개념인 KL divergence가 어디서 나온 것인지 먼저 파악하고, 이

hyunw.kim