본문 바로가기

Computer Science/Web Information System10

[웹정보] ch09 Recomeder Systems 2 9.2.1 Netflix Prize 설명training data: 1억개의 평가,  48만명의 사용자, 17,770개의 영화(2000-2005)test data: 각 사용자의 마지막 몇 개의 평가 (280만개)평가 기준: RMSE - 당시 넷플릭스의 RMSE는 0.9514 -> 이것보단 낮아야 함!Utility matrixmovies - users matrix 우승한 BellKor 추천 시스템아래와 같이 multi-scale modeling을 함! * 참고로 Global과 Local이 뭐냐면만약 Joe라는 사람이 다른 사람들 평균에 비해 0.2stars씩 낮춰서주는 경향이 있다고 하자.Global view로 보면,모든 영화에 대한 모든 사람들의 rating 평균은 3.7 starssixth sense 영.. 2024. 6. 13.
[웹정보] ch11. dimensionality reduction 11.0 Intro하나의 행렬은 2개의 행렬의 곱으로 근사화할 수 있음!sparse한 하나의 행렬을 꽉 찬 2개의 행렬의 곱으로 근사화 한다면?→ 실제 행렬이 예측 못한 rating을 잘 예측할 수 있지 않을까! 이게 가능한 이유! → latent factor! 11.1 UV Decomposition❓r은 어떻게 정하지❓    r이 hidden factor의 수일 때 결과가 잘 나온다    ex. r이 장르의 개수일 때 good         m: 사람 x 영화,  u: 사람 x 장르,  v: 장르 x 영화 ❓Error 측정은 어떻게 하지❓    분해가 잘 되냐 안되냐 판단하는 기준: RMSE(Root-Mean-Square-Error) ❓U와 V는 어떻게 찾아내지❓  step1) latent factor.. 2024. 6. 13.
[웹정보] ch07 Clustering 7.1 클러스터링 개요클러스터링 - 비슷한 것끼리 묶는 것.데이터가 쌓였을 때 가장 쉽게 할 수 있는 데이터 분석법. 좋은 클러스터링?내부에서는 가깝고, 클러스터 간은 멀어야 좋음. The Curse of Dimensionality(차원의 저주)대부분 엄청 많은 차원을 사용함.근데 차원이 높아지면 점들 간의 거리가 비슷해짐. 클러스터링 예시SkyCat: 하늘의 천체들을 비슷한 애들끼리 묶음음반 클러스터링: CD를 산 사람들로 CD를 표현함.문서 클러스터링: 문서를 이루는 단어로 문서를 표현함DNA 서열 클러스터링: DNA 서열 간의 편집 거리를 이용해 클러스터링→ 뭔가 distance를 구할 수 있는 방법만 있으면 clustering할 수 있다!vector similarity → cosine distan.. 2024. 6. 11.
[웹정보] ch09 Recomeder Systems 1 9.1 추천 시스템 모델컨텐츠가 엄청 많아져서 "추천"이 필요해짐. Utility function:u = X x S → RX = Customer 집합S = Item 집합R = Rating 집합 Utility matrix - 빈 칸에 어떤 값이 들어갈 지 예측하는 것이 중요! 사용자의 관심 항목을 식별하는 접근 2가지접근1) "known" rating 모으기Explicit: 직접 사람에게 물어본 ratingImplicit: 내재된 행동으로 유추. 웹페이지에 몇번 들어갔나~, 얼마나 머물러 있었나~접근2) known rating으로부터 "unknown" rating 유추하기Utility matrix는 sparse하다!cold start: 새로운 아이템은 rating이 없고, 새로운 사용자는 history가 .. 2024. 6. 10.
[웹정보] ch06 Association Rules2 Hash-based Filtering: 문제 상황 길이가 10인 문자열로 이루어진 1billion(10^9)개의 문자열 집합 S가 있음. F를 스캔하여 S 안에 있는 문자열을 출력하고 싶음. 메인메모리는 1GB -> 10^8byte S를 메인메모리에 다 올리지 못함 Solution 8billion 비트로 이루어진 비트 배열을 만들고, 모두 0으로 설정. 범위가 [0, 8*10^9)인 해시함수 h를 선택. S의 각 문자열을 해싱에 하나의 비트로 매핑하고, 해당 비트를 1로 설정. File의 문자열에 해당하는 해시 값이 1인 경우에만 출력 문자열 집합 S에는 1billion개의 문자열이 있음. bit array는 8billion 길이임. 비트 배열의 최대 1/8이 "1"임. false positive가 있을.. 2024. 4. 20.
[웹정보] ch06 Association Rules1 Market Baskets 우리는 basket 사이의 관계가 아니라 item 사이의 관계가 궁금하다! Frequent Itemset: itemset이 support threshold 값인 s 이상 나타나면 frequent itemsets이다!! 다른 예시들 Item: 물건, basket: 구매한 물건들의 집합 Item: 문서, basket: 문장 반대로 생각할 수도 있지만 사용하는 목적에 따라 다른 거임. 즉 counting의 대상이 item이 되는 것임 몇개의 문서가 해당 문장을 포함하고 있냐 Item: 단어, basket: 웹페이지 단어로 아래와 같은 웹 마이닝을 할 수 있음 1. 페이지를 주제에 따라 클러스터화 유용한 블로그 찾기 댓글의 감정 판별 모호한 검색어로 검색된 페이지 분할 - ex. 재규.. 2024. 4. 20.
[웹정보] ch05 Link Analysis2 Topic-Specific Page Rank Some problems with page rank: 페이지 랭크가 가지고 있는 몇가지 단점은 아래와 같다! 너무 일반적인 popularity를 측정함. 이는 그냥 권위있는 페이지가 짱임. ex. apple을 검색했을 때 사과, 회사 처럼 다양하게 나오도록 못함 중요성을 측정하는 단일 지표만 사용. 다른 모델의 예: hubs and authorities가 있음 link spam에 취약 인공적인 링크가 만들어져서 페이지 랭크를 조작하는 것이 가능함. Topic-Specific Page Rank: generic한 인기 대신, 하나의 주제 내에서의 인기를 측정할 수 있다. Bias the random walk : 랜덤 워커가 이동할 때 특정 집합 S의 웹페이지에서 .. 2024. 4. 16.
[웹정보] ch05 Link Analysis1 Chapter05 Link Analysis Page Rank Simple flow page model: 페이지 P는 중요도를 outlink에게 N등분 한다. 위처럼 3개의 미지수, 3개의 식으로는 유니크한 값이 나오지는 않아서 아래와 같은 식을 추가하면 값을 보일 수 있음. Matrix formulation: 행렬 M은 웹페이지 개수 x 웹페이지 개수 형태임. i와 j가 연결 안되어 있으면 Mij = 0, 연결되어있으면 Mij = 1/n 따라서 M은 stochastic matrix임. -> 매 column의 값들을 더하면 1이 됨. r은 랭크 벡터. ri는 page i의 중요도 점수이다. 이므로 랭크 벡터 r은 eigenvector가 되고, 1은 M의 eigenvalue가 된다. Power Iterati.. 2024. 4. 15.
[웹정보] ch03 Finding Similar Items2 Mining of Massive Datasets Jure Leskovec Stanford University, Anand Rajaraman Rocketship Ventures, Jeffrey D. Ullman Stanford University Chapter03 Finding Similar Items Application: Entity Resolution Entity Resolution: 두 엔티티가 같은지를 알아내는 것! 같은 값을 가진 상황에서 이들을 merge하고 싶을 때 사용을 많이 함. Matching Customer Records 문제 A회사가 B회사의 고객리스트에 광고하고 싶어함. 그렇다면 몇 명 치 요금을 내야할까? A회사 리스트와 B회사의 리스트가 겹치는 것도 있지 않겠냐! → LSH로 .. 2024. 3. 25.
[웹정보] ch03 Finding Similar Items1 Mining of Massive Datasets Jure Leskovec Stanford University, Anand Rajaraman Rocketship Ventures, Jeffrey D. Ullman Stanford University Chapter03 Finding Similar Items Shingling 문서, 이메일 등을 set으로 전환 2-Shingle 예시 k = 2, doc = ab cab Set of 2-shingles = {ab, b_, _c, , ca} (?? , 중복이면 한번만 써도 되나) k는 보통 8, 9, 10 8비트로는 256가지 표현 가능한데 charactor는 몇가지 안됨. 1Shingle이 1바이트이지 않아도 됨. 모든 char 조합 중 사실 실제 사용하는 것은 .. 2024. 3. 15.