To be continued ...
<Similiarity>
Feature Selelction and Feature Engineering are always necessary when doing any analsys
SimRank
SimRank is a general similarity measure, based on a simple and intuitive graph-theoretic model. SimRank is applicable in any domain with object-to-object relationships, that measures similarity of the structural context in which objects occur, based on their relationships with other objects. Effectively, SimRank is a measure that says "two objects are considered to be similar if they are referenced by similar objects." Although SimRank is widely adopted, it may output unreasonable similarity scores which are influenced by different factors, and can be solved in several ways, such as introducing an evidence weight factor,[1] inserting additional terms that are neglected by SimRank[2] or using PageRank-based alternatives.[3]
단순구글번역
SimRank는 단순하고 직관적인 그래프 이론 모델을 기반으로 하는 일반적인 유사도 측정입니다. SimRank는 다른 개체와의 관계를 기반으로 개체가 발생하는 구조적 컨텍스트의 유사성을 측정하는 개체 대 개체 관계가 있는 모든 영역에 적용할 수 있습니다. 실제로 SimRank는 "두 개의 개체가 유사한 개체에서 참조되는 경우 유사한 것으로 간주됩니다."라는 측정값입니다. SimRank가 널리 채택되고 있지만 다양한 요인에 의해 영향을 받는 불합리한 유사도 점수가 출력될 수 있으며, 증거 가중치 요인[1]을 도입하거나 SimRank[2]에서 무시되는 추가 용어를 삽입하는 등 여러 가지 방법으로 해결할 수 있습니다. PageRank 기반 대안 사용.[3]
4. SimRank
4.1. Motivation
비슷한 object에 의해 reference되고 있는 두 object는 비슷할 것이다-가 기본 전제.
그렇다면 동일한 object의 simrank에는 1을 부여할 수 있을 것이다.
앞으로 sim rank를 구하는 공식을 살펴보자.
4.2 Basic SimRank Equation
- a랑 b랑 같으면 s(a,b)=1
- 그렇지 않으면
즉, 주변 것들의 유사도를 모두 합쳐서 평균낸 것에 C를 곱한 것이다.
- similarity 를 propagating 시키기 위해 G2 그래프를 만드는데, <a,b><c,d> 두 노드에서 a->c b->d의 edge가 이전에 있었으면 G2에서 edge가 있다.
- 그래프에서 ProfA,ProfA와 같이 영향을 주지 않는 singleton node와 ProfA,StudentA와 같은 similarity 0인 노드는 포함되어있지 않다.
- 만약 x가 c와 d를 가리키고 있다면 s(x,x)=1이지만 s(c,d)= Cs(x,x)가 되어야 한다. C는 confidence level or decay factor
4.3 Bipartite SimRank
A가 sugar,frosting,eggs를 사고, B가 frosting,eggs,flour를 샀다면 둘은 비슷하다고 할수 있다.
왜냐하면 A와 B가 둘다 frosting과 eggs를 샀기 때문이다.
또한 sugar와 flour자체도 비슷하기 때문이다.
왜냐하면 비슷한 구매자인 A와 B가 모두 구매했기 때문이다.
즉 아이템간 유사도와 구매자의 유사도는 서로 reinforce한다.
https://blog.naver.com/koys007/221265003232
SimRank는 연결된 두 노드간의 similarity를 합하여 각 노드 타입의 유사도를 계산하는 반복적인 알고리즘이다.
[출처] Measuring similarity and distance function|작성자 가빈아빠
설명을 많이 풀어서 예시를 들어 가면서 해 줘서 좀 더 이해하기 쉬움(그렇다고 쉽다고 말하는 것임 아님 상대적으로 쉽게 설명)
https://blog.naver.com/hee910224/222408312485
RoleSim
<Classfication>
K :: How many neighbors you should consider
The prediction depends on the value of K
General process in data preparation and analysis running for model accuracy validation
Avoid Overfitting
n-fold cross validation with multiple data training set
Select the K which produced the highest Accuracy(k)
Accuracy()=number(%) of correct predictions
Sample dataset
There are some feedback when I get into tigergraph (cloud, studio, or other youtube - materials file connection)
Fore more about ... deep learning or neural network beyond graph analysis
cf.
etc.
https://blog.naver.com/jinho381/222435290064
https://blog.naver.com/infoefficien/221181363964
Neural Network
'Intro Jacob' 카테고리의 다른 글
Graphdatabase 이해 (0) | 2021.08.29 |
---|---|
TigerGraph World (0) | 2021.07.27 |
One of the authors of the book [Data Architecture Professional] (0) | 2021.07.14 |
Jacob Jo - MariaDB (0) | 2021.07.02 |
2019 AWS Summit ClustrixDB intro (0) | 2019.04.18 |