Lecture 13.1 - Community Detection in Networks
CS224W Lecture 13. Community Detection in Networks
- Networks & Communities
- Flow of Job Information
- Granovetter’s Explanation
- Triadic Closure
- Edge Strength in Real Data (1) - 실험 세팅
- Edge Strength in Real Data (2) - 실험 결과
- Conceptual Picture of Networks
Lecture 13. Community Detection in Networks
Networks & Communities
우리는 직관적으로 네트워크를 아래 그림과 같은 형태로 생각하곤 합니다. 가장 단적인 예로, 자신의 인간관계 그래프를 떠올려 보십시오. 나의 가족과 친구로 구성된 최측근 집단이 있는 반면, 직장 혹은 학교에서 이름과 얼굴 정도만 아는 좀 더 먼 관계들도 있을 수 있습니다.
Flow of Job Information
1960년도에 Granovetter은 이런 소셜 네트워크 상 사람들이 어떤 경로로 직업을 소개 및 추천 받는지에 대한 분석을 수행하였습니다. 분석 결과, 사람들은 주로 주변 사람들로부터 직업을 소개 받지만, 놀랍게도 가까운 지인(close-friend)보다 가벼운 친분이 있는 사람들(acquaintance)로 부터 소개 받는 경우가 더 많았습니다. 왜 이런 결과가 도출되었을까요?
Granovetter’s Explanation
위 의문점에 대한 해답으로 Granovetter은 그래프 상 엣지, 즉 사람들 사이에 형성된 관계들을 구조적인 관점과 사회적인 관점으로 동시에 봐야 한다고 이야기 했습니다. 더 나아가 Granovetter은 엣지의 구조적인 역할과 사회적인 역할을 결부하려고 하였는데요, 그 요점은 아래와 같습니다.
- 구조적으로 밀도 높게 모여있는 노드들 간의 엣지 ↔사회적으로 더 가까운 관계를 나타냄 (Tightly-connected edges ↔ Socially strong)
- 구조적으로 멀리 떨어진 노드들 사이를 잇는 엣지 ↔ 사회적으로 더 먼 관계를 나타냄 (Long-range edges ↔ Socially weak)
이를 정보 흐름의 관점에서 재해석하면 왜 사람들이 사회적으로 친분이 덜한 사람들에게서 직업 소개를 더 많이 받는지 알 수 있습니다 🙂
- 위 그래프 상 Weak/ W로 표시된 long-range 엣지를 통해 네트워크의 다른 부분들에서 유의미한 정보가 흘러 들어올 수 있습니다.
- 위 그래프 상 Strong/ S로 표시된 tightly-connected 엣지를 통해 흘러 들어오는 정보들은 보다 불필요하거나 중복된 정보일 확률이 높습니다.
여러분들도 정기적으로 만나는 가장 친한 친구들과 대화하다 보면 항상 대화가 거기서 거기라고 느껴본 적 있으신가요? 아무래도 가장 자주 소통하는 친구들이다 보니까 자연스레 서로 알고 있는 정보가 비슷해지는 반면, 오랜만에 만나는 사람들과 얘기해보면 생각치 못했던 새로운 정보나 사실을 알게 되곤 하죠. 이런 실생활의 예시로도 위와 같은 현상이 설명되는 것 같네요!
Triadic Closure
그렇다면 네트워크에 존재하는 밀도 높은 군집들은 어떻게 해서 생겨나는 것일까요?
그 이유를 알아보기에 앞서서 위와 같은 그래프에서 노드 a와 b가 엣지로 연결될 확률이 더 높을까요 혹은 노드 a와 c가 연결될 확률이 더 높을까요? 아마 공통된 이웃 노드를 갖고 있는 a와 b가 연결될 확률이 더 높을 것입니다. 이렇게 서로 완전 연결된 삼각형 구조를 triadic(3인조의) closure이라고 합니다. 네트워크 상 triadic closure이 많다는 것은 곧 우리가 2강에서 다뤘던 clustering coefficient가 높다는 것과 동일한 의미를 가집니다.
💡 Clustering Coefficient (2강 참조)
네트워크에서 triadic closure이 생겨서 결국 밀도 높은 군집들이 형성되는 이유는 다음과 같습니다.
만약 B와 C라는 사람이 A라는 공통인 친구가 있다고 가정한다면,
- B와 C는 둘 다 A와 시간을 보낼 것이기 때문에 서로 만날 확률이 높습니다.
- B와 C는 공통 지인이 있기 때문에 서로를 신뢰할 수 있을 것입니다.
- A는 B와 C를 따로 만나 시간을 보내기 보다, B와 C를 서로 소개 시켜준 후 다같이 함께 만난다면 시간적, 금전적으로 이득이 생깁니다. 따라서 A는 B와 C를 서로 소개 시켜주려는 경향이 있을 것입니다.
실제로 연구 결과에 따르면 소셜 네트워크 상 triadic closure을 많이 갖고 있지 않은 십대 소녀들은 사회적인 군집을 이루고 있는 학생들에 비해 자살을 생각하는 경우가 더 많다고 합니다. 이렇게 triadic closure을 만들어 사회적으로 어떤 군집 혹은 커뮤니티에 소속되고자 하는 것은 인간의 본성인가 봅니다 😂
Edge Strength in Real Data (1) - 실험 세팅
수년동안 큰 소셜 네트워크의 부재로 인해 Granovetter의 이론은 검증되지 못했습니다. 하지만 오늘날에는 이메일, 메신저, 휴대폰, SNS를 통해 사람들 사이에 폭넓은 소통이 가능해지게 됨으로써 비로소 Granovetter의 이론을 테스트해볼 수 있게 되었죠.
우리는 EU 국가 인구 일부의 통화 네트워크를 활용하여 Granovetter 이론의 타당성을 검증해보도록 하겠습니다(Onnela et al. 2007). Granovetter의 주장에 따르면 네트워크 상에서 밀도 높게 모여 있는 노드들이 곧 사회적으로 더 가까운 관계를 나타내기 때문에, 과연 정말로 밀집된 노드 간 실제 통화량(edge weight/ edge strength)이 더 높은지 직접 확인해볼까요?
-
구조적인 노드 밀집도 (Tightly-connected edges)
이어진 두 노드가 구조적으로 얼마나 밀도 높게 모여 있는지 확인하기 위해 Edge overlap이라는 개념을 새로 도입하겠습니다. Edge overlap은 아래의 식으로 구할 수 있으며, 0과 1 사이의 값으로 도출됩니다. Edge overlap이 1에 가까워질수록 두 노드는 한 커뮤니티에 속하는 노드일 가능성이 높으며, 0에 가까워질수록 두 노드를 잇는 엣지는 커뮤니티와 커뮤니티를 잇는 local bridge에 가까워집니다. -
사회적인 밀접도 (Socially strong)
사회적인 밀접도는 통화량을 나타내는 edge weight(edge strength)로 판단할 것입니다.
💡 Q ) Edge Overlap $\propto$ Edge Strength(# phone calls)
Edge Strength in Real Data (2) - 실험 결과
-
Edge Overlap vs. Strength
각 엣지에 대한 edge overlap 값과 edge strength를 나타낸 그래프는 아래와 같습니다. 파란색으로 표현된 우리 데이터에 대해서 예상 그대로 edge overlap과 edge strength가 정비례하는 관계를 보입니다. 빨간색으로 표현된 선은 실험의 베이스라인으로써, 우리 데이터의 네트워크 구조는 그대로 유지하되 edge strength 값만 랜덤하게 재배치한 그래프에 대한 결과입니다.데이터를 직접 시각화 해보면 이러한 경향이 더 확연하게 보입니다. 아래의 왼쪽 그래프가 우리의 실제 통화량 그래프이며, 여기서 엣지의 색깔이 edge weight를 나타냅니다. 보다시피 밀집되어있는 노드들 사이가 붉은색 엣지로 연결되어 상호 통화량이 많다는 사실을 확인할 수 있습니다. 반면, 오른쪽에 제시된 랜덤 edge weight의 베이스라인 네트워크에선 구조적인 밀집도와 관계 없이 붉은색 엣지가 산재되어 있는 것을 볼 수 있습니다.
-
Edge Removal
더 나아가 그래프의 엣지를 삭제해가면서 나뉘는 그래프의 sub-components 중 가장 큰 subgraph의 크기를 확인해보도록 하겠습니다. 여기서 각각 edge strength와 edge overlap을 기준으로 하여 그래프의 엣지를 삭제할텐데, 만약 Granovetter의 주장대로 edge strength와 edge overlap이 비례하는 관계라면, 두 경우 모두 엣지 삭제 결과의 경향성이 비슷해야 할 것입니다.아래 결과 그래프에서 볼 수 있다시피, 두 경우에서 모두 edge strength와 edge overlap의 값이 작은 엣지부터 삭제했을 때 가장 큰 subgraph의 크기가 더 작아진다는 것을 확인할 수 있습니다. 이는 edge strength와 edge overlap값이 작은 엣지는 커뮤니티 간 local bridge일 확률이 높기 때문에 비교적 더 빠르게 전체 네트워크를 subgraph로 나눌 수 있기 때문입니다.
Conceptual Picture of Networks
지금까지 Granovetter의 이론의 검증을 마쳤습니다. 그의 이론에 따르면 결론적으로 그래프는 1) 국소적으로 밀집되어 strong 엣지로 연결된 노드 커뮤니티와, 2) 서로 다른 커뮤니티를 잇는 weak 엣지들로 구성됩니다.