Lecture 12


Lecture 12.3 - Finding Frequent Subgraphs

Problem

  1. Enumerating all size-k connected subgraphs
  2. Counting #(occurrences of each subgraph type)

가장 빈도수가 높은 size-k의 Motifs를 찾기 위해서는 다음 2가지를 해결해야 한다. 그런데 이렇게 Enumerating하고 Counting하는 것은 가능한 모든 패턴들을 조합시켜서 Combinatorial explosion을 가져오기 때문에 매우 hard computational problem이다. 따라서 우리는 이러한 문제를 Representation learning을 통해서 해결한다. GNN을 이용하여 그래프의 임베딩을 서로 비교하면서 두 그래프의 관계를 찾아서 해결한다.

SPMinier

가장 빈도수가 높은 size-k의 Motifs를 찾는 하나의 neural model이 바로 SPMiner이며, $G_T$ 그래프를 분해하여 order embedding space로 보낸 뒤 임베딩 공간에 나타난 뒤에 주어진 Subgraph $G_Q$를 모두 비교하며 Subgraph 빈도 수를 구하는 것이다. 여기서 Subgraph의 집합 = size-k의 Motifs의 후보

Order embedding space에서는 subgraph의 여부를 쉽게 알 수 있으며 위 그림에서 붉은색 영역 내의 모든 노란 점들은 $G_Q$를 포함하는 모든 $G_T$의 neighborhoods가 된다.

SPMiner 목표는 k step 마다 가장 많은 eighborhood embeddings를 포함하는 Motif를 찾는 것이고, 학습은 무작위로 한개의 노드를 초기의 값으로 선택한 후$(S = u)$에 각 step 마다의 subgraph를 저장하는 과정($S$의 이웃 노드들을 골라 점진적으로 늘려 Motif의 사이즈를 키워간다 = 스텝을 진행하면서 motif를 성장시켜 더 큰 motif를 찾는 것이 목표이며, 위의 그림의 빨간 점에 속하는 neighborhoods의 수를 최대화하는 것이 목표)으로 이루어지고, 지정한 $k$(원하는 mofit 크기)에 도달하면 학습을 멈추며 Subgraph를 도출한다.

Summary

  • Subgraphs and motifs are important concepts that provide insights into the structure of graphs. (Subgraph와 Motif는 그래프의 구조에 대한 insights를 제공하는 중요한 개념)

    • Their counts can be used as features for nodes and graphs. (이를 노드 및 그래프의 기능으로 사용할 수 있다.)
  • We covered neural approaches to prediction subgraph isomorphism relationship. (Subgraph를 예측하기 위해서 neural apporaches를 적용하였다.)
  • Order embeddings have desirable properties and can be used to encode subgraph relations (Order embeddings의 속성을 사용하여서 Subgraph의 관계를 encode에 사용할 수 있다.)
  • Neural embedding-guided search in order embedding space can enable ML model to identify motifs much more frequent than existing methods (order embedding space을 통해서 ML 모델이 기존 방법보다 훨씬 더 Motif를 식별할 수 있습니다.) —

    Reference

CS224W: Machine Learning with Graphs 2021 Lecture 12.3 - Finding Frequent Subgraphs

Lecture 12. Frequent Subgraph Mining with GNNs

12. Frequent Subgraph Mining with GNNs