<menuitem id="dtdv5"><dl id="dtdv5"><address id="dtdv5"></address></dl></menuitem>
<cite id="dtdv5"><span id="dtdv5"></span></cite>
<del id="dtdv5"><noframes id="dtdv5"><del id="dtdv5"></del>
<ins id="dtdv5"></ins><ins id="dtdv5"></ins>
<ins id="dtdv5"></ins>
<var id="dtdv5"><span id="dtdv5"></span></var>
<del id="dtdv5"><noframes id="dtdv5"><ins id="dtdv5"></ins><del id="dtdv5"></del>
<del id="dtdv5"><noframes id="dtdv5"><ins id="dtdv5"></ins>

論文信息

1 摘要

  在本工作中,我們提出了一種簡單而有效的自監督節點表示學習策略,通過直接最大化節點的隱藏表示及其鄰域之間的互信息,這可以通過圖平滑理論證明。在 InfoNCE 之后,我們的框架通過一個替代對比損失進行了優化,其中正樣本選擇支撐了表示學習的質量和效率。為此,我們提出了一種拓撲感知的正采樣策略,該策略通過考慮節點之間的結構依賴性,從鄰域進行正采樣,從而能夠提前進行正選擇。在極端情況下,當只有一個正的采樣時,我們完全避免了昂貴的鄰域聚合。我們的方法在各種節點分類數據集上都取得了很好的性能。值得一提的是,通過將我們的損失函數應用于基于 MLP 的節點編碼器,我們的方法可以比現有的解決方案更快。

2 介紹

  本文任務:節點分類。[ 關鍵:通過從鄰域獲取上下文信息來學習帶結構信息的節點表示 ]

  GNNs 過程可總結為: Aggregation-Combine-Prediction pipeline

  Aggregation 步驟通過 mean [15]、max [15]、attention [31] 和 ensemble [8] 等各種鄰域聚合器將鄰域信息聚合為向量化表示,并通過 sum 或 concatenation 與節點表示相結合,實現鄰域信息融合。為獲得多跳信息,在最終獲得用于預測節點標簽的表示之前,常重復采用 Aggregation-Combine 操作。

  論文解讀( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》-LMLPHP

3 方法

3.1 GNN 框架

  有監督的GNN 框架為:

  $\begin{array}{l}\overrightarrow{\boldsymbol{s}}_{i}^{(l-1)} &=\operatorname{AGGREGATION}\left(\left\{\overrightarrow{\boldsymbol{h}}_{j}^{(l-1)}: v_{j} \in \mathcal{N}_{i}\right\}\right) \\\overrightarrow{\boldsymbol{h}}_{i}^{(l)} &=\operatorname{COMBINE}\left(\left\{\overrightarrow{\boldsymbol{s}}_{i}^{(l-1)}, \overrightarrow{\boldsymbol{h}}_{i}^{(l-1)}\right\}\right) \\\mathcal{L}_{\mathrm{CE}} &=\operatorname {PREDICTION}\left(\left\{\overrightarrow{\boldsymbol{h}}_{i}^{(L)}, y_{v_{i}}\right\}\right)\end{array}\quad\quad\quad\quad(1)$

3.2.節點到鄰域(N2N)互信息最大化

  基于特征空間 $\mathcal{X}^{D^{(l)}}$的節點表示 $\overrightarrow{\boldsymbol{h}}_{i}^{(l)}$ 的概率密度函數 $p\left(H(\boldsymbol{x})^{(l)}\right)$,同樣鄰居節點表示也類似$p\left(S(\boldsymbol{x})^{(l)}\right)$,我們將節點表示與其對應的鄰域表示之間的互信息定義為:

  $I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right)= \int_{\mathcal{X}^{(l)}} p\left(S(\boldsymbol{x})^{(l)}, H(\boldsymbol{x})^{(l)}\right) \cdot \log \frac{p\left(S(\boldsymbol{x})^{(l)}, H(\boldsymbol{x})^{(l)}\right)}{p\left(S(\boldsymbol{x})^{(l)}\right) \cdot p\left(H(\boldsymbol{x})^{(l)}\right)} d \boldsymbol{x}\quad\quad\quad\quad(2)$

  PS:互信息  $I(X ; Y)$  是聯合分布  $p(x, y) $ 與 邊緣分布  $p(x) p(y)$  的相對熵。

  互信息難計算的原因:由于在連續和高維空間中。

  幸運的是,通過 Mutual Information Neural Estimation (MINE) [1],可實現互信息計算,它將互信息最大化轉化為最小化 $\text{InfoNCE}$ 損失,將 $\text{Eq. (2)}$ 中的 N2N 互信息損失轉換為:

  $\begin{aligned}\mathcal{L}_{\text {InfoNCE }} =-\mathbb{E}_{v_{i} \in \mathcal{V}}\left[\log \frac{\exp \left(\operatorname{sim}\left(\overrightarrow{\boldsymbol{s}}_{i}^{(l)}, \overrightarrow{\boldsymbol{h}}_{i}^{(l)}\right) / \tau\right)}{\sum_{v_{k} \in \mathcal{V}} \exp \left(\operatorname{sim}\left(\overrightarrow{\boldsymbol{h}}_{k}^{(l)}, \overrightarrow{\boldsymbol{h}}_{i}^{(l)}\right) / \tau\right)}\right]\end{aligned}\quad\quad\quad(3)$

  最大化互信息 $I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right)$ 起著圖平滑的作用 ,這被證明對節點/圖預測是積極的,在此,本文引入特征平滑度量[18]:
    $\delta_{f}^{(l)}=\frac{\left\|\sum_{v_{i} \in \mathcal{V}}\left(\sum_{v_{j} \in \mathcal{N}_{i}}\left(\overrightarrow{\boldsymbol{h}}_{i}^{(l)}-\overrightarrow{\boldsymbol{h}}_{j}^{(l)}\right)\right)^{2}\right\|_{1}}{|\mathcal{E}| \cdot D^{(l)}}\quad\quad\quad(4)$

  工作[ 18 ] 進一步提出從鄰居表示 $\overrightarrow{\boldsymbol{s}}_{i}^{(l)}$ 得到的信息,可以表達為 KL 散度的形式:

    $D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right)= \int_{\mathcal{X}^{(l)}} p\left(S(\boldsymbol{x})^{(l)}\right) \cdot \log \frac{p\left(S(\boldsymbol{x})^{(l)}\right)}{p\left(H(\boldsymbol{x})^{(l)}\right)} d \boldsymbol{x}\quad\quad\quad(5)$

  $\text{Eq. (5)}$ 和特征平滑度量有著很大的關聯,即 $D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right) \sim \delta_{f}^{(l)}$。

證明:

  通過互信息與信息熵之間的關系,我們得到:

    $I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right)= \mathrm{H}\left(S(\boldsymbol{x})^{(l)}\right)+\mathrm{H}\left(H(\boldsymbol{x})^{(l)}\right)-\mathrm{H}\left(S(\boldsymbol{x})^{(l)}, H(\boldsymbol{x})^{(l)}\right)\quad\quad\quad(10)$

  其中:$\mathrm{H}(\cdot)$ 是信息熵,$\mathrm{H}(\cdot, \cdot)$ 是聯合信息熵。

  帶信息熵的KL散度定義為:  

    $D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right)= \mathrm{H}\left(S(\boldsymbol{x})^{(l)}, H(\boldsymbol{x})^{(l)}\right)-\mathrm{H}\left(S(\boldsymbol{x})^{(l)}\right)\quad\quad\quad(11)$

  應用 $\text{Eq.10}$ 和 $\text{Eq.11}$ 得到:

    $\begin{array}{l} I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right)&=\mathrm{H}\left(S(\boldsymbol{x})^{(l)}\right)+\mathrm{H}\left(H(\boldsymbol{x})^{(l)}\right) -D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right)-\mathrm{H}\left(S(\boldsymbol{x})^{(l)}\right) \\ &=\mathrm{H}\left(H(\boldsymbol{x})^{(l)}\right)-D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right) \end{array}\quad\quad\quad(12)$

  由  $\text{Eq.12}$ 便得到結論:

    ${\large I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right) \sim \frac{1}{D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right)} \sim \frac{1}{\delta_{f}^{(l)}}\quad\quad\quad(13)} $

3.3 拓撲正相關抽樣(TAPS)

  獲得的鄰居表示 $\overrightarrow{\boldsymbol{s}}_{i}^{(l)}$ ,所存在的問題是:

    • 首先,整個社區可能包含冗余甚至有噪聲的信息?! ?/span>
    • 其次,聚合操作的計算代價高昂?! ?/span>

  為解決這個問題,本文提出 TAPS 策略。

  對于一個節點 $v_{i}$,使用 $X_{i}$ 代表它的拓撲信息。$X_{i}$ 可以代表其鄰域 $\mathcal{N}_{i}$ 所提供的信息量,也可以代表著其非鄰域 $\overline{\mathcal{N}_{i}}=\mathcal{V}-\mathcal{N}_{i}$ 所帶來的信息?;?X_{i}$,我們定義 $p\left(X_{i}=\mathcal{N}_{i}\right)=\frac{\left|\mathcal{N}_{i}\right|}{|\mathcal{V}|} $ 和 $p\left(X_{i}=\overline{\mathcal{N}_{i}}\right)=\frac{\left|\mathcal{V}-\mathcal{N}_{i}\right|}{|\mathcal{V}|}$ ,其中 $|\cdot|$ 代表著基函數(可增可減)。$p\left(X_{i}=\mathcal{N}_{i}\right) $ 表示當我們在圖上隨機采樣一個節點時,該節點落入 $v_{i}$ 鄰域的概率。此外,對于相鄰的兩個節點 $v_i$ 和 $v_j$,我們可以定義以下聯合概率:

    $\begin{array}{l} p\left(X_{i}=\mathcal{N}_{i}, X_{j}=\mathcal{N}_{j}\right)=\frac{\left|\mathcal{N}_{i} \cap \mathcal{N}_{j}\right|}{|\mathcal{V}|} \\ p\left(X_{i}=\mathcal{N}_{i}, X_{j}=\overline{\mathcal{N}_{j}}\right)=\frac{\left|\mathcal{N}_{i} \cap\left(\mathcal{V}-\mathcal{N}_{j}\right)\right|}{|\mathcal{V}|} \\ p\left(X_{i}=\overline{\mathcal{N}_{i}}, X_{j}=\mathcal{N}_{j}\right)=\frac{\left|\left(\mathcal{V}-\mathcal{N}_{i}\right) \cap \mathcal{N}_{j}\right|}{|\mathcal{V}|} \\ p\left(X_{i}=\overline{\mathcal{N}_{i}}, X_{j}=\overline{\mathcal{N}_{j}}\right)=\frac{\left|\left(\mathcal{V}-\mathcal{N}_{i}\right) \cap\left(\mathcal{V}-\mathcal{N}_{j}\right)\right|}{|\mathcal{V}|}, \end{array}\quad\quad\quad(7)$

  其中 $p\left(X_{i}=\mathcal{N}_{i}, X_{j}=\mathcal{N}_{j}\right)$ 是隨機選擇的節點落入 $v_i$ 和 $v_j$ 相交鄰居的概率?;诨バ畔?,我們將 $v_i$ 和 $v_j$ 之間的圖結構依賴關系定義為:

    $\begin{aligned}I\left(X_{i} ; X_{j}\right)=& \sum\limits _{X_{i}} \sum\limits_{X_{j}} p\left(X_{i}, X_{j}\right) \cdot \log \frac{p\left(X_{i}, X_{j}\right)}{p\left(X_{i}\right) \cdot p\left(X_{j}\right)} \\ & \text { s.t. } v_{j} \in \mathcal{N}_{i} . \end{aligned}\quad\quad\quad\quad(8)$

  上面的圖結構依賴值主要度量兩個節點的拓撲相似性。值越大,表示兩個節點之間有很強的依賴性。

  在我們的 TAPS 策略中,我們通過排序選擇和 $v_i$ 正相關依賴值的鄰居節點,然后通過 Aggregator 操作獲得節點$v_i$的鄰居節點表示 $\overrightarrow{\boldsymbol{s}}_{i}^{(l)}$。當只選擇一個正節點時,我們直接選擇對 $v_i$ 依賴值最大的節點 $v_j$,從而避免了昂貴的聚合操作。同時,由于圖的拓撲結構僅依賴于鄰接矩陣,TAPS允許我們預先進行正采樣,這可以避免訓練過程中的正采樣開銷。

4 訓練框架

  有三種基于圖的自監督訓練方案[21]。

    • 第一種類型是 Pre-training 和 Fine-tuning(PT和FT)。預訓練階段首先用代理任務初始化GNN編碼器的參數。在此之后,這個預先訓練好的GNN編碼器將在特定的下游任務的監督下進行微調?! ?/span>
    • 第二種是 Joint Learning (JL) 方案,其中GNN編碼器、代理任務和下游任務被聯合訓練?! ?/span>
    • 最后一種類型是無監督表示學習(URL)。與 PT&FT 類似,URL也遵循了一個兩階段的訓練方案,其中第一階段基于代理任務對GNN編碼器進行訓練,但在第二個下游任務階段,GNN編碼器被凍結?! ?/span>

  在我們的工作中,我們同時采用JL和URL管道來訓練和評估我們的網絡。

4.1 JL 訓練框架

  如 Figure 1.(a)說明了 JL 訓練過程。

  論文解讀( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》-LMLPHP

  可以看出,不像大多數現有的基于圖的SSL工作,使用GNN作為節點/圖編碼器,我們簡單地使用一個淺的MLP作為編碼器,這更有效。在JL方案中,我們在MLP編碼器輸出的節點表示之上聯合應用InfoNCE損失和交叉熵損失:

    $\mathcal{L}=(1-\alpha) \mathcal{L}_{\mathrm{CE}}+\alpha \mathcal{L}_{\mathrm{InfoNCE}}\quad\quad\quad(9)$

4.2 URL 訓練框架

  如 Figure 1.(b) 所示,包括兩個訓練階段:訓練前的代理任務使用 InfoNCE 損失 $\mathcal{L}_{\mathrm{InfoNCE}}$ 訓練 MLP 編碼器,下游任務使用交叉熵損失 $\mathcal{L}_{\mathrm{CE}}$ 學習線性節點分類器。

5 實驗

5.1 實驗設置

  6 個節點分類數據集:Cora[39],Pubmed[39],citsee[39],Amazon Photo[28],Coauthor CS [28] 和 Coauthor Physics [28]。

5.2 基線

  對比的方法:

  論文解讀( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》-LMLPHP

5.3 結果分析

  Table 2 顯示了本文的方法與其他選擇的方法之間的性能比較。

  論文解讀( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》-LMLPHP

  • 我們的 N2N 模型,無論是 N2N(JL) 還是 N2N(URL),在所有 6 個數據集上的表現始終優于比較方法。在 Cora、Pubmed 和 Coauthor CS 等數據集上,提高率可以高達 3%。這表明了 N2N 互信息最大化策略在 GNN 和其他基于 GCL 的節點表示學習方面的競爭力。另一個值得一提的問題是,由于我們基于 N2N 的方法避免了拓撲增強,而是簡單地使用 MLP 作為節點編碼器,我們的方法在訓練和推理方面更有效。
  • 在 N2N 系列中,我們在基于 TAPS 抽樣更多的正相關鄰居,通常觀察到改善,但改善是有限的。這表明了 N2N-TAPS-1 的潛力,因為它避免了已知的昂貴的鄰域聚合操作。然而,當從附近隨機抽樣單個正樣本時,性能顯著下降。這一結果表明,所提出的戰術策略確實可以采樣拓撲意義的正相關鄰居。
  • 在現有的方法中,GCL 方案與有監督的 GNN 變體相比,具有類似的性能,甚至稍微更好的性能。這一觀察結果表明,SSL 可能是基于圖的表示學習中的一種很有前途的替代方法。

5.4 消融實驗

5.4.1 基于隨機正抽樣的 N2N(JL)

  在本節中,基于隨機正抽樣的 N2N(JL)。為了進一步證明我們的 TAPS 策略的必要性和優勢,通過將采樣量從 $1$ 改變到 $5$ 來進行隨機正抽樣實驗。我們選擇了兩個數據集,即Amazon Photo 和 Coauthor Physics 來做這個實驗,因為它們的 平均節點度>5。對于每個采樣量,我們用不同的隨機種子進行了三次實驗。結果如 Table 3 所示。從表中我們可以清楚地觀察到,隨機正抽樣導致較大的性能方差,這意味著隨機抽樣不能識別一致的和信息豐富的鄰居。

  論文解讀( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》-LMLPHP

5.4.2 時間消耗對比

  我們的方法被期望比現有的工作更有效。一方面,我們的工作采用MLP作為節點編碼器,從而避免了編碼階段昂貴的節點聚合。另一方面,陷阱使我們能夠預先取樣有限的高質量陽性。特別是,當選擇了一個正相關樣本時,我們就完全擺脫了聚合操作。

  Table 4 顯示了時間消耗的比較。從結果中我們可以看到,我們的方法可以比典型的基于 GNN 和 GCL 的方法快幾級。GraphMLP [19] 也采用了MLP作為編碼器,但它使用的是所有鄰居節點信息,這就解釋了它在 CS 和 Physics 等大型數據集上的緩慢性。 

   論文解讀( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》-LMLPHP

5.4.3 TAPS策略評估

  TAPS 是我們框架中保證正采樣質量和效率的重要組成部分。在 Table 2 中,我們展示了 N2NTAPS-1 由于基于 TAPS 隨機抽樣的優勢。在本節中,我們將TAPS采樣應用于另一個基于 GNN 基線 GraphSAGE-Mean,以驗證 TAPS 是否可以作為一般的鄰域采樣策略來識別信息鄰域。

  論文解讀( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》-LMLPHP

  結果如 Fig.2 所示。默認情況下,GraphSAGE-Mean 使用隨機抽樣來選擇鄰居進行聚合,這有接收噪聲信息的風險。我們用 TAPS 替換 GraphSAGE-Mean中的隨機抽樣,并保持所有其他實現的完整。它的性能明顯得到了提高,通常使用更多的鄰居可以更有利于性能。這個觀察告訴我們,考慮結構依賴關系來選擇有用的鄰居來豐富節點表示是很重要的。

5.4.4 標簽平滑性分析

  為了利用 TAPS 策略驗證鄰域采樣的質量,我們引入了 CSGNN 中提出的標簽平滑度度量

    $\delta_{l}=\sum_{\left(v_{i}, v_{j}\right) \in \mathcal{E}}\left(1-\mathbb{I}\left(v_{i} \simeq v_{j}\right)\right) /|\mathcal{E}|$

  其中:$\mathbb{I}(\cdot) $ 是一個指示函數,即當 $y_{v_{i}}=y_{v_{j}}$ 時 $\mathbb{I}\left(v_{i} \simeq v_{j}\right)=1$,當 $y_{v_{i}} \neq y_{v_{j}}$ 時,$\mathbb{I}\left(v_{i} \simeq v_{j}\right)=0$。

  一個大的 $\delta_{l}$ 表明具有不同標簽的節點被認為是連接的鄰居,而一個較小的 $\delta_{l}$ 表示一個具有更高質量的鄰域結構的圖 $\mathcal{G}$,即一個節點的大多數鄰域與該節點具有相同的標簽。擁有小 $\delta_{l}$  即代表了高質量的鄰域,這可以為其相應的中心節點提供同質的信息增益。

  Fig.3 顯示,通過我們的 TAPS 策略將采樣量從 $1$ 擴大到 $5$,標簽平滑值逐漸增加。在沒有任何采樣策略的情況下,整個圖的標簽平滑度值最高。這一現象表明,我們的 TAPS 策略可以提高鄰域采樣質量,這解釋了為什么所提出的 N2N-TAPS-1 模型在某些數據集上具有競爭性能。

  TAPS 策略本質上是一種子圖劃分方案。一個好的子圖內部節點標簽應該一致度高。Figure 4 顯示了子圖的大?。ㄗ訄D中的節點)和由TAPS得到的這些子圖的數量方面的統計分布。Cora 上的子圖劃分的細節如 Fig.5 所示,其中不同的節點顏色代表不同的標簽。在每個子圖中,大多數節點都有相同的顏色(相同的標簽),甚至在一些大型的子圖中,這意味著 TPAS 生成了高質量的鄰域。這種可視化還揭示了我們的TAPS策略能夠在圖中建模多跳上下文信息,盡管我們沒有明確地這樣做。其他數據集的統計分布和子圖劃分的詳細信息見附錄B和C。 

  論文解讀( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》-LMLPHP

6 結論

  本文提出了一種簡單而有效的自監督節點表示學習策略,通過互信息最大化,直接優化節點的隱藏表示與其鄰域之間的對齊。理論上,我們的公式鼓勵圖形平滑。我們還提出了一個戰術策略來識別信息豐富的鄰居,并提高我們的框架的效率。值得一提的是,當只選擇一個正節點時,我們的模型可以完全避免鄰域聚合,但仍然保持著良好的節點分類性能。一項有趣的工作將是將提出的自監督節點表示學習和鄰域采樣策略擴展到異構圖數據。

 

參考論文

[8] Principal Neighbourhood Aggregation for Graph Nets.關于 Aggregation 中 ensemble 方法:
[15] Inductive representation learning on large graphs.
[31] Graph attention networks.
[7] On the efficacy of knowledge distillation.
[1] Mutual information neural estimation.
[18] Measuring and improving the use of graph information in graph neural networks.
[21] Graph self-supervised learning: A survey.
[23] Relational knowledge distillation.

因上求緣,果上努力~~~~ 作者:Learner-,轉載請注明原文鏈接:https://www.cnblogs.com/BlairGrowing/p/16078922.html

04-01 16:40
护士巨好爽好大乳 - 成男女人看片免费视频播放人 - 久青青在线观看视频国产 - 97中文字幕在线