SuperGLUE 榜首: DeBERTa

4 min readJan 26, 2021

在今年年初 Microsoft 發佈了一篇論文 — DeBERTa: Decoding-enhanced BERT with Disentangled Attention，此模型 DeBERTa 在 SuperGLUE 排行榜上超越 Human Baselines，拿下了第一名。

直接說重點，原始 BERT 的做法主要是在 Input Layer 將 Token embeddings 與 Position embeddings 加在一起，接著在訓練 Masked Language Model，透過 Position embeddings 來強調詞與詞之間的絕對位置關係。但是這種加上去的方式有可能會破壞掉原始 Token embeddings 的關係。

DeBERTa 架構如下圖，主要是將 Sub-word embedding (這就是 Token embedding) 先通過幾層 Transformer 在與 Position embedding 加起來，接著再通過一層 Transformer，接下來就是使用 MLM (Masked Language Modeling) 的方式來訓練。圖中可以看到 Position embedding 還分成了 Absolute 與 Relative，Absolute 是原始 BERT，想法是強調詞的絕對位置，例如一個句子 1234，以位置來說，1 就是 1，2 就是 2；而 Relative 就是強調相對位置，同樣以一個句子 1234，對於 2 來說，1 就是 -1，3 就是 1；對於 3 來說，2 就是 -1，4 就是 1，這種在最後一層再強調絕對位置的方式蠻有趣的，在前面不去過度干涉模型學習 (Relative position embedding 是可學習的)，而是在最後一層才強調詞的絕對位置。

論文提到一個有趣的例子，假設有一句子 “a new store opened beside the new mall” ，假設 <Mask> 的詞為 store 與 mall，如果只有使用 Relative position embedding，那麼對於 new 這個詞來說 store 與 mall 就是同樣的位置，因為以相對位置來說是一樣的。但是以句子的主語來說是 store 而不是 mall，這種細微的差別取決於句子的絕對位置，所以才加上了 Absolute position embedding 來強調絕對位置。

這種將 Token embedding 與 Position embedding 分開來的操作其實有很多種變形，例如 Token embedding 與 Position embedding 各自通過 Transformer 後再把兩組 hidden states 加起來，抑或是直接在 Input Layer 直接將兩者 Concatenate 在一起，表現也都比原始 BERT 還要好。

References:

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION

Self-Attention with Relative Position Representations

SuperGLUE Benchmark

SuperGLUE 榜首: DeBERTa

Written by WenWei Kang