SuperGLUE 榜首: DeBERTa

WenWei Kang
4 min readJan 26, 2021

--

在今年年初 Microsoft 發佈了一篇論文 — DeBERTa: Decoding-enhanced BERT with Disentangled Attention,此模型 DeBERTa 在 SuperGLUE 排行榜上超越 Human Baselines,拿下了第一名。

SuperGLUE Benchmark

直接說重點,原始 BERT 的做法主要是在 Input Layer 將 Token embeddings 與 Position embeddings 加在一起,接著在訓練 Masked Language Model,透過 Position embeddings 來強調詞與詞之間的絕對位置關係。但是這種加上去的方式有可能會破壞掉原始 Token embeddings 的關係。

BERT

DeBERTa 架構如下圖,主要是將 Sub-word embedding (這就是 Token embedding) 先通過幾層 Transformer 在與 Position embedding 加起來,接著再通過一層 Transformer,接下來就是使用 MLM (Masked Language Modeling) 的方式來訓練。圖中可以看到 Position embedding 還分成了 Absolute 與 Relative,Absolute 是原始 BERT,想法是強調詞的絕對位置,例如一個句子 1234,以位置來說,1 就是 1,2 就是 2;而 Relative 就是強調相對位置,同樣以一個句子 1234,對於 2 來說,1 就是 -1,3 就是 1;對於 3 來說,2 就是 -1,4 就是 1,這種在最後一層再強調絕對位置的方式蠻有趣的,在前面不去過度干涉模型學習 (Relative position embedding 是可學習的),而是在最後一層才強調詞的絕對位置。

論文提到一個有趣的例子,假設有一句子 “a new store opened beside the new mall” ,假設 <Mask> 的詞為 storemall,如果只有使用 Relative position embedding,那麼對於 new 這個詞來說 storemall 就是同樣的位置,因為以相對位置來說是一樣的。但是以句子的主語來說是 store 而不是 mall,這種細微的差別取決於句子的絕對位置,所以才加上了 Absolute position embedding 來強調絕對位置。

DeBERTa

這種將 Token embedding 與 Position embedding 分開來的操作其實有很多種變形,例如 Token embedding 與 Position embedding 各自通過 Transformer 後再把兩組 hidden states 加起來,抑或是直接在 Input Layer 直接將兩者 Concatenate 在一起,表現也都比原始 BERT 還要好。

--

--