基于Transformer的语言模型(LMs)在每一层中都创建其输入的隐藏表示,但仅在预测时使用最终层表示。这掩盖了模型的内部决策过程和其中间表示的实用性。澄清这一点的一种方法是将隐藏表示视为最终表示,绕过中间的Transformer计算。在这项工作中,我们提出了一种简单的方法来进行此类投射,即使用线性变换。我们展示了我们的方法产生比在最终层空间中检查所有层的隐藏表示流行做法更准确的近似值。此外,在语言建模的背景下,我们的方法允许“窥视”GPT-2和BERT的早期层表示,显示通常LMs已经在早期层中预测了最终输出。然后,我们展示了我们的方法对于最近的早期退出策略的实用性,表明当目标是保留95%的精度时,我们的方法为GPT-2节省了额外7.9%的层,对于BERT节省了额外的5.4%层,超过了原始方法的节省。最后,我们将我们的方法扩展到线性逼近子模块,发现注意力最容易接受这种变化。
论文链接:http://arxiv.org/pdf/2303.09435v1
更多计算机论文:http://cspaper.cn/