为方便表示,将原待证命题改写为: \forall x\in\mathbb R, |\!\cos x|+|\!\cos 2x|+\cdots+|\!\cos nx|\ge\frac{n-1}2\qquad(n\in\mathbb Z_{>0})\\要证明这个命题,首先考虑证明如下引理: 引理:对任意正整数 n ,都有 ...
FFN在Transformer里面主要是对多头注意力矩阵升维,非线性过滤,然后再降回原来的维度。这个通常的比喻是:FFN就像个人的思考空间—— Attention Layer帮助模型正确的分配注意力,然后FFN 帮助模型仔细的思考,提取更加抽象的特征。 这个比喻很好很形象,听到这儿往往会感觉恍然大悟,然后感慨模型设计精妙,唯一的问题是什么实质都没有解释。