今日看点

你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展。

发表于话题:512的暗示
发布时间:2021-05-21

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”

作者:Pratik Bhavsar

编译:ronghuaiyang

导读

如果这21个问题你全部了解的话,你对最新的NLP进展的了解已经过关了。

2018年10月BERT发布之后发生了很多事情。

你知道BERT的掩码语言模型是老派模型吗?

你知道注意力的计算不需要平方时间复杂度吗?

你知道你可以偷用谷歌的模型吗?

我们这一代人中一些最聪明的人一直在紧张地工作,并有大量的产出!NLP现在是最性感的领域????

NLProc已经走了很长的路。

我们需要另一个总结!!

这20个问题会测试你对NLP当前状态的更新程度的了解,并为任何技术讨论做好准备。

什么是最新的预训练模型(PTM)?

https://arxiv.org/pdf/2003.08271.pdf

PTMs的训练任务是什么?

https://arxiv.org/pdf/2003.08271.pdf

在GLUE上,最好的PTMs是什么?

https://arxiv.org/pdf/2003.08271.pdf

更多的数据是不是总是可以得到更好的语言模型?

T5论文说不是的,质量比数量更重要。

https://arxiv.org/pdf/1910.10683.pdf

什么tokenisation方法对于训练语言模型是最好的?

这篇文章:https://arxiv.org/pdf/2004.03720.pdf,说一种新的方法Unigram LM要比BPE和WordPiece更好一些。

训练语言模型的最好的任务是什么

目前最好的方法是ELECTRA→在生成器的帮助下替换输入token,然后使用识别器来预测哪个token被替换了。

https://arxiv.org/pdf/2003.10555.pdf

https://arxiv.org/pdf/2003.10555.pdf

Also T5论文还说, dropping a span为3是最好的。

https://arxiv.org/pdf/1910.10683.pdf

Transformer训练的时候是否需要逐步的解冻参数?

T5 论文说不需要。

https://arxiv.org/pdf/1910.10683.pdf

如果你有固定的训练预算,你会通过改变什么来得到更好的语言模型?

T5 paper建议同时提升训练的步数和模型的大小。

https://arxiv.org/pdf/1910.10683.pdf

如果你的序列长度超过了512,你会用什么模型?

Transformer-XL或者Longformer

Transformer的处理时间随着序列的长度是怎么扩展的?

平方扩展。

如何降低长文档的transformers处理时间,因为它是序列长度的二次函数?

Longformer使用了一种随着序列长度线性扩展的注意力机制。

https://arxiv.org/pdf/2004.05150.pdf

Longformer在语义搜索中对编码长文档非常有用。下表显示了到目前为止所做的工作。

https://arxiv.org/pdf/2004.05150.pdf

BERT表现这么好是因为注意力层吗?

论文Attention is not Explanation认为注意力没有正确地与输出相关,因此我们不能说由于注意机制,模型的表现更好。

如果我们去掉一个注意力头,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们去掉一层,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们随机初始化BERT,BERT的表现会下降很多吗

不会 —见论文 Revealing the Dark Secrets of BERT

我们真的需要模型压缩吗?

也许不是!这篇文章的笔记:http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html。

“模型压缩技术通过解释过度参数化模型趋向于收敛的结果类型,给我们一个关于如何训练适当参数化模型的提示。模型压缩有很多种类型,每一种都利用了一种不同类型的“简单性”,这种“简单性”通常在训练过的神经网络中可以找到:

许多权重接近于零(修剪)

权重矩阵是低秩的(权重分解)

权重能只用几个位表示(量化)

层通常学习类似的功能(权重共享)

如果暴露为API,我们可以偷一个模型来用吗?

可以的Y → 在这里解释了:http://www.cleverhans.io/2020/04/06/stealing-bert.html

当前蒸馏的最新进展是什么样的?

https://arxiv.org/pdf/2003.08271.pdf

更大的Transformer模型训练起来比小的更快?

更大的模型更快,见这篇文章:https://bair.berkeley.edu/blog/2020/03/05/compress/.

student-teacher框架的应用是什么?

Knowledge distillation用来产生更小的模型。

https://arxiv.org/pdf/1909.10351.pdf

对于不同的语言产生相似句子嵌入:https://arxiv.org/pdf/2004.09813v1.pdf

https://arxiv.org/pdf/2004.09813v1.pdf

如何设计模型?哪些是更重要的参数

这是一个很难回答的问题!所有这些都在“Scaling Laws for Neural Language Models”:https://arxiv.org/pdf/2001.08361.pdf中得到了解释

测试损失 Vs 计算

测试损失 Vs 数据集大小

测试损失 Vs 参数

要设计和训练一个模型,首先要确定架构。然后得到它的参数量。由此,你可以计算出损失。然后选择所需的数据大小和计算量。

看一下图中的比例方程。

Scaling Laws for Neural Language Models

最后…

我希望你们能像我一样通过这些问题学到很多东西。要成为更好的NLP工程师,我们需要对快速发展的迁移学习有更深的理解。我相信这些想法会让你忙上几周????????????

END

英文原文:

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

标签组:[https] [pdf] [学习迁移] [nlp

本文来源:https://www.kandian5.com/articles/18687.html

相关阅读

为什么慈禧吃了羊下水厨师被满门抄斩

吃穿住行中,吃被排在首位,这或许也验证了中国人以食为天的民族特点。虽然中国开发出了各种食物的吃法,各地形成了各种菜系,可是,在落后的时代,能够满口腹之欲的,大多却是那些手握权力财富的少部分人。在满清末...

2025-09-15

贾姬在厕所与野猪相遇为什么没人敢救她

汉景帝妃子上厕所遭遇野猪,侍卫抗旨不救,太后为何赏大臣百金!。提起来有点荒诞,却是史上真实发生过的事件。上厕所与野猪遭遇的女子就是汉景帝的嫔妃贾姬,翻开史料:这个贾姫大有来头,她是中山靖王刘胜的生母,...

2025-09-15

清朝灭亡后那些深宫里的女人去哪了

1908年11月14日,在位长达34年但年仅38岁的光绪皇帝就英年早逝了,一天以后,统治中国近半个世纪的慈禧老佛爷也撒手人寰,半个月之后,年仅2岁多的溥仪继位,这就是末代皇帝宣统帝!溥仪登基后,尊光绪...

2025-09-15

秦宜禄的妻子杜氏为什么会被吕布和曹操霸占呢

自古以来,有人爱江山却更爱美人,也有人只要江山而舍弃美人的,然而毕竟英雄难过美人关。想当年吴三桂那貌美如花的妻子陈圆圆居然被李自成的手下刘宗敏给抢了去,他一气之下居然投降清军,把多尔衮给引进关中了。这...

2025-09-15

王献之很爱自己的妻子为何最后还是被逼离婚了

一直以来,很多人都认为,古代男子肯定都很想娶公主,毕竟当皇帝的女婿,一下可以少奋斗几十年,甚至都不用奋斗了。但实际并不是如此,古代男子几乎是不愿娶公主的,不仅唐朝如此,很多朝代都这样。而今天的主人公也...

2025-09-15

秀才为什么因为一只鸭子被推上刑场

老一辈的人常说,忍一时风平浪静,退一步海阔天空。这句话说的其实就是让人在遇到事情的时候要冷静,不要因为一时冲动而做出让人后悔莫及的事情来。在清代学者俞樾所著的《右台仙馆笔记》里,讲了这么一个故事。说是...

2025-09-15

伍子胥逃亡的过程中真的一夜愁白了头吗

公元前522年,楚国国君听信费无忌的谗言,将伍子胥的父亲伍奢杀害,派人去杀伍子胥。伍子胥得到消息后连忙逃亡吴国。伍子胥的逃亡路线,从楚国到吴国必须要经过韶关,韶关位于吴楚交界之地,向来有重兵把守,而此...

2025-09-15

古代皇帝吃剩下的饭菜怎么办

古代皇帝吃饭动不动就是数十盘菜,皇帝一般都是吃几口就换,皇帝吃饭剩下的食物一般如何处理?中国曾经历了数千年的封建王朝,只不过每一个朝代都诞生了独特的文明,甚至有很多人事物都成为了时代的象征,由于中国古...

2025-09-15

古代殉葬妃子临死前经历了什么

在古代,帝王逝去之后,宫内会特别注重操办丧事。选择合适的地方将其安葬,还有不少嫔妃进行陪葬。这种方式让人觉得难以接受。殉葬制度原本起源在商代,当时的奴隶主在自己死去之后,就要把自己的私有财产带走,这其...

2025-09-15

同治帝十九岁时病死他的后妃怎么处理

1875年1月12日黄昏时分,十几位王公重臣接到诏命,匆匆入宫,来到养心殿西暖阁候旨。原来清朝的第十位皇帝爱新觉罗·载淳,即同治帝,已经走到了人生的尽头。当晚酉时(17~19时),同治皇帝咽下最后一气...

2025-09-15