今日看点

你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展。

发表于话题:512的暗示
发布时间:2021-05-21

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”

作者:Pratik Bhavsar

编译:ronghuaiyang

导读

如果这21个问题你全部了解的话,你对最新的NLP进展的了解已经过关了。

2018年10月BERT发布之后发生了很多事情。

你知道BERT的掩码语言模型是老派模型吗?

你知道注意力的计算不需要平方时间复杂度吗?

你知道你可以偷用谷歌的模型吗?

我们这一代人中一些最聪明的人一直在紧张地工作,并有大量的产出!NLP现在是最性感的领域????

NLProc已经走了很长的路。

我们需要另一个总结!!

这20个问题会测试你对NLP当前状态的更新程度的了解,并为任何技术讨论做好准备。

什么是最新的预训练模型(PTM)?

https://arxiv.org/pdf/2003.08271.pdf

PTMs的训练任务是什么?

https://arxiv.org/pdf/2003.08271.pdf

在GLUE上,最好的PTMs是什么?

https://arxiv.org/pdf/2003.08271.pdf

更多的数据是不是总是可以得到更好的语言模型?

T5论文说不是的,质量比数量更重要。

https://arxiv.org/pdf/1910.10683.pdf

什么tokenisation方法对于训练语言模型是最好的?

这篇文章:https://arxiv.org/pdf/2004.03720.pdf,说一种新的方法Unigram LM要比BPE和WordPiece更好一些。

训练语言模型的最好的任务是什么

目前最好的方法是ELECTRA→在生成器的帮助下替换输入token,然后使用识别器来预测哪个token被替换了。

https://arxiv.org/pdf/2003.10555.pdf

https://arxiv.org/pdf/2003.10555.pdf

Also T5论文还说, dropping a span为3是最好的。

https://arxiv.org/pdf/1910.10683.pdf

Transformer训练的时候是否需要逐步的解冻参数?

T5 论文说不需要。

https://arxiv.org/pdf/1910.10683.pdf

如果你有固定的训练预算,你会通过改变什么来得到更好的语言模型?

T5 paper建议同时提升训练的步数和模型的大小。

https://arxiv.org/pdf/1910.10683.pdf

如果你的序列长度超过了512,你会用什么模型?

Transformer-XL或者Longformer

Transformer的处理时间随着序列的长度是怎么扩展的?

平方扩展。

如何降低长文档的transformers处理时间,因为它是序列长度的二次函数?

Longformer使用了一种随着序列长度线性扩展的注意力机制。

https://arxiv.org/pdf/2004.05150.pdf

Longformer在语义搜索中对编码长文档非常有用。下表显示了到目前为止所做的工作。

https://arxiv.org/pdf/2004.05150.pdf

BERT表现这么好是因为注意力层吗?

论文Attention is not Explanation认为注意力没有正确地与输出相关,因此我们不能说由于注意机制,模型的表现更好。

如果我们去掉一个注意力头,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们去掉一层,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们随机初始化BERT,BERT的表现会下降很多吗

不会 —见论文 Revealing the Dark Secrets of BERT

我们真的需要模型压缩吗?

也许不是!这篇文章的笔记:http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html。

“模型压缩技术通过解释过度参数化模型趋向于收敛的结果类型,给我们一个关于如何训练适当参数化模型的提示。模型压缩有很多种类型,每一种都利用了一种不同类型的“简单性”,这种“简单性”通常在训练过的神经网络中可以找到:

许多权重接近于零(修剪)

权重矩阵是低秩的(权重分解)

权重能只用几个位表示(量化)

层通常学习类似的功能(权重共享)

如果暴露为API,我们可以偷一个模型来用吗?

可以的Y → 在这里解释了:http://www.cleverhans.io/2020/04/06/stealing-bert.html

当前蒸馏的最新进展是什么样的?

https://arxiv.org/pdf/2003.08271.pdf

更大的Transformer模型训练起来比小的更快?

更大的模型更快,见这篇文章:https://bair.berkeley.edu/blog/2020/03/05/compress/.

student-teacher框架的应用是什么?

Knowledge distillation用来产生更小的模型。

https://arxiv.org/pdf/1909.10351.pdf

对于不同的语言产生相似句子嵌入:https://arxiv.org/pdf/2004.09813v1.pdf

https://arxiv.org/pdf/2004.09813v1.pdf

如何设计模型?哪些是更重要的参数

这是一个很难回答的问题!所有这些都在“Scaling Laws for Neural Language Models”:https://arxiv.org/pdf/2001.08361.pdf中得到了解释

测试损失 Vs 计算

测试损失 Vs 数据集大小

测试损失 Vs 参数

要设计和训练一个模型,首先要确定架构。然后得到它的参数量。由此,你可以计算出损失。然后选择所需的数据大小和计算量。

看一下图中的比例方程。

Scaling Laws for Neural Language Models

最后…

我希望你们能像我一样通过这些问题学到很多东西。要成为更好的NLP工程师,我们需要对快速发展的迁移学习有更深的理解。我相信这些想法会让你忙上几周????????????

END

英文原文:

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

标签组:[https] [pdf] [学习迁移] [nlp

本文来源:https://www.kandian5.com/articles/18687.html

相关阅读

《魅影神捕》开机 罗云熙“清冷双面弃子”试炼人性灰度

6月13日,由爱奇艺出品、北京战友文化联合出品及承制、中视同成联合承制、爱奇艺爱撒糖工作室联合打造的古装悬疑探案剧《魅影神捕》在横店举行开机仪式。该剧由龚宇、原昕担任出品人,王晓晖担任总监制,邵文...

2025-06-14

齐桓公称霸天下的多维密码:地理、改革与战略的完美融合

齐桓公(前685年-前643年在位)作为春秋五霸之首,其称霸之路绝非偶然。从地理优势到制度革新,从人才选拔到外交策略,齐桓公的霸业是多重因素交织的结果。 一、地理优势:资源禀赋奠定物质基础 齐国地...

2025-06-14

新加坡演员孙政双线出击!《微笑一号店》展暖男本色《临江仙》塑冷酷龙渊

近期,新加坡演员孙政以截然不同的形象活跃于中国观众的视野,在热播的经营纪实互动真人秀综艺《微笑一号店》中,孙政是笑容温暖、阳光清爽的甜品学员;而在同期上线的仙侠剧《临江仙》里,孙政则化身气场迫人、神情...

2025-06-14

秦武王之后:秦昭襄王的崛起与秦国霸业的转折

秦武王嬴荡在位仅四年,便因“举鼎绝膑”的意外事件殒命,其短暂统治如流星划过秦国崛起的历史长空。然而,这位以“勇力”著称的君主之死,却意外成为秦国政治格局剧变的导火索。他的离世不仅揭开秦国高层权力斗争的...

2025-06-14

SEVENTEEN为日韩合拍剧《初恋DOGs》献唱主题曲《Where love passed》

6月13日,据韩媒消息,组合SEVENTEEN为日韩合拍剧《初恋DOGs》献唱主题曲《Where love passed》,成员WOOZI亲自作词作曲。13日,所属社PLEDIS表示:“...

2025-06-14

秦始皇可能活在地宫吗?历史、科学与传说的三重解构

在骊山北麓的苍茫雾霭中,秦始皇陵地宫如同一部未解的密码,千百年来引发无数猜想。从“以水银为百川江河”的《史记》记载,到现代考古探测到的“强汞异常”,这座地下帝国始终笼罩着神秘色彩。然而,当我们将“秦始...

2025-06-14

防弹少年团田柾国就帽子争议进行道歉 今后将谨慎注意

防弹少年团田柾国因佩戴了印有疑似涉及日本右翼字句的帽子引发争议,随后在Weverse公开致歉。14日凌晨,田柾国在Weverse发文表示:"因在彩排过程中佩戴了一顶印有特定字句的帽子,令许多粉丝感到...

2025-06-14

泰山封禅在哪里举行:揭秘中国古代帝王与泰山的神圣对话

在中国古代帝王的心目中,泰山绝非一座普通的山岳,而是“天人合一”的神圣象征。自秦始皇起,历代帝王封禅泰山的传统延续千年,这一仪式不仅是对泰山地理高度的征服,更是对精神权威的终极宣告。然而,泰山封禅究竟...

2025-06-14

相叶雅纪迎来第二个孩子 2021年与妻子结婚

据日媒报道表示,岚成员相叶雅纪的第二个孩子已经出生,这一消息在《女性Seven》的采访中得到证实,网友们也纷纷祝福相叶雅纪。现在岚5位成员中有3位已经结婚,3位成员都有了孩子。二宫和也有2个孩子,樱...

2025-06-14

嬴驷与秦始皇:跨越百年的帝国奠基之路

在秦国统一天下的历史长卷中,嬴驷(秦惠文王)与嬴政(秦始皇)的名字犹如两座巍峨的丰碑,相隔百年却血脉相连。这位高祖父与玄孙的传承关系,不仅是简单的家族谱系延续,更是秦国从“偏居西陲”到“横扫六合”的战...

2025-06-14