网站首页 > 博客文章 正文
【新智元导读】最近Google又发了一个NLP模型,名字也很喜感Big Bird!这只大鸟在长文本任务中能胜过BERT,它有哪些独特之处呢?
谷歌最近又推出了一个重磅的稀疏注意力模型:Big Bird。
之前各种刷榜的BERT和它的各种衍生版本RoBERTa等,都是构建在Transformer基础上。
这些模型的核心竞争力就是全注意力机制,但这种机制会产生序列长度的二次依赖,如果输入的token过长,会撑爆内存,而长文本摘要等任务中,BERT的512token,就显得有点捉襟见肘。
- 二次依赖限制了BERT
BERT中token的长度一般设置为512,这对普通的NLP任务来说足够了,但是想对一整篇文章或者一本书进行信息挖掘,也就是长文本任务,512的长度就有点短,把token长度变为1024的话,所需的计算量就会变成原来的4倍,对内存是很伤的。
如果能把这个n^2的复杂度降下来,那么就能实现一个长距的上下文注意力机制,而不会把内存撑爆,这就是Big Bird要做的事。
谷歌团队解决这个问题的方法,是引入一种全新的稀疏注意力机制:Big Bird。
- 谷歌「大鸟」:稀疏注意力机制更省内存
Big Bird相对于传统的全注意力机制来说变的更稀疏,作为更长序列上的Transformer,Big Bird不仅能注意到更长的上下文信息,还将计算的二次依赖降低到了线性。
我们来看下Big Bird是如何构建的。
图(a)表示r=2的随机注意力机制,图(b)表示w=3的局部注意力机制,图(c)表示g=2的全局注意力机制,图(d)是三者加起来的Big Bird模型。
图中空白的部分表示没有注意,有颜色的部分才能得到关注,有点像dropout的选择性丢弃。
注意的部分减少了,性能会不会打折扣,我们来看下实验结果。
- 实验:三种注意力机制结合效果最好
只采用随机注意力机制、局部注意力机制,或者两者融合起来,都没有三者合体的效果好。
Global+R+W在MLM任务上超过了BERT-base,在SQuAD和MNLI任务上接近了BERT-base,但是考虑到内存上节省了很多资源,还是有其实用价值。
使用基础的模型,在HotpotQA、Natural QA、 TriviaQA和WikiHop四个问答任务上进行了测试,结果表明Big Bird均超越了RoBERTa和Longformer。
在长文本摘要中,Big Bird也是表现出了很好的潜力,在Arxiv,PubMed,BigPatent上均取得了最好成绩。
使用这些数据集,因为它们都是长文档,输入不仅仅是512个token,更容易对比长文本的特征提取能力和模型的总体性能。
reddit上有网友对Big Bird提出了质疑认为Big Bird只是另一种Longformer,没有什么本质创新。
有网友说,最近爆火的GPT-3也用了稀疏注意力机制,但是因为OpenAI的blocksparse太久没更新了,所以不知道二者有没有内在的相似性。
谷歌发表的一些研究,之前也有人提出过类似的,但只有谷歌发出来,才能得到广泛的关注,进大厂发论文的概率还是高啊。
期待Big Bird给NLP任务带来新的惊喜!
猜你喜欢
- 2024-10-11 搜索 NLP 行业模型和轻量化客户定制
- 2024-10-11 网页轻松展示CV、NLP模型,连你老爸都会操作 | 斯坦福出品
你 发表评论:
欢迎- 最近发表
-
- 给3D Slicer添加Python第三方插件库
- Python自动化——pytest常用插件详解
- Pycharm下安装MicroPython Tools插件(ESP32开发板)
- IntelliJ IDEA 2025.1.3 发布(idea 2020)
- IDEA+Continue插件+DeepSeek:开发者效率飙升的「三体组合」!
- Cursor:提升Python开发效率的必备IDE及插件安装指南
- 日本旅行时想借厕所、买香烟怎么办?便利商店里能解决大问题!
- 11天!日本史上最长黄金周来了!旅游万金句总结!
- 北川景子&DAIGO缘定1.11 召开记者会宣布结婚
- PIKO‘PPAP’ 洗脑歌登上美国告示牌
- 标签列表
-
- ifneq (61)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)