《预训练周刊》35期：零样本规划器的语言模型、对话应用语言模型

转载｜智源社区

本期贡献者：申德周翟珂吴新刚

关于周刊

本期周刊，我们选择了14篇预训练相关的论文，涉及动作规划、大模型改进、网络结构、零样本学习、对话模型、视频理解、机器翻译、字幕生成、代码理解、文本分类、图像理解、药物靶点预测和蛋白质结构预测的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍语言模型提示符和大模型训练集群方面的一些最新内容。在资源推荐方面，我们选择了1篇预训练资源，将介绍通用多模态表征方面的一些最新内容。

论文推荐

标题：UCB, CMU, 谷歌｜Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents（零样本规划器的语言模型：为智能体提取可操作的知识）

作者：Wenlong Huang、Pieter Abbeel、Deepak Pathak、Igor Mordatch

简介：本文探索了大型语言模型 (LLM) 所学的世界知识用于互动环境行动。在本文中，作者研究了以自然语言表达的高级任务（例如“做早餐”）落地的可能性，交给选定的人一组可操作的步骤（例如“打开冰箱”）。虽然之前的工作侧重于从如何行动的明确的分步示例中学习，作者惊奇地发现，如果预训练的LM足够大并适当提示，它们可以有效地无需任何进一步训练即可将高级任务分解为低级计划。然而，大语言模型天真地制定的计划往往无法准确地映射到可接受的行动。作者提出了一个以现有示范和在语义上将计划转换为可接受的行动。作者近期的评价VirtualHome 环境表明生成的方法显著提高在LLM基线上的可执行性。进行的人工评估揭示了一个可执行性和正确性之间的权衡，但显示出“从语言模型中提取可操作的知识”有希望的迹象。

代码下载：https://github.com/huangwl18/language-planner

论文地址：Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents - AMiner

标题：CMU、AllenAI｜Memory-assisted prompt editing to improve GPT-3 after deployment（记忆辅助提示编辑以在部署后改进GPT-3）

作者：Aman Madaan, Niket Tandon, Peter Clark, Yiming Yang

简介：本文提出了一种增强大模型效果的方法。GPT-3等大型LM虽然功能强大，但不能免于错误，以及再训练成本高令人望而却步。一种失败模式是误解用户的指令（例如，GPT-3解释“什么词与好相似？”表示同音异义词，而用户意图同义词）。作者的目标是让用户通过交互直接纠正此类错误——无需再训练。作者的方法将 GPT-3 与不断增长的案例记忆相结合、对模型误解了用户的意图提供了反馈，从而澄清说明。当给定一个新查询时：作者的内存增强型GPT-3使用来自类似的、先前的查询以丰富提示。通过简单的概念验证实验，以新颖（经常被误解）的方式，作者展示了（模拟）用户如何以交互方式教授已部署的 GPT-3，将其在用户查询不同的基本词汇任务（例如，生成同义词）上的准确率翻倍。在这种情况下，记忆有助于避免重复类似的过去的错误。作者的简单想法是加强已部署模型的首创方法，将有可能会扩大其效用。

代码下载：https://github.com/madaan/memprompt

论文地址：Memory-assisted prompt editing to improve GPT-3 after deployment - AMiner

标题：华沙理工大学|Deep Memory Update(深度内存更新网络)

作者：Łukasz Neumann, Łukasz Lepak, Paweł Wawrzynski

简介：本文介绍了一种新的循环神经网络结构。循环神经网络是重要的顺序数据处理工具，然而，他们因训练问题而臭名昭著。挑战包括捕捉之间的复杂关系连续状态和稳定性和训练效率。在本文中，作者介绍了一个称为循环深度记忆更新的神经架构(DMU)。它基于通过对滞后的深度转换来更新先前的内存状态和网络输入状态。该架构是能够学习使用转换其内部状态任何非线性函数。它的训练是快速稳定的，因为它的学习率与模块。尽管 DMU 基于标准组件，但实验结果显示这里确认它可以与最先进的架构竞争，并经常胜过短期记忆、门控循环单元和循环高速网络。

论文地址：Deep Memory Update - AMiner

标题：循环智能｜ZeroPrompt: Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization（ZeroPrompt：将基于提示的预训练扩展到1,000个任务改进了零样本泛化）

作者：Hanwei Xu, Yujun Chen, Yulun Du, Zhilin Yang等

简介：本文提出了一种多任务预训练方法ZeroPrompt用于零样本泛化，专注于任务缩放和零样本提示。虽然以前的模型是在只有几十个任务，作者扩展到1,000个任务首次使用真实世界的数据。这导致一个重要的发现，即任务扩展可以是模型缩放的有效替代方案；即模型大小对执行大量任务的性能几乎没有影响。作者的结果表明，任务扩展可以大幅度提高训练效率在FLOP上增加 30 倍。此外，作者提出一种结合了遗传算法的提示方法来自动搜索未知的任务的最佳提示，以及一些其他改进。根据经验，ZeroPrompt大大提高了效率和零样本学习的性能各种学术和生产数据集。

论文地址：ZeroPrompt: Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization - AMiner

标题：谷歌|LaMDA: Language Models for Dialog Applications（LaMDA：对话应用的语言模型）

作者：Romal Thoppilan, Quoc Le等

简介：本文介绍了一种对话应用程序的语言模型。LaMDA是一个基于变换器的神经语言模型家族，专门用于对话，具有多达1370亿个参数，并且对1.56T字的公共对话数据和网络文本进行预训练。虽然单独的模型缩放可以提高质量，它在安全和事实接地方面的改进较少。作者证明使用带注释的数据进行微调并使模型能够参考外部知识源，导致对安全和事实接地这两个关键挑战的重大改进。这第一个挑战，安全性，涉及确保模型的响应与人类价值观，例如防止有害的建议和不公平的偏见。作者使用指标量化安全性基于一组说明性的人类价值观，作者发现使用使用少量众包注释数据微调的LaMDA分类器提供了一种很有前途的方法提高模型安全性的方法。第二个挑战，以事实为基础，涉及使咨询外部知识源的模型，例如信息检索系统、语言翻译器和计算器。作者使用接地度量来量化事实性，作者发现此方法使模型能够生成基于已知来源的响应，而不是响应这听起来似乎很合理。最后，作者探讨了 LaMDA 在教育和内容推荐，并分析其有用性和角色一致性。

论文地址：LaMDA: Language Models for Dialog Applications - AMiner

标题：谷歌、密歇根州立大学、布朗大学 | Multiview Transformers for Video Recognition(用于视频识别的多视图变换器)

作者：Shen Yan, Xuehan Xiong, Anurag Arnab,等

简介：本文研究基于transformer的视频理解方法。视频理解需要以多种时空分辨率进行推理——从短的细粒度运动到发生在较长时间内的事件。尽管 Transformer 架构最近取得了最新进展，但它们并未明确建模不同的时空分辨率。为此，作者提出了用于视频识别 (MTV) 的多视图transformer模型。作者的模型由单独的编码器组成，以表示输入视频的不同视图，并通过横向连接来融合跨视图的信息。作者对该模型进行了全面彻底的消融研究，并表明 MTV 在一系列模型大小的准确性和计算成本方面始终比单视图的对标表现更好。此外，作者在五个标准数据集上取得了最先进的结果，并通过大规模预训练进一步改进。作者将发布代码和预训练的检查点。

论文地址：Multiview Transformers for Video Recognition - AMiner

标题：悉尼大学、北航、京东|Improving Neural Machine Translation by Denoising Training(通过去噪训练改进神经机器翻译)

作者：Liang Ding, Keqin Peng, Dacheng Tao

简介：本文研究神经机器翻译预训练领域的去噪训练策略。具体来说，作者在早期使用源端和目标端去噪任务更新模型参数，然后正常调整模型。本文提出了一种简单有效的神经机器翻译预训练策略去噪训练：DOT。值得注意的是，作者的方法不会增加任何参数或训练步骤，仅需要并行数据。实验表明，DOT 在 12 个双语和 16 个多语方向（数据大小范围从 80K 到 20M）上持续提高了神经机器翻译性能。此外，作者表明 DOT 可以补充现有的数据操作策略，即课程学习、知识蒸馏、数据多样化、双向训练和反向翻译。令人鼓舞的是，作者发现 DOT 在高资源环境中优于昂贵的预训练模型 mBART。

论文地址：Improving Neural Machine Translation by Denoising Training - AMiner

标题：谷歌 | End-to-end Generative Pretraining for Multimodal Video Captioning（多模态视频字幕的端到端生成预训练）

作者：Paul Hongsuck Seo, Arsha Nagrani, Anurag Arnab, Cordelia Schmid

简介：本文创意地把“视频流中未来的话语”加入预训练、实现了新型高效的多模态视频生成模型。最近的视频和语言预训练框架往往缺乏生成句子的能力。作者提出了一种新的多模态视频生成预训练框架：MV-GPT，用于从未标记的视频中学习，可以有效地用于生成任务（例如多模态视频字幕）。与最近的视频语言预训练框架不同，作者的框架同时训练多模态视频编码器和句子解码器。为了克服未标记视频中缺少字幕的问题，作者利用视频中未来的话语作为额外的文本源，并提出了一个双向生成目标——作者在给定当前多模态上下文的情况下生成未来话语，并在给定未来观察的情况下生成当前话语。带着这个目标，作者提出的端到端训练编码器-解码器模型，以从原始像素生成字幕并直接转录语音。作者的模型在多模态视频字幕的四个基准上、以及其他视频理解任务（如 VideoQA、视频检索和动作分类）上实现了最先进性能。

论文地址：End-to-end Generative Pretraining for Multimodal Video Captioning - AMiner

标题：阿里巴巴蚂蚁集团|AstBERT: Enabling Language Model for Code Understanding with Abstract Syntax Tree(使用抽象语法树启用语言模型以进行代码理解)

作者：Rong Liang, Yujie Lu, Zhen Huang, 等

简介：本文主要研究以抽象语法树提升源码理解领域的预训练模型性能。使用预训练的语言模型（如BERT）来理解源代码在自然语言处理社区中引起了越来越多的关注。然而，在应用这些语言模型直接解决与编程语言相关的问题时存在一些挑战，其中一个重要的挑战是缺乏领域知识问题，这大大降低了模型的性能。为此，作者提出了 AstBERT 模型：一种预训练的语言模型，旨在使用抽象语法树 (AST) 更好地理解编程语言。具体来说，作者从 GitHub 收集大量源代码（Java 和 python），并通过代码解析器将上下文代码知识整合到作者的模型中，其中可以解释和集成源代码的 AST 信息。作者分别验证了所提出的模型在代码信息提取和代码搜索任务上的性能。实验结果表明：AstBERT 模型在两个下游任务上都达到了最先进的性能（代码信息提取任务为 96.4%，代码搜索任务为 57.12%）。

论文地址：AstBERT: Enabling Language Model for Code Understanding with Abstract Syntax Tree - AMiner

标题：蒙特利尔大学、卡耐基梅隆 | Data-Centric Machine Learning in the Legal Domain (法律领域中以数据为中心的机器学习)

作者：Hannes Westermann, Karim Benyekhlef等

简介：本文通过使用法律领域的三个公开可用的数据集，研究了它们的大小、训练/测试分割以及人类标签准确性的变化如何影响预训练深度学习分类器的性能，使预训练模型在整体性能以及每类性能方面达到最佳。在其中，作者主要研究了一个类别的 "语义同质性"，即句子在预训练语义嵌入空间中的接近程度，如何影响其分类的难度。本文提出的结果对人工智能和法律领域的数据收集和整理工作有深远的影响。另外作者表明，在推进模型的同时，可以考虑增强数据集，作为提高人工智能和法律领域各种任务分类性能的额外途径。最后，本文表示需要一种方法来评估数据集属性的潜在影响。

论文地址：Data-Centric Machine Learning in the Legal Domain - AMiner

标题：Scientific Reports | Objective evaluation of deep uncertainty predictions for COVID-19 detection (对COVID-19检测的深度不确定性预测的客观评价)

作者：Hamzeh Asgharnezhad, Sheikh Mohammed Shariful Islam 等

简介：深度神经网络已被广泛用于检测医学图像中的COVID-19。现有的研究主要应用迁移学习和其他数据表征策略来产生准确的点估计，这些网络的泛化能力总是值得怀疑的，因为它们是用小数据集开发的，而且没有报告它们的预测置信。本文全面地、定量地研究了DNNs为COVID-19诊断产生可靠的不确定性估计的能力。作者首先检查了使用ImageNet和胸部X射线（CXR）图像数据集的预训练对网络性能的影响，然后在CXR预训练上引入MC-dropout（MCD）、集成和集成MC-dropout（EMCD）来量化与DNN的点预测相关的不确定性。利用这些新的不确定性性能指标，本文定量地证明了何时可以相信DNN对胸部X射线的COVID-19的预测。最后，本文所提出的新的不确定性评价指标是通用的，可用于评价所有分类问题中的概率预测

论文地址：Objective evaluation of deep uncertainty predictions for COVID-19 detection. - AMiner

标题：腾讯、复旦、港大 | DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise Annotations (DrugOOD: 用于人工智能辅助药物发现的分布外数据集基准：关注有噪声注释的亲和力预测问题)

作者：Yuanfeng Ji, Yatao Bian等

简介：本文提出了DrugOOD，一个系统的分布外（OOD）数据集和人工智能辅助药物发现的基准，并在AIDD中最关键的问题之一，药物靶点结合亲和力预测上使用。该问题涉及到大分子（蛋白质靶点）和小分子（药物化合物）。DrugOOD提供了自动数据集处理，具有用户友好的定制脚本、与生物化学知识相一致的丰富的领域注释、现实的噪声注释和最先进的预训练相关OOD算法的严格的基准测试。由于分子数据经常被建模为使用图神经网络骨架的不规则图，DrugOOD也可以用于解决图OOD学习问题。实例研究表明，分布内实验和分布外实验之间存在明显的性能差距，这表明开发更好的方案的需求，可以让预训练模型在噪声下进行OOD泛化。

论文地址：DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise Annotations - AMiner

标题：南开、山大 | Single-sequence protein structure prediction using supervised transformer protein language models (使用监督式Transformer蛋白质语言模型进行单序列蛋白质结构预测)

作者：Wenkai Wang, Zhenling Peng, Jianyi Yang

简介：用AlphaFold2和其他深度学习方法进行单序列蛋白质结构预测仍然具有挑战性。本文介绍了trRosettaX-Single，一种用于单序列蛋白质结构预测的新型算法。它建立在s-ESM-1b的序列嵌入上，s-ESM-1b是一个由预训练模型ESM-1b优化的监督Transformer蛋白质语言模型。序列嵌入被送入一个具有知识提炼的多尺度网络，以预测残基间的二维几何信息，包括距离和方向。预测的二维几何形状然后被用来重建基于能量最小化的三维结构模型。基准测试表明，trRosettaX-Single在天然蛋白质上的表现优于AlphaFold2和RoseTTAFold。对101个人类设计的蛋白质进行的进一步测试表明，trRosettaX-Single准确性接近AlphaFold2，高于RoseTTAFold，但使用的计算资源却少得多。在2000个来幻想设计的蛋白质上，trRosettaX-Single生成的结构模型与幻觉的高度一致。这些数据表明，trRosettaX-Single可以应用于新的蛋白质设计和相关研究。

论文地址：Single-sequence protein structure prediction using supervised transformer protein language models - AMiner

研究动态

标题：软件3.0：GPT-3引发新的编程革命，用提示符改变游戏规则

作者：Alberto Romero

简介：2020 年 OpenAI 提出了GPT-3模型，它表现出来的高性能震惊了人工智能领域。GPT-3 可以按照英文指令编写代码或吉他乐谱，也可以用它进行对话、写诗或者思考未来和生活的意义。而且未经训练过的GPT-3就可以完成这些任务，它是一个多任务元学习模型。GPT-3 的创新之处在于，当人们用自然语言书写一个带有任务的文本（提示符）时，GPT-3 就能自动“理解”要完成哪些任务。第一：提示符允许用户从系统中生成具体的符合自己要求的行为，这与编码的定义类似。即给定一个输入，然后程序按照一组特定指令执行以完成具体功能。第二：提示符有好有坏，所以人们应该多次实验以确定最佳方法并对其标准化。在传统编码中，人们必须学习语言语法、变量操作、函数等等。对于神经网络，人们必须学会去除数据集中的偏差和噪声。

标题：Meta联合英伟达正式推出了一个全新的超算——「人工智能研究超级集群」

简介：Meta的第一代超算设计于2017年，其中一个集群中拥有22000个英伟达V100 Tensor Core GPU，每天执行35000个训练作业。在2022年度的第二阶段，RSC的GPU数量将从6080个增加到16000个，使AI的训练性能提高2.5倍以上，成为世界上最快的人工智能超级计算机。在混合精度方面，RSC将达到惊人的每秒5百亿亿次运算。存储系统则会扩容到Exabyte（10亿GB）级别，并具有16TB/s的目标传输带宽。此外，InfiniBand结构将支持16000个端口，采用双层拓扑结构且没有超占比。作为对照物，在最新一轮MLPerf神经网络训练基准测试中，最大的系统是Nvidia部署的4320-GPU系统。其可在不到一分钟的时间内训练自然语言处理器BERT。

资源推荐

标题：Meta|data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language(data2vec：语音、视觉和语言自监督学习的通用框架)了解详情

作者：Alexei Baevski, Michael Auli等

简介：本文介绍了一个通用表征工具。虽然自监督学习的总体思路在各种模式下是相同的，但实际的算法和目标却大相径庭，因为它们是用单一模式开发的头脑。为了让作者更接近一般的自监督学习，作者提出了data2vec，一个框架，对任何一种语音都使用相同的学习方法，NLP 或计算机视觉。核心思想是预测完整输入数据的潜在表示基于使用标准变换器架构的自蒸馏设置中输入的蒙版视图，而不是预测特定于模式的目标，例如单词、视觉标记或单位人类语言本质上是本地的，data2vec预测上下文化的潜在表示包含来自整个输入的信息。语音主要基准的实验识别、图像分类和自然语言理解展示了一种当前最佳或竞争力效果为主的方法。

代码下载：https://github.com/pytorch/fairseq/tree/master/examples/data2vec

论文地址：data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language - AMiner

AMiner平台收录超过 1.3 亿学者、3.2 亿篇论文、4 千多万个专利、将近 1 万个数据集、超过 100 个开放算法供科技工作者免费检索使用，助力科技创新。

AMiner官网首页