四川成都浪潮服务器总代理_浪潮AI研究院推出元1.0语言模型

Admin 726 2022-01-04 13:00

2021 年 10 月 21 日——浪潮人工智能研究院(Inspur AI Research)于 2021 年 9 月 28 日在北京大型人工智能模型研讨会上发布了语言模型元 1.0。世界上最大的语言模型,拥有 2457 亿个参数和 5 TB 的数据集。元 1.0 在零样本和少样本学习方面都展示了令人印象深刻的表现,以及它生成语言内容的能力,这些语言内容通常与人工生成的内容无法区分。一篇详细介绍元 1.0 的开发和优化及其相关测试结果的学术论文已在arXiv 上发表。


浪潮机架式服务器从头开始构建元1.0作为中文模型,与英文相比,这需要独特的开发方法。这包括处理特定于中文的挑战,例如在没有空格的情况下对句子进行标记,以及缺乏可用于工作的先前高质量的中文语料库。


为了处理所需的处理能力,在元 1.0 的基本设计架构中加入了一个大规模分布式训练系统,训练分布在 2128 个 GPU 上。元 1.0 的分布式训练系统使其在中国语言理解评估基准 (CLUE) 的 ZeroCLUE 和几条线索中均名列前茅。在ZeroCLUE中,元1.0得分比之前的纪录高出18.3%,在科学文献学科分类、新闻分类、产品分类、自然语言推理、习语阅读理解、名词代词关系6个任务中排名第一。在FewCLUE中,元1.0在科学文献学科分类、产品分类、科学文献摘要与关键词识别、名词代词关系4个任务中排名第一。值得注意的是,在习语阅读理解任务中,元1.0超越了人类的能力。


元 1.0 非常擅长自然语言生成 (NLG) 任务。它能够生成可以通过图灵测试的书面内容。人类参与者只有不到 50% 的时间能够将元 1.0 生成的对话、小说续集、新闻文章、诗歌和对联与人类生成的内容区分开来。元1.0卓越的性能和先进的NLG能力源于三个主要领域的多重优化:模型架构、结果校准和数据集创建。


模型架构


在模型架构方面,元1.0的大规模分布式训练结合了三种不同的并行策略:张量、管道和数据并行。为了最大限度地提高使用计算资源的效率,该模型考虑了将提供最佳结果的参数,并将计算资源优先于这些参数。这些架构优化允许使用 4095 PetaFlop 天的处理能力计算 2457 亿个参数,同时仅维持 1.64 的训练损失。


结果校准


Inspur AI Research 注意到,在上下文学习中存在对模板句子和标签的偏见。这种偏差主要源于类之间数据集的分布不平衡、具有特定顺序的少量样本以及训练语料库中具有不同频率的标签。为了尽量减少偏差的影响,浪潮开发了一种用于上下文学习的两管齐下的校准方法:概率计算的校准和标签的扩展。随着时间的推移,这会导致学习准确性的显着提高。


数据集创建


浪潮高性能服务器开发了基于 Spark 的海量数据过滤系统 (MDFS) 来清理和过滤原始数据,并训练基于 BERT 的模型来选择高质量的文本样本。MDFS 包括三个阶段:数据收集、课程过滤和微调。MDFS 通过过滤从互联网收集的 850 TB 原始数据,构建了元 1.0 使用的 5 TB 语料库。这是通过在具有 36 个节点的高性能集群上运行 MDFS 来实现的。由此产生的语料库是世界上最大的高质量中文语料库。


【公司名称】四川旭辉星创科技有限公司

【代理级别】成都浪潮Inspur服务器总代理

【销售经理】李经理

【联系方式】座机:028-85596747    手机:13540160369

【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913

联系我们
您好,咨询客服了解更多促销产品
售前优惠在线咨询
QQ咨询
微信咨询
售前优惠电话咨询专线:
13438344046
售后电话咨询专线:
028-85596747

请用微信扫描二维码

0.666734s