浪潮AI研究院推出全球最大语言模型之一元1.0,参数2457亿

Admin 1006 2021-12-02 11:33

浪潮人工智能研究院发布了语言模型元1.0:全球最大的语言模型,参数2457亿,数据集5TB。元1.0在零样本和小样本学习方面都表现出色。它生成语音内容的能力也很出色,这通常与人工生成的内容无法区分。一篇关于arXiv的科学论文描述了元 1.0 的开发和优化以及相关的测试结果。


浪潮从一开始就将元1.0设计为中文模型,与英文相比需要独特的开发过程。为此,浪潮不得不应对汉语特有的挑战,例如句子中没有空格的词组的形成,以及缺乏高质量的汉语语料库作为基础。


为了保证所需的计算能力,元1.0的设计架构中融入了一个广泛的、去中心化的学习系统。该系统分布在 2128 个 GPU 上。


凭借这套学习系统,元1.0在中国语言理解评估基准(CLUE)的ZeroCLUE和FewClue中均获得第一名。在ZeroCLUE中,元1.0的得分比之前的记录高出18.3%,在科学文献和新闻话题分类、产品分类、自然语言推理、习语阅读理解和名词代词关系六项任务中排名第一。在FewCLUE,元1.0在科学文献主题分类、产品分类、科学文献摘要和关键词识别、名词代词关系4个任务中获得第一名。


Yuan 1.0 在自然语言生成 (NLG) 方面非常强大。它可以生成通过图灵测试的书面内容。人类参与者只有不到 50% 的时间能够将元 1.0 制作的对话、小说续篇、新闻文章、诗歌和对联与人造内容区分开来。


元1.0的卓越性能和复杂的NLG功能是在三个重要领域进行多次优化的结果:模型架构、结果校准和数据集创建。


模型架构


在模型架构上,元 1.0 中广泛的去中心化学习系统结合了三种不同的策略:张量、管道和数据并行。为了最大限度地提高计算资源的使用效率,该模型考虑了提供最佳结果的参数,并为它们确定了计算资源的优先级。这种优化的架构能够以 4095 PetaFLOPS 的计算能力计算 2457 亿个参数,学习损失仅为 1.64。


结果校准


浪潮人工智能研究发现,语境学习偏向于模板句子和名称。这种偏差主要是由于学习语料库中类别、具有特定顺序的示例和具有不同频率的名称之间的数据集分布不平衡。为了最大限度地减少失真的影响,浪潮开发了一种用于上下文学习的两步校准方法:概率计算的校准和标签的扩展。随着时间的推移,这会导致学习准确性的明显提高。


记录创建


浪潮基于Spark开发了海量数据过滤系统(MDFS)。目的是清理和过滤原始数据并模拟基于 BERT 的模型以选择高质量的文本样本。MDFS 包括三个阶段:数据收集、梯度过滤和微调。MDFS 通过过滤来自互联网的 850TB 原始数据,创建了元 1.0 使用的 5TB 语料库。这是通过在高性能 36 节点集群上运行 MDFS 来实现的。由此产生的机构是世界上最大的高质量中国机构。


关于浪潮人工智能研究


浪潮人工智能研究院通过基础科学、前沿技术和应用技术领域的研究,推动人工智能前沿技术的创新。浪潮人工智能研究院在研究认知智能和推动人工智能在工业中的应用方面取得了无数成功,包括服务器硬件创新和人工智能应用软件的突破。


【公司名称】四川旭辉星创科技有限公司

【代理级别】成都浪潮Inspur服务器总代理

【销售经理】李经理

【联系方式】座机:028-85596747    手机:13540160369

【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913

联系我们
您好,咨询客服了解更多促销产品
售前优惠在线咨询
QQ咨询
微信咨询
售前优惠电话咨询专线:
13438344046
售后电话咨询专线:
028-85596747

请用微信扫描二维码

0.862869s