导读 | 俄罗斯搜索巨头 Yandex 发布了 YaLM 100B ,它是一个利用了 1000 亿个参数、类似 GPT 的神经网络,用于生成和处理文本。目前该模型基于 Apache 2.0 许可托管在 GitHub 上。 |
Yandex 花了 65 天的时间在包含 800 个 A100 显卡和 1.7 TB 在线文本、书籍和无数其他资源的池中训练了模型。YaLM 高级开发人员 Mikhail Khrushchev 在 Medium 上发布了一篇博客,详细介绍了训练该模型的经验,包含如何加速模型训练、如何处理分歧等技术细节。但该公告似乎非常关注参数数量和训练模型的工程挑战,对该模型的训练(学习率计划等)或性能数据没有任何披露。
有网友推测该 YaLM 100B 模型的性能基本上介于 GPT-2 和 GPT-3 之间,而 Yandex 之所以要训练这样一个大型预训练语言模型,是因为他们需要一个能够同时理解俄语和英语的模型,而 GPT-2 和 3 都只能理解英语。
另外,训练这样的模型需要的花销也不便宜,800 个 A100 显卡 + 65 天训练时间,以 AWS“p4d.24xlarge” 实例(8×40GB A100)为例,其价格为 32.7726 美元 / 小时,800 个 GPU 则需要 3277.26 美元 / 小时,训练 65 天为 5,112,525.60 美元,这只是粗略的计算价格,还没有考虑存储和网络成本。
此外,虽然模型已经过训练,如果想要运行它仍需要 200GB 的可用磁盘空间,且应该在具有张量并行性的多个 GPU 上运行。更多技术细节可查看 Medium(英语)和 Habr(俄语)的文章。
原文来自:
本文地址://q13zd.cn/yandex-yalm-linux.html编辑:倪家兴,审核员:清蒸github
Linux大全:
Linux系统大全: