苹果发布基于开源训练和推理框架的语言模型 OpenELM

2024-04-25 12:38
7087

快链头条 消息,苹果发布基于开源训练和推理框架的语言模型 OpenELM。OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数,从而提高准确率。例如,在参数量约为 10 亿的情况下,OpenELM 与 OLMo 相比准确率提升 2.36%,同时所需的预训练 tokens 数量仅有原来的 50%。本次发布的版本包含在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。

温馨提示:
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。