星期四

04/25

苹果发布基于开源训练和推理框架的语言模型 OpenELM

星期四 2024-04-25 12:38

快链头条消息，苹果发布基于开源训练和推理框架的语言模型 OpenELM。OpenELM 使用分层缩放策略，可以有效地分配 Transformer 模型每一层的参数，从而提高准确率。例如，在参数量约为 10 亿的情况下，OpenELM 与 OLMo 相比准确率提升 2.36%，同时所需的预训练 tokens 数量仅有原来的 50%。本次发布的版本包含在公开数据集上训练和评估语言模型的完整框架，包括训练日志、多个检查点和预训练配置。