侧边栏壁纸
博主头像
智栈工场 博主等级

行动起来,活在当下

  • 累计撰写 10 篇文章
  • 累计创建 2 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

TeleAI 星辰语义大模型全尺寸开源,功能调用能力突出

智栈工场
2024-12-13 / 0 评论 / 0 点赞 / 9 阅读 / 0 字 / 正在检测是否收录...

概述

中国电信人工智能研究院(TeleAI)已全面开源多个大小版本的星辰语义大模型,包括 TeleChat2-3B、7B、35B 和 115B。这些模型支持工具调用功能,并在相关评测中表现出色。

模型特点

  1. 训练数据和方法

    • 采用国产化万卡集群和国产深度学习框架训练。

    • 使用10万亿Token的中英文高质量语料进行训练。

  2. 模型结构

    • 采用标准Decoder-only结构。

    • 使用Rotary Embedding位置编码和SwiGLU激活函数,以及RMSNorm进行层标准化。

  3. 性能优化

    • 优化MP、PP、SP实现方式提升模型性能。

    • 采用RingAttention和ntk-aware+attention-scaling保证训练效果平稳过渡。

功能调用能力

  • 支持多轮对话和工具调用功能。

  • 开源了训练代码和多轮数据构建方式。

  • 模型在通用问答、逻辑推理、代码生成等方面均有显著提升。

评测结果

  • 在C-Eval、MMLU、CMMLU、GSM8K、HumanEval、BBH等评测集上,不同规模的模型表现良好。

  • 例如,TeleChat2-115B在C-Eval上达到86.9%,在MMLU上达到80.9%。

开源链接

微调与推理

  • 提供了使用ms-swift 3.0进行自我认知微调的示例。

  • 推理脚本支持多卡推理和长文优化。

通过上述总结,可以清晰地了解TeleAI星辰语义大模型的主要特点、性能表现及开源相关信息。

原文链接

0

评论区