行动起来，活在当下

累计撰写 14 篇文章
累计创建 3 个标签
累计收到 0 条评论

目录CONTENT

首页
/
未分类
/
正文

TeleAI 星辰语义大模型全尺寸开源，功能调用能力突出

智栈工场

2024-12-13 / 0 评论 / 0 点赞 / 60 阅读 / 0 字 / 正在检测是否收录...

12/13

概述

中国电信人工智能研究院（TeleAI）已全面开源多个大小版本的星辰语义大模型，包括 TeleChat2-3B、7B、35B 和 115B。这些模型支持工具调用功能，并在相关评测中表现出色。

模型特点

训练数据和方法：
- 采用国产化万卡集群和国产深度学习框架训练。
- 使用10万亿Token的中英文高质量语料进行训练。
模型结构：
- 采用标准Decoder-only结构。
- 使用Rotary Embedding位置编码和SwiGLU激活函数，以及RMSNorm进行层标准化。
性能优化：
- 优化MP、PP、SP实现方式提升模型性能。
- 采用RingAttention和ntk-aware+attention-scaling保证训练效果平稳过渡。

功能调用能力

支持多轮对话和工具调用功能。
开源了训练代码和多轮数据构建方式。
模型在通用问答、逻辑推理、代码生成等方面均有显著提升。

评测结果

在C-Eval、MMLU、CMMLU、GSM8K、HumanEval、BBH等评测集上，不同规模的模型表现良好。
例如，TeleChat2-115B在C-Eval上达到86.9%，在MMLU上达到80.9%。

开源链接

TeleChat2-3B：https://modelscope.cn/models/TeleAI/TeleChat2-3B
TeleChat2-7B：https://modelscope.cn/models/TeleAI/TeleChat2-7B
TeleChat2-35B：https://modelscope.cn/models/TeleAI/TeleChat2-35B-Nov
TeleChat2-115B：https://modelscope.cn/models/TeleAI/TeleChat2-115B

微调与推理

提供了使用ms-swift 3.0进行自我认知微调的示例。
推理脚本支持多卡推理和长文优化。

通过上述总结，可以清晰地了解TeleAI星辰语义大模型的主要特点、性能表现及开源相关信息。

0

AI解读

版权归属：智栈工场

本文链接： https://shenyifei.com/archives/88427cb283b2132726bec9aeb607fc57.html

许可协议：本文使用《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》协议授权

微信扫一扫

评论区