概述
中国电信人工智能研究院(TeleAI)已全面开源多个大小版本的星辰语义大模型,包括 TeleChat2-3B、7B、35B 和 115B。这些模型支持工具调用功能,并在相关评测中表现出色。
模型特点
训练数据和方法:
采用国产化万卡集群和国产深度学习框架训练。
使用10万亿Token的中英文高质量语料进行训练。
模型结构:
采用标准Decoder-only结构。
使用Rotary Embedding位置编码和SwiGLU激活函数,以及RMSNorm进行层标准化。
性能优化:
优化MP、PP、SP实现方式提升模型性能。
采用RingAttention和ntk-aware+attention-scaling保证训练效果平稳过渡。
功能调用能力
支持多轮对话和工具调用功能。
开源了训练代码和多轮数据构建方式。
模型在通用问答、逻辑推理、代码生成等方面均有显著提升。
评测结果
在C-Eval、MMLU、CMMLU、GSM8K、HumanEval、BBH等评测集上,不同规模的模型表现良好。
例如,TeleChat2-115B在C-Eval上达到86.9%,在MMLU上达到80.9%。
开源链接
TeleChat2-3B:https://modelscope.cn/models/TeleAI/TeleChat2-3B
TeleChat2-7B:https://modelscope.cn/models/TeleAI/TeleChat2-7B
TeleChat2-35B:https://modelscope.cn/models/TeleAI/TeleChat2-35B-Nov
TeleChat2-115B:https://modelscope.cn/models/TeleAI/TeleChat2-115B
微调与推理
提供了使用ms-swift 3.0进行自我认知微调的示例。
推理脚本支持多卡推理和长文优化。
通过上述总结,可以清晰地了解TeleAI星辰语义大模型的主要特点、性能表现及开源相关信息。
评论区