AI开发平台MODELARTS-在ModelArts Studio(MaaS)模型广场查看模型:模型介绍
模型介绍
表2列举了ModelArts Studio大模型即服务平台支持的模型清单。关于模型的详细信息请在“模型详情”页面查看。
模型系列 |
模型类型 |
应用场景 |
支持语言 |
支持地域 |
模型介绍 |
|
---|---|---|---|---|---|---|
DeepSeek |
DeepSeek-R1 |
文本生成 |
对话问答、文本生成推理 |
中文、英文 |
西南-贵阳一、华北-乌兰察布一 |
深度求索(DeepSeek)自主研发的DeepSeek-R1智能体模型,基于核心技术突破,具备超长上下文理解与高效推理能力,支持多模态交互及API集成,可驱动智能客服、数据分析等场景应用,以行业领先的性价比加速企业智能化升级。 |
DeepSeek-V3 |
文本生成 |
对话问答、翻译 |
中文、英文 |
西南-贵阳一、华北-乌兰察布一 |
DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,开创了一种无辅助损失的负载平衡策略,并设置了多Token预测训练目标以获得更强大的性能。 |
|
通义千问2 |
Qwen2 |
文本生成 |
多语言处理、数学推理、对话问答 |
中文、英文 |
西南-贵阳一、华东二 |
Qwen2是阿里云研发的Qwen系列的新的大型语言模型。对于Qwen2,发布了许多基本语言模型和指令调整的语言模型,参数范围从5亿到720亿,包括专家混合模型,并在一系列针对语言理解,语言生成,多语言能力,编码,数学,推理等的基准测试中表现出对专有模型的竞争力。 |
Qwen2-VL |
图像理解 |
图像理解、对话问答 |
中文、英文 |
西南-贵阳一、华东二 |
Qwen2-VL是阿里云推出的具有70亿参数的大型视觉语言模型,专注于图像和文本的多模态理解和生成任务。 |
|
通义千问2.5 |
Qwen2.5 |
文本生成 |
多语言处理、数学推理、对话问答 |
中文、英文 |
西南-贵阳一、华东二 |
Qwen2.5是阿里云研发的Qwen系列的新的大型语言模型。对于Qwen2.5,发布了许多基本语言模型和指令调整的语言模型,参数范围从5亿到720亿。 |
Qwen2.5-VL |
图像理解 |
图像理解、对话问答 |
中文、英文 |
西南-贵阳一 |
通义千问2.5-VL-7B是阿里云通义千问团队开源的多模态视觉语言模型,参数规模为70亿,具备强大的视觉和语言理解能力。 |
|
ChatGLM |
GLM-4 |
文本生成 |
对话问答、长文本推理、代码生成 |
中文、英文 |
西南-贵阳一、华东二 |
GLM-4-9B是智谱AI推出的最新一代预训练模型GLM-4系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B及其人类偏好对齐的版本GLM-4-9B-Chat均表现出较高的性能。 |
ChatGLM3 |
文本生成 |
对话问答、数学推理、代码生成 |
中文、英文 |
西南-贵阳一、华东二 |
ChatGLM3-6B是ChatGLM系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B引入了更强大的基础模型和更完整的功能支持。 |
|
Deepseek-Coder |
文本生成 |
对话问答、文本推理 |
中文、英文 |
西南-贵阳一、华东二 |
Deepseek Coder由一系列代码语言模型组成,每个模型都从头开始在2T标记上进行训练,其中87%为代码,13%为英文和中文的自然语言。在编码能力方面,DeepSeek Coder在多种编程语言和各种基准测试中均在开源代码模型中取得了较高性能。 |
|
Yi |
文本生成 |
代码生成、数学推理、对话问答 |
中文、英文 |
西南-贵阳一、华东二 |
Yi系列模型是01.AI从零训练的下一代开源大语言模型。Yi系列模型是一个双语的语言模型,在3T多语言语料库上训练而成,是全球最强大的大语言模型之一。Yi系列模型在语言认知、常识推理、阅读理解等方面表现优异。 |
|
通义千问1.5 |
文本生成 |
代码生成、数学推理、对话问答 |
中文、英文 |
西南-贵阳一、华东二 |
Qwen1.5是阿里云研发的通义千问大语言模型系列,包括不同模型大小的基础语言模型和对话聊天模型,可适应多种自然语言和代码。Qwen1.5版本开源了包括0.5B、1.8B、4B、7B、14B和72B在内的六种大小的基础和聊天模型,同时,也开源了量化模型。不仅提供了Int4和Int8的GPTQ模型,还有AWQ模型,以及GGUF量化模型。 |
|
通义千问 |
Qwen |
文本生成 |
对话问答、智能创作、文本摘要、翻译、代码生成、数学推理 |
中文、英文 |
西南-贵阳一、华东二 |
通义千问-14B(Qwen-14B)是阿里云研发的通义千问大模型系列的140亿参数规模的模型。通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。 |
QwQ |
文本生成 |
对话问答 |
英文 |
西南-贵阳一 |
QwQ是通义千问系列的推理模型。与传统的指令调优模型相比,具有思维和推理能力的QwQ在下游任务(尤其是疑难问题)中可以实现显著的性能提升。 |
模型分为量化模型和非量化模型,其中,量化模型又包括SmoothQuant-W8A8和AWQ-W4A16两种。
- AWQ-W4A16量化模型可以由非量化模型压缩后生成,也可以直接使用开源AWQ权重。
- SmoothQuant-W8A8量化模型只能由非量化模型压缩生成。
ModelArts Studio大模型即服务平台已预置非量化模型与AWQ-W4A16量化模型的模型模板。
- 非量化模型可以支持调优、压缩、部署等操作。
- 量化模型仅支持部署操作。当需要获取SmoothQuant-W8A8量化模型时,则可以通过对非量化模型进行模型压缩获取。