搜索_华为云

推理场景介绍 - AI开发平台ModelArts

√ √ https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 6 llama2-70b √ √ √ √ √ https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
创建可视化作业 - AI开发平台ModelArts

是否必选参数类型说明 job_name 是 String 可视化作业名称。限制为1-20位只含数字，字母，下划线，中划线的名称。 job_desc 否 String 对可视化作业的描述，默认为空，字符串的长度限制为[0, 256]。 train_url 是 String OBS路径地址。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
将模型部署为批量推理服务 - AI开发平台ModelArts

输入数据格式为csv时，建议文件大小不超过12MB。如果单张图片/csv文件超过文件12MB，会提示报错，建议调整文件大小使其符合要求，或联系技术支持人员调整文件大小限制。 “请求路径” 批量服务中调用模型的接口URL，表示服务的请求路径，此值来自模型配置文件中apis的url字段。 “映射关系” 如果模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
更新可视化作业描述 - AI开发平台ModelArts

请求参数如表2所示。表2 请求参数参数是否为必选参数类型说明 job_desc 是 String 对可视化作业的描述，字符串的长度限制为[0，256]。响应消息响应参数如表3所示。表3 响应参数参数参数类型说明 is_success Boolean 请求是否成功。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
推理场景介绍 - AI开发平台ModelArts

√ √ https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 6 llama2-70b √ √ √ √ √ https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
推理性能测试 - AI开发平台ModelArts

100，数量需和--request-rate的数量对应。 --max-tokens：输入+输出限制的最大长度，模型启动参数--max-input-length值需要大于该值。 --max-prompt-tokens：输入限制的最大长度，推理时最大输入tokens数量，模型启动参数--max-tota

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
修改训练作业优先级 - AI开发平台ModelArts

约束限制仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。作业优先级取值为1~3，默认优先级为1，最高优先级为3。默认用户权限可选择优先级1和2，配置了“设置作业为高优先级权限”的用户可选择优先级1~3。如何设置训练作业优先级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
推理性能测试 - AI开发平台ModelArts

100，数量需和--request-rate的数量对应。 --max-tokens：输入+输出限制的最大长度，模型启动参数--max-input-length值需要大于该值。 --max-prompt-tokens：输入限制的最大长度，推理时最大输入tokens数量，模型启动参数--max-tota

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
修改工作空间 - AI开发平台ModelArts

工作空间名称。长度限制为4-64字符，支持中文、大小写字母、数字、中划线和下划线。同时'default'为系统预留的默认工作空间名称，用户无法自己创建名为'default'的工作空间。 description 否 String 工作空间描述，默认为空。长度限制为0-256字符。表4

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
修改工作空间配额 - AI开发平台ModelArts

参数类型描述 resource 是 String 资源标识。 quota 是 Integer 要修改的配额值。配额值为正整数或-1，-1代表不限制配额。配额值范围不能超过配额的最大值与最小值。可通过调用查询工作空间配额接口查询配额的最大值。响应参数状态码： 200 表5 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
注册自定义镜像 - AI开发平台ModelArts

description String 该镜像所对应的描述信息，长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下： NOTEBOOK：镜像支持通过https协议访问Notebook。 SSH：镜像支持本地IDE通过SSH协议远程连接Notebook。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
推理场景介绍 - AI开发平台ModelArts

√ √ https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 6 llama2-70b √ √ √ √ √ https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

ocket协议。约束与限制 WebSocket协议只支持部署在线服务。只支持自定义镜像导入模型部署的在线服务。调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
创建并管理工作空间 - AI开发平台ModelArts

默认无限制，支持设置1~60000。分钟可视化作业使用时长默认无限制，支持设置1~60000。分钟开发环境CPU规格使用时长（单核为统计基础单元）默认无限制，支持设置1~60000。分钟开发环境GPU规格使用时长（单张Pnt1为统计基础单元）默认无限制，支持设置1~60000。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Notebook中快速使用MoXing - AI开发平台ModelArts

Notebook中快速使用MoXing 本文档介绍如何在ModelArts中调用MoXing Framework接口。进入ModelArts，创建Notebook实例登录ModelArts管理控制台，在左侧菜单栏中选择“开发空间>Notebook”，进入“Notebook”管理页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
语言模型推理性能测试 - AI开发平台ModelArts

100，数量需和--request-rate的数量对应。 --max-tokens：输入+输出限制的最大长度，模型启动参数--max-input-length值需要大于该值。 --max-prompt-tokens：输入限制的最大长度，推理时最大输入tokens数量，模型启动参数--max-tota

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

zip的llm_tools/llm_evaluation目录下。工具相关介绍在benchmark代码目录。约束限制当前版本仅支持语言+图片多模态性能测试。静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤三：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
LLaMA-VID基于DevServer适配PyTorch NPU推理指导（6.3.910) - AI开发平台ModelArts

下载model_zoo相关数据从以下5个链接下载model_zoo数据 https://huggingface.co/lmsys/vicuna-7b-v1.5 https://huggingface.co/lmsys/vicuna-13b-v1.5 https://storage.googleapis.c

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
推理场景介绍 - AI开发平台ModelArts

√ √ https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 6 llama2-70b √ √ √ √ √ https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）

总条数： 1195

上一页
1
...
23
24
25
...
60
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理场景介绍 - AI开发平台ModelArts

创建可视化作业 - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

更新可视化作业描述 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

修改工作空间 - AI开发平台ModelArts

修改工作空间配额 - AI开发平台ModelArts

注册自定义镜像 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

创建并管理工作空间 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

Notebook中快速使用MoXing - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

LLaMA-VID基于DevServer适配PyTorch NPU推理指导（6.3.910) - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线