搜索_华为云

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

processes: p.join() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

distributed.barrier() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
查询数据处理任务的版本列表 - AI开发平台ModelArts

} 状态码状态码描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码请参见错误码。父主题：数据管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
批量更新团队标注样本的标签 - AI开发平台ModelArts

状态码： 200 表7 响应Body参数参数参数类型描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 批量更新样本标签的响应结果列表。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
推理精度测试 - AI开发平台ModelArts

├── answer_error.xlsx # 保存回答了问题的选项，但是回答结果错误 │ ├── answer_result_unknow.xlsx # 保存未推理出结果的问题，例如超时、系统错误 │ ├── system_error.xlsx # 保存推理结果，但

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
推理精度测试 - AI开发平台ModelArts

├── answer_error.xlsx # 保存回答了问题的选项，但是回答结果错误 │ ├── answer_result_unknow.xlsx # 保存未推理出结果的问题，例如超时、系统错误 │ ├── system_error.xlsx # 保存推理结果，但

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
部署在线服务 - AI开发平台ModelArts

2u", "instance_count": 1, "src_path": "https://infers-data.obs.xxx.com/xgboosterdata/", "dest_path": "https://infers-data.obs.xxx.com/output/",

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
图模式 - AI开发平台ModelArts
图模式 - AI开发平台ModelArts

根据使用场景合理设置动态分档以及max_num_seqs参数，避免档位过大导致图编译错误。 MoE模型依赖MindSpeed，当使用MoE模型推理时，需提前安装： git clone https://gitee.com/ascend/MindSpeed.git cd MindSpeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
查询训练作业版本列表 - AI开发平台ModelArts

is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码。调用成功时无此字段。 job_id Long 训练作业的ID。 job_name String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
分页查询智能任务列表 - AI开发平台ModelArts

elapsed_time Long 执行时间。 error_code String 错误码。 error_detail String 错误详情。 error_msg String 错误信息。 message String 错误信息。 model_id String 模型ID。 model_name

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询训练作业列表 - AI开发平台ModelArts

调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码，调用成功时无此字段。 error_solution String 调用失败时的提示解决信息，调用成功时无此字段。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
准备镜像环境 - AI开发平台ModelArts

下载地址：https://huggingface.co/benjamin-paine/stable-diffusion-v1-5/tree/main （需登录）下载stable-diffusion-xl-base-1.0模型包并上传到宿主机上，官网下载地址：https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

suppressed"日志。这个日志只是说明某个IO处理时间超过 1 分钟了，不会造成数据丢失。客户端有重试机制，等峰值过去后，所有IO最终都会正确处理。所以理论上，出现该错误日志，并不会造成数据丢失，只是SFS客户端I/O速度变慢或卡顿，但最终会争取处理。处理方法结合当前购买的SFS盘性能规划业务，建议不要运行到性能上限。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
LLaMA-VID基于Lite Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

下载model_zoo相关数据从以下5个链接下载model_zoo数据 https://huggingface.co/lmsys/vicuna-7b-v1.5 https://huggingface.co/lmsys/vicuna-13b-v1.5 https://storage.googleapis.c

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

&& \ pip install ipykernel==6.7.0 --trusted-host https://repo.huaweicloud.com -i https://repo.huaweicloud.com/repository/pypi/simple && \

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
创建AI应用 - AI开发平台ModelArts

POST https://{endpoint}/v1/{project_id}/models { "model_name" : "mnist", "model_version" : "1.0.0", "source_location" : "https://models

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
准备镜像环境 - AI开发平台ModelArts

下载地址：https://huggingface.co/benjamin-paine/stable-diffusion-v1-5/tree/main (需登录）下载stable-diffusion-xl-base-1.0模型包并上传到宿主机上，官网下载地址：https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

&& \ pip install ipykernel==6.7.0 --trusted-host https://repo.huaweicloud.com -i https://repo.huaweicloud.com/repository/pypi/simple && \

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
准备推理环境 - AI开发平台ModelArts

npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
创建数据处理任务版本 - AI开发平台ModelArts

} 状态码状态码描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码请参见错误码。父主题：数据管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 1062

上一页
1
...
31
32
33
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

查询数据处理任务的版本列表 - AI开发平台ModelArts

批量更新团队标注样本的标签 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

图模式 - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

分页查询智能任务列表 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

LLaMA-VID基于Lite Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

准备推理环境 - AI开发平台ModelArts

创建数据处理任务版本 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线