搜索_华为云

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

tensor([1.0, 2.0]).cuda()) 报错如下 Traceback (most recent call last): File "test.py", line 8, in <module> print('E', torch.cuda.get_device_properties(device))

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
查看模型评估结果 - AI开发平台ModelArts

OBS路径（推荐）直接使用moxing的copy_parallel接口，复制对应的OBS路径。 ModelArts数据管理中的数据集（即manifest文件格式）使用moxing的copy_manifest接口将文件复制到本地并获取新的manifest文件路径，然后使用SDK解析新的manifest文件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用SDK调测单机训练作业 - AI开发平台ModelArts

join(base_bucket_path, "train/test-pytorch.py"), code_dir) training_file = TrainingFiles(code_dir=code_dir, boot_file="test-pytorch.py", obs_path=base_bucket_path

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
查询训练日志 - AI开发平台ModelArts

Integer 当前返回的日志大小（单位：字节）。最大为5兆。 full_size Integer 完整的日志大小（单位：字节）。表4 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练作业权限 - AI开发平台ModelArts

训练作业权限表1 训练作业（新版）细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目创建训练作业 POST /v2/{project_id}/training-jobs modelarts:trainJob:create swr:repository:listTags

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
附录：指令微调训练常见问题 - AI开发平台ModelArts

were not found in your environment: flash_attn 根因：昇腾环境暂时不支持flash_attn接口规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉 vim /home/ma-user/an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

<instance connection port> user ma-user IdentityFile ~/.ssh/test.pem StrictHostKeyChecking no UserKnownHostsFile /dev/null

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
（可选）本地安装ma-cli - AI开发平台ModelArts

-inform DER -content D:\ma_cli-latest-py3-none-any.whl -noverify > ./test 本示例以软件包在D:\举例，请根据软件包实际路径修改。 Step3：安装ma-cli 在本地环境cmd中执行命令python --ve

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

服务IP和端口号。 API接口： GET /v1/{project_id}/services/{service_id}/predict/endpoints?type=host_endpoints 方式一：图形界面的软件获取服务的IP和端口号图6 接口返回示例方式二：Python语言获取IP和端口号

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
训练作业容错检查 - AI开发平台ModelArts

表示不做重新下发作业，也不会启用环境检测。打开开关后，允许设置重启次数为1~128次。图5 自动重启设置使用API接口设置容错检查：用户可以通过API接口的方式开启自动重启。创建训练作业时，在“metadata”字段的“annotations”中传入“fault-toler

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

errorMessage:None reason:Service Unavailable 如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.envir

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909）方案概览本方案介绍了在ModelArts的Lite Server上使用昇腾Atlas 300I Duo推理卡计算资源，部署Yolov8 Detection模型推理的详细过程。本方案目前仅适用于企业客户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

服务IP和端口号。 API接口： GET /v1/{project_id}/services/{service_id}/predict/endpoints?type=host_endpoints 方式一：图形界面的软件获取服务的IP和端口号图6 接口返回示例方式二：Python语言获取IP和端口号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
msprobe梯度监控 - AI开发平台ModelArts

"bounds": [-1, 0, 1] } } task参数需指定为grad_probe，dump_path表示输出目录，需手工指定，默认输出到dump_path目录。参数grad_level可取值L0、L1、L2，级别越大导出的数据越详细。更多详细参数说明请参考参数说明。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
查询训练作业的运行指标 - AI开发平台ModelArts

Usage（NPU显存使用率）。 value Array of numbers 运行指标对应数值，1min统计一个平均值。表5 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

发送请求的模块，在这里修改请求响应。目前支持vllm.openai，atb的tgi模板 ├── ... ├── eval_test.py # 启动脚本，建立线程池发送请求，并汇总结果 ├── service_predict.py # 发送请求

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
更新服务配置 - AI开发平台ModelArts

time时需要配置，多个权重相加必须等于100；当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时，持续地访问此服务的预测接口，ModelArts会按此权重比例将预测请求转发到对应的模型版本实例。 specification 是 String 资源规格，当前版本可选modelarts

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
查看训练作业日志 - AI开发平台ModelArts

xxx [ModelArts Service Log][init] download code_url: s3://dgg-test-user/snt9-test-cases/mindspore/lenet/ 类型二：time=“xxx” level=“xxx” msg=“xxx” file=“xxx”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

unzip val2014.zip wget http://images.cocodataset.org/zips/test2015.zip && unzip test2015.zip mkdir -p annotations && cd annotations/ # Download

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
查询训练作业日志 - AI开发平台ModelArts

Long 训练作业的版本ID。表2 Query参数参数是否必选参数类型说明 base_line 否 String 日志的基准位置，根据接口返回获得，为空的时候代表获取最新的日志。 lines 否 Integer 获取日志的长度，默认为50行。lines的范围为[0, 500]。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

总条数： 1051

上一页
1
...
48
49
50
...
53
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

查看模型评估结果 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

训练作业权限 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

（可选）本地安装ma-cli - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

msprobe梯度监控 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

查询训练作业日志 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线