搜索_华为云

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

python -c "import torch;print(torch.__version__)" 通过pytorch官网可查兼容版本：https://pytorch.org/get-started/previous-versions/ 如果环境中装了多版本的cuda，可以排查LD

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
获取动态挂载OBS实例信息列表 - AI开发平台ModelArts

UNMOUNTING：卸载中 UNMOUNT_FAILED：卸载失败 UNMOUNTED：卸载完成 uri String OBS对象路径。请求示例 GET https://{endpoint}/v1/{project_id}/notebooks/{instance_id}/storage 响应示例状态码：200

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
资源池统计 - AI开发平台ModelArts

error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例查询资源池监控信息。 GET https://{endpoint}/v2/{project_id}/pools { } 响应示例状态码：200 OK。 { "statistics"

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
VS Code一键连接Notebook - AI开发平台ModelArts

Code。VS Code安装请参考安装VS Code软件。图4 下载并安装VS Code 如果用户之前未安装过ModelArts VS Code插件，此时会弹出安装提示，请单击“Install and Open”进行安装；如果之前已经安装过插件，则不会有该提示，请跳过此步骤，直接执行5。图5

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
准备Notebook - AI开发平台ModelArts

Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中使用ModelArts的开发环境Notebook部署推理服务进行调试，请按照以下步骤完成Notebook的创建。登录ModelArts控制台，在贵阳一区域，进入开发环境的Notebook界

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
查询推理服务标签 - AI开发平台ModelArts

参数类型描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例 https://{endpoint}/v1/{project_id}/services/tms/tags 响应示例状态码：200 查询项目下se

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询工作流定时调度详情 - AI开发平台ModelArts

定时调度策略中的标记，失败时触发。 on_running String 定时调度策略中的标记，running时触发。请求示例查询调度信息 GET https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/schedules/fa4a

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

但是达不到预期，可能是nv_peer_mem异常。处理方法查看nv_peer_mem是否已安装。 dpkg -i | grep peer 如果未安装则需要安装，安装方法参考装机指导。如果已安装则进入下一检测项。查看该软件是否已经加载至内核。 lsmod | grep peer

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
创建训练作业标签 - AI开发平台ModelArts

创建训练作业标签。设置TMS标签的key/value为“111”和“k3”，TMS标签的key/value为"k3"和“v2”。 POST https://endpoint/v2/{project_id }/trainJob/{training_job_id}/tags/create

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
删除资源标签 - AI开发平台ModelArts

参数类型描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例 https://{endpoint}/v1/{project_id}/notebooks/a55eba18-1ebf-4e9a-8229-d2d3

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询资源池上的标签 - AI开发平台ModelArts

参数类型描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例 https://{endpoint}/v1/{project_id}/pools/a55eba18-1ebf-4e9a-8229-d2d3b593a3dc/tags

帮助中心 > AI开发平台ModelArts > API参考 > 资源标签管理
按标签名称删除标签及仅包含此标签的文件 - AI开发平台ModelArts

操作是否执行成功。可选值如下： true：执行成功 false：执行失败请求示例按标签名称删除标签及仅包含此标签的文件 DELETE https://{endpoint}/v2/{project_id}/datasets/WxCREuCkBSAlQr9xrde/data-anno

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询作业引擎规格 - AI开发平台ModelArts

engine_version String 训练作业使用的引擎版本。请求示例如下以查看训练作业的资源引擎规格为例。 GET https://endpoint/v1/{project_id}/job/ai-engines?job_type=train 响应示例成功响应示例

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

peer-memory四个软件。但是如果nvidia和cuda是使用runfile(local)方式安装的，那么需要在下一步中再次卸载。若使用nvidia run包直接安装的驱动，需要找到对应的卸载命令。 sudo /usr/bin/nvidia-uninstall sudo

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
Standard资源池节点故障定位 - AI开发平台ModelArts

驱动升级 NPU升级。节点正在执行NPU驱动升级。 A200008 节点管理节点准入准入检测。节点正在进行节点准入检测，包括基本的节点配置检查和简单的业务验证。 A050933 节点管理容错Failover 当节点具有该污点时，会将节点上容错（Failover）业务迁移走。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
AI Gallery使用流程 - AI开发平台ModelArts

Gallery、发布数据集到AI Gallery。对于支持部署为AI应用的AI Gallery模型，可将此模型部署为AI应用，具体可参见将AI Gallery中的模型部署为AI应用。发布后的资产，可通过微调大师训练模型和在线推理服务部署模型，具体可参见使用AI Gallery微调大师训练模型、使用AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
获取Workflow工作流节点度量信息 - AI开发平台ModelArts

type String 度量的类型。 data Map<String,Object> 度量数据。请求示例获取工作流节点度量信息 GET https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/executions/4dd

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

型开发、训练、管理、部署功能，可灵活使用其中一个或多个功能。支持本地IDE+ModelArts 插件远程开发能力，线上线下协同开发，开发训练一体化架构，支持大模型分布式部署及推理。统一管理AI开发全流程，提升开发效率，记录模型构建实验全流程。多场景部署，灵活满足业务需求支持云端/边端部署等多种生产环境。

帮助中心 > AI开发平台ModelArts > 产品介绍
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。处理方法如果未安装fabricmanager，则需安装改组件。如果已安装fabricmanager，运行以下命令重启fabricmanager.service。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

-user/work以外的目录，请将数据集等放到work路径下，不要放到非work路径下。请不要将实例频繁保存镜像，建议一次将需要的安装包安装好，然后执行镜像保存，避免频繁执行镜像保存的动作，保存次数越多镜像越大，且多次保存后的镜像过大问题无法通过清理磁盘方式减少镜像的大小（Docker保存原理机制）。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关

总条数： 1862

上一页
1
...
85
86
87
...
94
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

获取动态挂载OBS实例信息列表 - AI开发平台ModelArts

资源池统计 - AI开发平台ModelArts

VS Code一键连接Notebook - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

查询推理服务标签 - AI开发平台ModelArts

查询工作流定时调度详情 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

创建训练作业标签 - AI开发平台ModelArts

删除资源标签 - AI开发平台ModelArts

查询资源池上的标签 - AI开发平台ModelArts

按标签名称删除标签及仅包含此标签的文件 - AI开发平台ModelArts

查询作业引擎规格 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

AI Gallery使用流程 - AI开发平台ModelArts

获取Workflow工作流节点度量信息 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线