检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 本案例介绍如何将本地开发好的MindSpore模型代码,通过PyCharm ToolKit连接到ModelArts进行云上调试和训练。 开始使用样例前,请仔细阅读准备工作罗列的要求,提前完成准备工作。本案例的步骤如下所示
Lite Cluster使用流程 ModelArts Lite Cluster面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。本文旨在帮助您了解
cbc884f1e20e", "model_type" : "tensorflow", "model_size" : 5012312, "tenant" : "6d28e85aa78b4e1a9b4bd83501bcd4a1", "project" : "d04c10db1f264cfeb1966deff1a3527c
{ "source":"obs://fake/be462ea9c5abc09f.jpg", "annotation":[ { "annotation-loc":"obs://fake/be462ea9c5abc09f.xml", "type":"modelarts
billing.mode" : "0" } }, "spec" : { "type" : "Dedicate", "scope" : [ "Train" ], "network" : { "name" : "net-0123-86c13962597848eeb29c5861153a391f
{ "kind" : "Network", "apiVersion" : "v1", "metadata" : { "name" : "network-7a03-86c13962597848eeb29c5861153a391f", "creationTimestamp
i for i, c in enumerate(classes)} id2label = {i: c for i, c in enumerate(classes)} print('Start to load model') # 加载模型 model
训练速度突然下降以及执行nvidia-smi卡顿如何解决? 问题现象 在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成,并且执行“nvidia-smi”也明显变很卡顿。 原因分析 根据现象描述可能出现了nvidia-smi
GET https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/executions/4dd2a2f5-bde2-45dd-af6b-5e5d570118d1/step_executions/255a1079-b00a-4c3a
distributed broacIcast coalesced dist. broadcast coalesced(seIf.process group, tensors, buffer size) RuntimeError: NCCL error in: /pytorch/torch/lib/c10d
mkdir CogVideoX-2b-sat cd CogVideoX-2b-sat wget https://cloud.tsinghua.edu.cn/f/fdba7608a49c463ba754/?dl=1 mv 'index.html?
说明: 当前仅Snt9C规格支持该功能。 高级配置 集群描述(可选) 输入集群描述信息,方便查找区分集群。 标签 单击“添加新标签”,可以为Standard资源池配置标签信息,通过标签实现资源的分组管理。
自定义镜像使用场景 在AI业务开发以及运行的过程中,一般都会有复杂的环境依赖需要进行调测并固化。面对开发中的开发环境的脆弱和多轨切换问题,在ModelArts的AI开发最佳实践中,通过容器镜像的方式将运行环境进行固化,以这种方式不仅能够进行依赖管理,而且可以方便的完成工作环境切换。
", "error_code" : "ModelArts.3009", "model_id" : "e527d311-a947-46da-a6e0-66c49945dfaa" } ] } 状态码 状态码 描述 200 删除成功或者失败的提示信息。
通过SSH工具远程使用Notebook 本节操作介绍在Windows环境中使用PuTTY SSH远程登录云上Notebook实例的操作步骤。 前提条件 创建一个Notebook实例,并开启远程SSH开发,配置远程访问IP白名单。该实例状态必须处于“运行中”,具体参见创建Notebook
可选值如下: true:执行成功 false:执行失败 请求示例 按标签名称更新单个标签 { "@modelarts:color" : "#93c47d" } 响应示例 状态码: 204 No Content { } 状态码 状态码 描述 204 No Content 401
i for i, c in enumerate(classes)} id2label = {i: c for i, c in enumerate(classes)} print('Start to load model') # 加载模型 model
资源池创建失败的原因与解决方法? 本文主要介绍在ModelArts资源池创建失败时,如何查找失败原因,并解决问题。 问题定位 您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题: 登录ModelArts控制台,单击弹性集群,单击资源池列表上方的“操作记录
使用Prometheus查看Lite Cluster监控指标 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 本章节主要介绍如何通过Prometheus查看
使用PyCharm Toolkit插件连接Notebook 由于AI开发者会使用PyCharm工具开发算法或模型,为方便快速将本地代码提交到ModelArts的训练环境,ModelArts提供了一个PyCharm插件工具PyCharm ToolKit,协助用户完成SSH远程连接Notebook