-
准备镜像环境 - AI开发平台ModelArts
conf sysctl -p | grep net.ipv4.ip_forward Step2 获取训练镜像 建议使用官方提供的镜像部署训练服务。镜像地址{image_url}参见镜像地址获取。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像
-
节点故障定位 - AI开发平台ModelArts
Ecc隔离地址记录达到64个。 发起维修流程。 NT_NET_NTP_CHECK Runtime 其他 ntp异常。 ntpd或者chronyd服务异常。 发起维修流程。 NT_KUBE_DISK_READONLY_CHECK Runtime 其他 Kubelet硬盘只读 以下目录只读:
-
新建Workflow执行 - AI开发平台ModelArts
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String,Object>
-
准备镜像 - AI开发平台ModelArts
conf sysctl -p | grep net.ipv4.ip_forward Step2 获取训练镜像 建议使用官方提供的镜像部署训练服务。镜像地址{image_url}参见表1。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像前请先按
-
操作StepExecution - AI开发平台ModelArts
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String,Object>
-
启动智能任务 - AI开发平台ModelArts
模型部署的实例数,即计算节点的个数。 model_id 否 String 模型ID。 specification 否 String 在线服务的资源规格。详见部署服务 weight 否 Integer 权重百分比,分配到此模型的流量权重;仅当infer_type为real-time时需要配置,多个权重相加必须等于100。
-
更新Execution - AI开发平台ModelArts
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String,Object>
-
入门教程 - AI开发平台ModelArts
在使用ModelArts数据管理的功能前,需要先完成以下准备工作。 用户在使用数据管理的过程中,ModelArts需要访问用户的OBS等依赖服务,需要用户进行在“全局配置”页面中进行委托授权。具体操作参考使用委托授权(推荐)。 创建数据集 本示例使用OBS中的数据作为数据集的输入目
-
使用自定义镜像创建算法 - AI开发平台ModelArts
创建算法参数说明 参数 说明 启动方式 必选,选择“自定义”。 镜像 必选。容器镜像地址。 自有镜像或他人共享的镜像:单击右边的“选择”,可以从SWR服务选择用户的容器镜像,前提是要先上传镜像到SWR中,操作指导可参见如何登录并上传镜像到SWR。 公开镜像:支持手动输入SWR上的公开镜像地址
-
算链编排界面说明 - AI开发平台ModelArts
选中连线,展示连线菜单。右键单击删除,可删除该连线,如图6所示。 图6 删除连线 Kernel切换及状态 在Jupyter体系结构中,Kernel是由服务器启动的独立进程,不同的Kernel具有不同的编程语言和环境,用户可通过kernel运行代码。 目前,MLS的一个Editor对应一个Ke
-
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts
如果训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中; 将训练作业提交到ModelArts训练服务中,训练作业会使用当前Notebook的镜像来执行训练作业; 训练任务得到的输出上传到4指定的obs_path中,日志上传到log_url指定的位置中。
-
查询资源池列表 - AI开发平台ModelArts
资源池的驱动信息。 controlMode Integer 资源池的受限状态。可选值如下: 0:代表不受限 1:转包周期受限 2:规格变更受限 4:服务受限 8:冻结 16:公安冻结(不可退订) 另外状态是可以叠加的,比如9代表转包周期受限+冻结状态。 表9 resources 参数 参数类型
-
训练作业运行失败,出现NCCL报错 - AI开发平台ModelArts
建议与总结 环境变量NCCL_SOCKET_IFNAME用于指定通信的网卡名称。“NCCL_SOCKET_IFNAME=eth0”表示仅使用eth0网卡通信。该环境变量由系统自动注入,由于通信网卡名称不固定,因此训练代码不应默认设置该环境变量。 环境变量NCCL_IB_TIMEOUT用于控制InfiniBand
-
删除资源池 - AI开发平台ModelArts
资源池的驱动信息。 controlMode Integer 资源池的受限状态。可选值如下: 0:代表不受限 1:转包周期受限 2:规格变更受限 4:服务受限 8:冻结 16:公安冻结(不可退订) 另外状态是可以叠加的,比如9代表转包周期受限+冻结状态。 表8 resources 参数 参数类型
-
查询资源池 - AI开发平台ModelArts
资源池的驱动信息。 controlMode Integer 资源池的受限状态。可选值如下: 0:代表不受限 1:转包周期受限 2:规格变更受限 4:服务受限 8:冻结 16:公安冻结(不可退订) 另外状态是可以叠加的,比如9代表转包周期受限+冻结状态。 表8 resources 参数 参数类型
-
创建应用工程 - AI开发平台ModelArts
创建应用工程 使用VS Code连接到云上开发环境后,用户就可以开发AI应用了。云上AI应用开发环境中预置了丰富的开发工具,用户可以通过左侧导航栏的ModelArts图标使用相关功能。本章节通过创建并运行两个不同类型的AI应用工程,帮助开发者快速了解应用工程的组成及运行方法。 创建应用工程
-
查询Execution - AI开发平台ModelArts
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions Array of Constraint objects 数据约束条件。 value Map<String,Object>
-
迁移过程使用工具概览 - AI开发平台ModelArts
AOE(Ascend Optimization Engine)是一个昇腾设备上模型运行自动调优工具,作用是充分利用有限的硬件资源,以满足算子和整网的性能要求。在推理场景下使用,可以对于模型的图和算子运行内置的知识库进行自动优化,以提升模型的运行效率。 自动高性能算子生成工具AKG AKG(Auto
-
使用Notebook开发Ascend算子 - AI开发平台ModelArts
Notebook创建完成后处于运行状态,单击操作列的“更多 > VS Code接入”,参考VS Code一键连接Notebook连接云上开发环境。 成功连接云上开发环境后,VS Code界面上会显示云上已下载的工程如图2所示。 图2 工程目录 在VS Code中调试Add算子 在Terminal中执行如下命令进入Add算子所在目录。
-
更新资源池 - AI开发平台ModelArts
资源池的驱动信息。 controlMode Integer 资源池的受限状态。可选值如下: 0:代表不受限 1:转包周期受限 2:规格变更受限 4:服务受限 8:冻结 16:公安冻结(不可退订) 另外状态是可以叠加的,比如9代表转包周期受限+冻结状态。 表15 resources 参数 参数类型