检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 name 是 String Workflow工作流名称,1到64位只包含中英文、数字
__WORKFORCE_SAMPLED_REJECTED__:采样已驳回 __AUTO_ANNOTATION__:待确认 worker_id 否 String 标注成员ID。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 check_accept Boolean 是否验收通过,用于团队标注。可选值如下:
search_conditions 否 String URL编码后的多维筛选条件(多个SearchCondition之间为and的关系)。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 sample_count Integer 样本数量。 samples
我的发布”页面,单击目标资产右侧的“下架”,在弹框中确认资产信息,单击“确定”完成下架。 资产下架后,已订阅该资产的用户在时长限制期内可继续正常使用,其他用户将无法查看和订阅该资产。 图4 下架资产 资产下架成功后,操作列的“下架”会变成“上架”,您可以通过单击“上架”将下架的资产重新共享到AI
limit/request配置cpu和内存大小,已知单节点Snt9B机器为:8张Snt9B卡+192u1536g,请合理规划,避免cpu和内存限制过小引起任务无法正常运行。 父主题: Lite Cluster资源使用
第二条对应9:30:00 ~ 10:00:00,按照4个计算节点个数计费。 欠费影响 图2描述了按需计费资源各个阶段的状态。购买后,在计费周期内资源正常运行,此阶段为有效期;当您的账号因按需资源自动扣费导致欠费后,账号将变成欠费状态,资源将陆续进入宽限期和保留期。 图2 按需计费资源生命周期
等待5分钟左右下载完成,单击展开下载详情,可以查看该数据集的“目标位置”。 步骤四:创建新版自动学习图像分类项目 确保数据集创建完成且可正常使用后,在ModelArts控制台,左侧导航栏选择“开发空间 > 自动学习”,进入自动学习总览页面。 单击选择“图像分类”创建项目。完成参数填写。
常见问题 如何检测当前的torch_npu是否正确安装? 您可以使用如下的python命令在对应的运行环境中初步校验torch_npu是否正常安装。 python3 -c "import torch;import torch_npu;print(torch_npu.npu.is_available())"
等待5分钟左右下载完成,单击展开下载详情,可以查看该数据集的“目标位置”。 步骤四:创建新版自动学习图像分类项目 确保数据集创建完成且可正常使用后,在ModelArts控制台,左侧导航栏选择“开发空间 > 自动学习”,进入自动学习总览页面。 单击选择“图像分类”创建项目。完成参数填写。
| grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装
试。 确认对应的脚本、代码、流程在linux服务器上运行正常。 如果在linux服务器上运行就有问题,那么先调通以后再做容器镜像。 确认打入镜像的文件是否在正确的位置、是否有正确的权限。 训练场景主要查看自研的依赖包是否正常,查看pip list是否包含所需的包,查看容器直接调用
“部署类型”:默认选择“在线服务”。 参数填写完成后,单击“立即创建”。页面自动跳转至AI应用列表页面,等待创建结果,预计2分钟左右。 当AI应用的状态变为“正常”时,表示创建成功。 步骤5:部署为在线服务(CPU) AI应用创建成功后,可将其部署为在线服务,在部署时可使用CPU资源。 单击AI应用
search_conditions 否 String URL编码后的多维筛选条件(多个SearchCondition之间为and的关系)。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 sample_count Integer 样本数量。 samples
URL编码后的多维筛选条件(多个SearchCondition之间为and的关系)。 version_id 否 String 数据集版本ID。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 sample_count Integer 样本数量。 samples
权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略授权:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。 角色与策略相关介绍请参考权限基本概念。 “新增委托
(例如“train.py”)中定义好迭代次数、LOSS和吞吐数据的存放位置,以及存放格式(必须是“迭代次数|loss|吞吐”),才能在此处正常查看吞吐和“训练LOSS”曲线。 训练LOSS 训练阶段的LOSS变化,模型在日志里用LOSS关键词记录数据,按照训练迭代周期记录LOSS值。
用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 kind String 训练作业类型。默认使用job。枚举值:
ModelArts服务的常用依赖服务的权限。 系统策略 ModelArts对其他云服务有依赖关系,因此在ModelArts控制台的各项功能需要配置相应的服务权限后才能正常查看或使用,依赖服务及其预置的权限如下。 表2 ModelArts控制台依赖服务的角色或策略 控制台功能 依赖服务 需配置角色/策略 数据管理(数据集/
NCCL_IB_TC=128:数据包走交换机的队列4通道,这是RoCE协议标准。 NCCL_IB_TIMEOUT=22:把超时时间设置长一点,正常情况下网络不稳定会有5秒钟左右的间断,超过5秒就返回timeout了,改成22预计有二十秒左右,算法为4.096 µs * 2 ^ timeout。
save("fantasy_landscape_npu.png") 在运行pipeline时,默认的加速卡为0号卡,当机器有多人使用时,可能存在资源占用而无法正常运行的情况,可以通过环境变量指定加速卡ID,如指定5号卡进行执行。 # mslite_pipeline.py … os.environ['DEVICE_ID']