检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
处理方法 针对原因1,需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"] = "3" os.environ["NCCL_IB_TIMEOUT"] = "22"
参数类型 描述 pfs 是 PFSSummary object obs并行文件系统输出。 表17 PFSSummary 参数 是否必选 参数类型 描述 pfs_path 是 String obs并行文件系统路径url。 表18 DataSource 参数 是否必选 参数类型 描述 job
针对未完成验收的任务,可以继续验收。针对未发起过验收流程的任务,不支持“继续验收”,按钮为灰色。 在“任务统计>标注进展”页签中,针对需继续验收的任务,单击“继续验收”。系统直接进入“实时验收报告”页面,您可以继续验收未验收的图片,设置其“验收结果”。 完成验收 继续验收完成后,单击右上角“完成验收”在完成验收
swr_path String SWR镜像地址。 tag String 镜像Tag。 type String 镜像类型。枚举值如下: BUILD_IN:系统内置镜像。 DEDICATED:用户保存的镜像。 update_at Long 镜像最后更新的时间,UTC毫秒。 visibility String
LogDir 参数 参数类型 描述 pfs PFSSummary object obs并行文件系统输出。 表26 PFSSummary 参数 参数类型 描述 pfs_path String obs并行文件系统路径url。 表27 DataSource 参数 参数类型 描述 job JobSummary
据进一步确认标注,然后将其加入训练数据集中,使用此数据集训练模型,可得到精度更高的模型。首先,针对智能标注和采集筛选任务,难例的发现操作是系统自动执行的,无需人工介入,仅需针对标注后的数据进行确认和修改即可,提升数据管理和标注效率。其次,您可以基于难例的情况,补充类似数据,提升数
TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断
LogDir 参数 参数类型 描述 pfs PFSSummary object obs并行文件系统输出。 表27 PFSSummary 参数 参数类型 描述 pfs_path String obs并行文件系统路径url。 表28 DataSource 参数 参数类型 描述 job JobSummary
执行代码存放的OBS地址,默认值为空,名称固定为“customize_service.py”。 推理代码文件需存放在模型“model”目录。该字段不需要填,系统也能自动识别出model目录下的推理代码。 否 str dependencies 推理代码及模型需安装的包,默认为空。从配置文件读取。 否
访问管理在线服务等相关资源。 监控和报告任何异常活动,并及时采取措施。 推理部署安全责任 提供商 底层ecs相关的系统补丁修复 k8s的版本更新和漏洞修复 虚拟机OS的版本生命周期维护 ModelArts推理平台自身的安全合规性 容器应用服务加固 模型运行环境的版本更新和漏洞定期修复
bs-mount/”,避免选择存量目录覆盖已有文件。OBS挂载仅开放对挂载目录文件新增、查看、修改功能,如果需要删除文件请到OBS并行文件系统中手动删除。 健康检查接口示例如下。 URI GET /health 请求示例curl -X GET \ http://{listen_ip}:8080/health
统一镜像Runtime的命名规范:<AI引擎名字及版本> - <硬件及版本:cpu或cuda或cann> - <python版本> - <操作系统版本> - <CPU架构> 当前支持自定义模型启动命令,预置AI引擎都有默认的启动命令,如非必要无需改动 表1 支持的常用引擎及其Runtime以及默认启动命令
swr_path String SWR镜像地址。 tag String 镜像Tag。 type String 镜像类型。枚举值如下: BUILD_IN:系统内置镜像。 DEDICATED:用户保存的镜像。 update_at Long 镜像最后更新的时间,UTC毫秒。 visibility String
swr_path String SWR镜像地址。 tag String 镜像Tag。 type String 镜像类型。枚举值如下: BUILD_IN:系统内置镜像。 DEDICATED:用户保存的镜像。 update_at Long 镜像最后更新的时间,UTC毫秒。 visibility String
TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断
Turbo的数据存储方案,不适用于仅使用OBS的存储方案。通过OBS对象存储服务(Object Storage Service)与SFS Turbo文件系统联动,可以实现数据灵活管理、高性能读取数据等。通过OBS上传训练所需的模型文件、训练数据等,再将OBS中的数据文件导入到SFS Turbo,然后在训练作业中挂载SFS
exists('obs://bucket_name/sub_dir_0/sub_dir_1') 由于OBS允许同名的文件和文件夹(Unix操作系统不允许),如果存在同名的文件和文件夹,例如“obs://bucket_name/sub_dir_0/abc”,当调用mox.file.e
print('JOB_ID: ', os.environ['JOB_ID']) print('RANK_TABLE_FILE: ', os.environ['RANK_TABLE_FILE']) print('RANK_SIZE: ', os.environ['RANK_SIZE'])
r_location为必填参数。Image镜像制作规范可参见创建模型的自定义镜像规范。 runtime 否 String 模型运行时环境,系统默认使用python2.7。runtime可选值与model_type相关,当model_type设置为Image时,不需要设置runti
file_path”。 import os current_path = os.path.dirname(os.path.realpath(__file__)) # 获得启动文件bootfile.py的路径 project_root = os.path.dirname(current_path)