检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
序执行部分运行节点。 部分运行Workflow节点,首先在新开发Workflow时,需要预先定义好部分运行场景。具体流程如下: 通过SDK创建工作流时,预先定义好部分运行场景,具体可参考在Workflow中指定仅运行部分节点。 在配置工作流时,打开“部分运行”开关,选择需要执行的
容错性和可扩展性。 ModelArts通过对DB的数据进行备份,保证在原数据被破坏或损坏的情况下可以恢复业务。 开发环境故障恢复 针对用户创建的Notebook计算实例,后台计算节点故障后会立即自动迁移到其他可用节点上,实例状态会自动恢复。针对数据存储部分,提供了云硬盘存储挂载方
默认关闭,在线服务的运行日志仅存放在ModelArts日志系统。 启用运行日志输出后,在线服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流,默认缓存7天内的运行日志。如需了解LTS专业日志管理功能,请参见云日志服务。 说明: “运行日志输出”开启后,不支持关闭。
添加新用户。 登录AI Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 选择“我的资产 > 数据集”,在“我创建的数据集”页面找到待修改的数据集,单击数据集页签进入详情页。 在数据集详情页,选择“设置”。 在“可用申请”处输入账号名、账号ID或用户昵
节点状态信息。 表6 metadata 参数 参数类型 描述 name String 节点名称。 creationTimestamp String 创建时间。 annotations NodeVOAnnotations object 节点annotation 表7 NodeVOAnnotations
包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__.py”存在,创建“module_dir”的“__init__.py”,如原因分析中的结构所示。 由于无法知晓“project_dir”在容器中的位置,所以利用绝对路径,在“main
原因:训练作业使用的镜像CUDA版本只支持sm_37、sm_50、sm_60和sm_70的加速卡,不支持sm_80。 处理建议:使用自定义镜像创建训练作业,并安装高版本的cuda以及对应的PyTorch版本。 查看训练作业的“日志”,出现报错“ERROR:root:label_map
ID标记。 policies WorkflowSchedulePolicies object 调度策略。 created_at String 创建时间。 表3 WorkflowSchedulePolicies 参数 参数类型 描述 on_failure String 定时调度策略中的标记,失败时触发。
中的问题。 使用步骤如下: 通过pip安装msprobe工具。 # shell pip install mindstudio-probe 创建配置文件config.json。 { "task": "grad_probe", "dump_path": "./dump_path"
将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下: 进入到/home/ma-user/ws/目录下。 创建目录“training_data”,并将原始数据放置在此处。 mkdir training_data 数据存放参考目录结构如下: ${wo
参数类型 描述 add_sample_count Integer 处理后新增的图片数量。 create_time Long 数据处理任务的创建时间。 deleted_sample_count Integer 处理后删除的图片数量。 description String 数据处理任务的版本描述。
节点状态信息。 表6 metadata 参数 参数类型 描述 name String 节点名称。 creationTimestamp String 创建时间。 annotations NodeVOAnnotations object 节点annotation 表7 NodeVOAnnotations
point:点。 polyline:折线。 @modelarts:from_type String 内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 @modelarts:rename_to String 内置属性:重命名后的标签名。 @modelarts:shortcut
ecision”模型用途“model_usage”,模型精度描述“model_precision”,模型大小“model_size”,模型创建时间“create_time”,运行参数“parameter”。 order 否 String 可选值有以下两种。 “asc”为递增排序。
按钮下载日志至本地保存,支持批量下载多节点日志。用户也可以在创建训练作业时打开永久保存日志按钮,保存训练日志至指定OBS路径。 针对使用Ascend规格创建的训练作业,部分系统日志暂不支持直接在训练日志窗口下载,请在创建训练作业时指定OBS路径用于保存训练日志。 图6 下载日志 搜索关键字
将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下: 进入到/home/ma-user/ws/目录下。 创建目录“training_data”,并将原始数据放置在此处。 mkdir training_data 数据存放参考目录结构如下: ${wo
objects 工作流节点度量信息。 表3 WorkflowStepMetric 参数 参数类型 描述 created_at String 创建时间。 key String 度量项。 titile String 度量标题。 type String 度量的类型。 data Map<String
point:点。 polyline:折线。 @modelarts:from_type String 内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 @modelarts:rename_to String 内置属性:重命名后的标签名。 @modelarts:shortcut
ID标记。 policies WorkflowSchedulePolicies object 调度策略。 created_at String 创建时间。 表4 WorkflowSchedulePolicies 参数 参数类型 描述 on_failure String 定时调度策略中的标记,失败时触发。
模型归属租户。 project String 模型归属项目。 owner String 模型归属用户。 create_at Long 模型创建时间,距'1970.1.1 0:0:0 UTC'的毫秒数。 description String 模型描述信息。 source_type String