检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
统在训练作业启动前,自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。 图1 训练输出设置 断点续训练建议和训练容错检查(即自动重启)功能同时使用。在创建训练作业页面,开启“自动重启”开关。训练环境预检测失败、或者训练容器硬件检测故障、或者训练作业失败时会自动重新下发并运行训练作业。
时间安排:围绕子流水线配置相应的子任务安排,并加以通知机制,实现流程执行过程之间配合的运转高效管理。 流程质量与效率测评:提供流水线的任务执行过程视图,增加不同的检查点,如数据评估、模型评估、性能评估等,让AI项目管理者能很方便的查看流水线执行过程的质量与效率。 流程优化:围绕流水线每一次迭代,用户可以
ok实例下的所有文件列表。 当前实例中正在运行的Terminal和Kernel。 Git插件,可以方便快捷地使用Github代码库。 属性检查器。 文档结构图。 图14 导航栏按钮 表3 导航栏按钮介绍 按钮 说明 File 新建、关闭、保存、重新加载、重命名、导出、打印Notebook等功能。
join("directory_path/metrics.json", create_dir=False))) # 指定metric的输出路径,相关指标信息由作业脚本代码根据指定的数据格式自行输出(示例中需要将metric信息输出到训练输出目录下的metrics.json文件中) ], spec=wf
used_percent 该指标用于统计k8s空间的使用率。 百分比(Percent) ≥0 连续2个周期原始值 > 90% 紧急 请及时检查,防止磁盘写满影响业务。推荐清理计算节点无效数据。 容器空间的总量 ma_node_container_space_capacity_megabytes
在“Checkpoint列表”页面的“操作”列,单击“创建为我的模型”。 在“创建为我的模型”页面,配置相关信息,然后单击“创建”。 系统将会检查自定义权重中存在的问题,校验过程中将会收取少量费用。 在费用提醒对话框,仔细阅读预估费用信息,单击“确定”,跳转至“我的模型”页面创建模型。
个时,可以在OBS Console中上传,当文件大于100个时,推荐使用工具,推荐OBS Browser+(win)、obsutil(linux)。上述例子为obsutil使用方法。 准备算法 main.py文件内容如下,并将其上传至OBS桶的demo文件夹中: import argparse
并进行标注任务。 用于智能标注的数据集必须存在至少2种标签,且每种标签已标注的图片不少于5张。 用于智能标注的数据集必须存在未标注图片。 检查用于标注的图片数据,确保您的图片数据中,不存在RGBA四通道图片。如果存在四通道图片,智能标注任务将运行失败,因此,请从数据集中删除四通道图片后,再启动智能标注。
MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集,数据库名字。
大于1,表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量,注入环境变量到容器实例。为确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。 “部署超时时间” 用于设置单个模型实例的超时时间,包括部署和启动时间。默认值为20分钟,输入值必须在3到120之间。
启节点操作。 当资源池处于驱动升级状态时,该资源池无法进行重启节点操作。 节点重启成功后,可能出现短暂不可用现象,是正在拉起业务服务及健康检查,请耐心等待。 删除/退订节点: 如果是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。 如果想批量删除节点
来运行的启动文件,平台自动以mpirun命令启动之。使用ModelArts Standard训练相应预置引擎,用户仅需关注启动文件(即训练脚本)的编写;mpirun命令和训练作业集群的构建都由平台自动完成。平台不会为启动文件额外拼接参数。 “pytorch_synthetic_benchmark
String 在线服务实例所在的子网的网络ID,服务自定义网络配置时返回。 security_group_id String 在线服务实例所在的安全组,服务自定义网络配置时返回。 status String 服务状态,取值包含: running:运行中,服务正常运行。 deployin
大于1,表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量,注入环境变量到容器实例。为确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。 “部署超时时间” 用于设置单个模型实例的超时时间,包括部署和启动时间。默认值为20分钟,输入值必须在3到120之间。
隔离的、由用户自主配置和管理的虚拟网络环境。为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户资源的安全性,简化用户的网络部署。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,默认进入“Standard资源池”页面。
MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集,数据库名字。
String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String 导入表格数据集,数据库名字。
一个账户最多创建10个Notebook。 创建Notebook实例 登录ModelArts管理控制台,在左侧导航栏中选择“权限管理”,检查是否配置了访问授权。如果未配置,请先配置访问授权。参考使用委托授权完成操作。 图1 查看委托配置信息 登录ModelArts管理控制台,在左侧导航栏中选择“开发空间
是否必选 参数类型 描述 envs 否 Map<String,String> 运行模型需要的环境变量键值对,可选填,默认为空。为确保您的数据安全,在环境变量中,请勿输入敏感信息。 instance_count 否 Integer 模型部署的实例数,即计算节点的个数。 model_id
InfConfig 参数 参数类型 描述 envs Map<String,String> 运行模型需要的环境变量键值对,可选填,默认为空。为确保您的数据安全,在环境变量中,请勿输入敏感信息。 instance_count Integer 模型部署的实例数,即计算节点的个数。 model_id String