检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
两条策略,便于授权时设置最小授权范围。此处的“trainJob”为项目级云服务、“trainJobobs”为全局级云服务。了解更多 创建用户组并加入用户,步骤请参考Step1 创建用户组并加入用户。 给用户组授权策略。 在IAM服务的用户组列表页面,单击“授权”,进入到授权页面,
如果作业重启次数没有达到设定的次数,则会自动做重新下发作业。您可以通过搜索“error,exiting”关键字查找作业重启失败结束的日志。 使用reload ckpt恢复中断的训练 在容错机制下,如果因为硬件问题导致训练作业重启,用户可以在代码中读取预训练模型,恢复至重启前的训练状态。用户需要在代码里加上reload
参数相关的配置使用Placeholder对象来表示,以占位符的形式实现用户数据运行时配置的能力,当前支持的数据类型包括:int、str、bool、float、Enum、dict、list。开发者可根据场景需要,将节点中的相关字段(如算法超参)通过Placeholder的形式透出,支持设置默认值,供用户修改配置使用。
_Default”实例。 图2 Prometheus_AOM_Default 从“设置”页签的“Grafana数据源配置信息”区域,获取当前Prometheus实例的Grafana数据源配置代码。 在Grafana中增加数据源。 登录Grafana。首次登录用户名和密码为admin,登录成功后可根据提示修改密码。
当训练作业发生故障恢复时(例如进程级恢复、POD级重调度、JOB级重调度等),作业详情页面中会出现“故障恢复详情”页签,里面记录了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面
一段时间后,由于用户AI开发业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts提供了扩缩容功能,用户可以根据自己的需求动态调整。 升级Lite Cluster资源池驱动:当资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自
创建Workflow节点 创建Workflow数据集节点 创建Workflow数据集标注节点 创建Workflow数据集导入节点 创建Workflow数据集版本发布节点 创建Workflow训练作业节点 创建Workflow模型注册节点 创建Workflow服务部署节点 父主题:
当专属资源池创建完成,使用一段时间后,由于用户AI开发业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts Standard专属资源池提供了扩缩容功能,用户可以根据自己的需求动态调整。 使用扩容功能时,可以增加资源池已有规格的实例数量。 使用缩容功能时,可以减少资源池已有规格的实例数量。
、“部署中”状态的训练作业,您可以单击操作列的“删除”,删除对应的数据处理任务。 查看数据处理任务详情 登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备>数据处理”,进入“数据处理”页面。 在数据处理列表中,单击数据处理任务名称,进入数据处理任务的版本管理页面。您
通过JupyterLab在线使用Notebook实例进行AI开发 使用JupyterLab在线开发和调试代码 JupyterLab常用功能介绍 在JupyterLab使用Git克隆代码仓 在JupyterLab中创建定时任务 上传文件至JupyterLab 下载JupyterLab文件到本地
ingFace的目录格式。即上传的HuggingFace权重文件存放目录。如果使用了量化功能,则使用量化章节转换后的权重。如果使用的是训练后模型转换为HuggingFace格式的地址,还需要有Tokenizer原始文件。 --max-num-seqs:最大同时处理的请求数,超过后在等待池等候处理。
Face权重时,对应的存放地址。 在“输出”的输入框内设置变量:OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR:训练完成后指定的输出模型路径。 HF_SAVE_DIR:训练完成的权重文件自动转换为Hugging Face格式权重输出的路径(确保添
Face权重时,对应的存放地址。 在“输出”的输入框内设置变量:OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR:训练完成后指定的输出模型路径。 HF_SAVE_DIR:训练完成的权重文件自动转换为Hugging Face格式权重输出的路径(确保添
IsADirectoryError(21, 'Is a directory'). update products failed! 原因分析 用户代码中设置的目标路径(local_path)有误。 处理方法 需要将local_path路径设置为文件夹且后缀必须以“/”结尾。 父主题: API/SDK
表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 系统生成的资源池名称。 表2 Query参数 参数 是否必选 参数类型 描述 time_range 否
在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题: 使用Grafana查看AOM中的监控指标
通过智能标注方式标注数据 创建智能标注作业 确认智能标注作业的数据难例 使用自动分组智能标注作业 父主题: 标注ModelArts数据集中的数据
数据清洗:数据清洗是指对数据进行去噪、纠错或补全的过程。 数据清洗是在数据校验的基础上,对数据进行一致性检查,处理一些无效值。例如在深度学习领域,可以根据用户输入的正样本和负样本,对数据进行清洗,保留用户想要的类别,去除用户不想要的类别。 数据选择:数据选择一般是指从全量数据中选择数据子集的过程。 数据可以通
练作业设置的参数,您仅需在原来的基础上进行修改即可重新创建训练作业。 停止训练作业 在训练作业列表中,针对“创建中”、“等待中”、“运行中”的训练作业,您可以单击“操作”列的“终止”,停止正在运行中的训练作业。 训练作业停止后,ModelArts将停止计费。 运行结束的训练作业,
设置无条件自动重启 背景信息 训练过程中可能会碰到预期外的情况导致训练失败,且无法及时重启训练作业,导致训练周期长,而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。