检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
勾选启用:当用户要使用该镜像时需要提交申请,只有镜像所有者同意申请后,才能使用镜像。 不勾选不启用(默认值):所有可见资产的用户都可以直接使用镜像。 发布后,资产会处于“审核中”,审核中的资产仅资产所有者可见。 审核完成后,资产会变成“已发布”状态,并在镜像列表可见。 父主题: 发布和管理AI
协议和端口号与自定义镜像中提供的协议和端口号保持一致。 镜像复制:选填,选择是否将容器镜像中的模型镜像复制到ModelArts中。 健康检查:选填,用于指定模型的健康检查。仅当自定义镜像中配置了健康检查接口,才能配置“健康检查”,否则会导致AI应用创建失败。 apis定义:选填,
数据标注能力。 图1 ModelArts数据准备全流程 ModelArts数据管理为用户准备高质量的AI数据提供了以下主要能力: 解决用户获取数据的问题。 用户可在AI Gallery上一键下载需要的数据资源到ModelArts数据管理。 提供多种数据接入方式,支持用户从OBS,
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
Gallery下载并使用数据集是限时免费的,但数据集存储在OBS,从OBS中读取数据需要根据OBS的计费原则收费。 确认无误后,单击确定。页面自动跳转到“我的数据>我的下载”页面,请耐心等待,预计5分钟左右。 下载完成后,您可以单击目标位置跳转至OBS桶中查看是否存在已下载的数据。 步骤2:订阅算法 在AI
文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中,多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中,每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss
勾选启用:当用户要使用该模型时需要提交申请,只有模型所有者同意申请后,才能使用或复制模型。 不勾选不启用(默认值):所有可见资产的用户都可以直接使用模型。 发布后,资产会处于“审核中”,审核中的资产仅资产所有者可见。 审核完成后,资产会变成“已发布”状态,并在模型列表可见。 父主题: 发布和管理AI
expandable_segments:True 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deep
在线服务预测报错ModelArts.4503 问题现象 在线服务部署完成且服务已经处于“运行中”的状态后,向运行的服务发起推理请求,报错ModelArts.4503。 原因分析及处理方法 服务预测报错ModelArts.4503有多种场景,常见场景如下: 通信出错 请求报错:{"
ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。 使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。 在弹出的“添加授权”页面中,授权对象
ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。 使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。 在弹出的“添加授权”页面中,授权对象
漂移的问题。新的数据和新的特征在已有的模型上表现会越来越差。在MLOps中,实验迭代的产物将会是一条固化下来的流水线,这条流水线将会包含数据工程、模型算法、训练配置等。用户将会使用这条流水线在持续产生的数据中持续迭代训练,确保这条流水线生产出来的模型的AI应用始终维持在一个较好的状态。
练脚本。 sh diffusers_sdxl_finetune_train.sh 训练执行脚本中配置了保存checkpoint的频率,每500steps保存一次,如果磁盘空间较小,这个值可以改大到5000,避免磁盘空间写满,导致训练失败终止。 checkpoint保存频率的修改命令如下:
当资源池创建成功后,资源池的状态会变成“运行中”,当“节点个数”中的“可用”和“总数”值大于0时,资源池才能下发任务。 图7 查看资源池 可以将鼠标放在“创建中”字样上,查看当前创建过程详情。如果单击查看详情,可跳转到“操作记录”中。 图8 创建中状态 可以在资源池列表右上角“操作记录”中查看资源池的任务记录。
勾选启用:当用户要使用该数据集时需要提交申请,只有数据集所有者同意申请后,才能使用数据集。 不勾选不启用(默认值):所有可见资产的用户都可以直接使用数据集。 发布后,资产会处于“审核中”,审核中的资产仅资产所有者可见。 审核完成后,资产会变成“已发布”状态,并在数据集列表可见。 父主题: 发布和管理AI
权重。量化后的权重包括原始权重和kvcache的scale系数。 抽取kv-cache量化系数。 该步骤的目的是将步骤1中生成的scale系数提取到单独文件中,供推理时使用。 使用的抽取脚本由vllm社区提供: python3 examples/fp8/extract_scales
gradient_accumulation_steps 8 可修改。指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配
在ModelArts的训练作业中添加标签。 可以在创建训练作业页面添加标签,也可以在已经创建完成的训练作业详情页面的“标签”页签中添加标签。 在ModelArts的在线服务中添加标签。 可以在创建在线服务页面添加标签,也可以在已经创建完成的在线服务详情页面的“标签”页签中添加标签。 图1 添加标签
在ModelArts的训练作业中添加标签。 可以在创建训练作业页面添加标签,也可以在已经创建完成的训练作业详情页面的“标签”页签中添加标签。 在ModelArts的在线服务中添加标签。 可以在创建在线服务页面添加标签,也可以在已经创建完成的在线服务详情页面的“标签”页签中添加标签。 在ModelArts的专属资源池中添加标签。
expandable_segments:True 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deep