检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
后,由于用户AI开发业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts提供了扩缩容功能,用户可以根据自己的需求动态调整。 升级Lite Cluster资源池驱动:当资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GP
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No
out of memory 解决方法: 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考各个模型深度学习训练加速框架的选择,如原使用Accelerator可替换为Deep
moondream2基于DevServer适配PyTorch NPU推理指导 文生图模型 ModelArts针对以下主流的AIGC文生图模型进行了基于昇腾NPU的适配工作,可以直接使用适配过的模型在NPU上进行推理或训练。 表5 文生图模型 模型名称 应用场景 软件技术栈 指导文档 Stable Diffusion(SD)
msprobe梯度监控 梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具,可以实现对训练过程模型每一层梯度信息进行监控,目前支持两种能力: 将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来,用以分析问题,例如检测确定性问题,使用训练状态监
本文介绍部署上线场景下子账号所需的基本使用权限,您可参考权限清单新增对应业务场景的权限。示例场景为授权子账号权限,使其能够在开发环境Notebook中使用基础镜像构建一个新的推理镜像,并完成模型的创建,部署为在线服务。 权限清单 权限 表1 管理模型所需权限 业务场景 依赖的服务 依赖策略项 支持的功能 配置建议
方式三:通过Grafana查看所有监控指标 当AOM的监控模板不能满足用户诉求时,用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板,为用户提供基于网页仪表面板的可视化监控效果,使用户更加直观地查看到实时资源使用情况。 将Grafana的数据源配置完成后,
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新dataset_info.json文件;请务必在dataset_info
设置无条件自动重启 背景信息 训练过程中可能会碰到预期外的情况导致训练失败,且无法及时重启训练作业,导致训练周期长,而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。
Pair的key为难例原因出现的次数,Pair的value为难例原因HardDetail。 key_sample_stats Map<String,Integer> 难例统计信息。 label_stats Array of LabelStats objects 标签统计信息列表。
到评论的通知,AI说评论者也会收到评论回复的通知,所有用户均可查看资产评论并回复评论,对评论点赞等。 删除发布的技术文章 当您需要删除已发布在“AI说”的技术文章时,可以执行如下步骤: 在AI Gallery页面的右上角单击“我的Gallery > 我的AI说”。 在“我的发布”页签下查看发布的所有文章。
要,自行购买适用规格的套餐包。 适用场景 ModelArts服务支持购买套餐包,根据用户选择使用的资源不同进行收费。您可以根据业务需求选择使用不同规格的套餐包。 ModelArts提供了AI全流程开发的套餐包,面向有AI基础的开发者,提供机器学习和深度学习的算法开发及部署全功能,
项目ID通过调用查询指定条件下的项目信息API获取。 获取项目ID的接口为GET https://{iam-endpoint}/v3/projects,其中{iam-endpoint}为IAM的终端节点,可以从地区和终端节点处获取。 响应示例如下,例如ModelArts部署的区域为"cn-no
Pair的key为难例原因出现的次数,Pair的value为难例原因HardDetail。 key_sample_stats Map<String,Integer> 难例统计信息。 label_stats Array of LabelStats objects 标签统计信息列表。
WorkflowSubgraph objects 子图。 duration String 执行的时长。 events Array of strings 执行的事件。 labels Array of strings 为执行记录设置的标签。 data_requirements Array
包年/包月是一种先付费再使用的计费模式,适用于对资源需求稳定且希望降低成本的用户。通过选择包年/包月的计费模式,您可以预先购买云服务资源并获得一定程度的价格优惠。本文将介绍ModelArts资源包年/包月的计费规则。 适用场景 包年/包月计费模式需要用户预先支付一定时长的费用,适用于长期、稳定的业务需
方式、访问通道、传输协议,以上三个要素共同构成您的访问请求,三者可自由组合互不影响(例如不同的认证方式可以搭配不同的访问通道、不同的传输协议)。 图1 认证方式、访问通道、传输协议 当前ModelArts支持访问在线服务的认证方式有以下方式(案例中均以HTTPS请求为例): To
弹性集群Cluster ”,在Standard资源池列表中选中目标专属资源池。在资源池详情页的右上角选择“更多 > 转包周期”。 在弹出的“转包周期”页面,确认无误后单击“确定”。 图1 转包周期 选择弹性集群的购买时长,判断是否勾选“自动续费”,确认预计到期时间和配置费用后单击“去支付”。