检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过AITurbo SDK的快速保存和加载Checkpoint的功能,可以有效提升训练恢复速度。具体方案请参见通过AITurbo加速保存与加载checkpoint。 在保存Checkpoint的时候,利用两阶段写、内存副本、异步持久化等技术保证Checkpoint的快速、高可靠存储。
Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS
te Cluster集群内直接采集监控指标数据,具体参见使用Prometheus查看Lite Cluster监控指标章节。 本章节主要介绍如何在AOM上查看Lite Cluster监控指标。 AOM上查看已有监控指标 登录控制台,搜索AOM,进入“应用运维管理 AOM”控制台。 单击“监控
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
清理镜像构建缓存 (只支持ModelArts Notebook里使用)。 debug 在ECS上调试SWR镜像是否能在ModelArts Notebook中使用 (只支持已安装docker环境的ECS)。 使用ma-cli image get-template命令查询镜像构建模板 m
#安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 相关文档 和本文档配套的模型训练文档请参考主流开源大模型基于Lite
Lite的基础功能和用法。 图2 ResNet50模型迁移到Ascend上进行推理 Stable Diffusion模型迁移到Ascend上进行推理:介绍如何将Stable Diffusion模型通过MSLite进行转换后,迁移在昇腾设备上运行。 图3 Stable Diffusion模型迁移到Ascend上进行推理
文件删除后不可恢复,请谨慎操作。 管理数据集可用范围 仅当发布数据集时,“可用范围”启用“申请用户可用”时,才支持管理数据集的可用范围。管理操作包含如何添加可使用资产的新用户、如何审批用户申请使用资产的请求。 添加可使用资产的新用户。 数据集发布成功后,如果数据集所有者要新增可使用资产的新用户,则可以在数据集详情页添加新用户。
专属资源池关联SFS Turbo显示异常 问题现象1 专属资源池关联SFS Turbo时显示异常,关联失败。 图1 关联异常 图2 报错提示 问题现象2 网络操作解除关联SFS Turbo后状态仍显示已关联且无报错信息,而解除关联按钮置灰不可操作。同时该网络的解除关联SFS Turbo按钮置灰不可操作。
local/etc/jupyter/jupyter_notebook_config.py 在打开的juputer_notebook_config.py中,增加以下代码后按ESC退出然后输入:wq保存。 c.ServerProxy.servers = { 'grafana': { 'command':
装包存在先后依赖关系(即写在前面的先安装,写在后面的后安装),且支持线下wheel包安装(wheel包必须与模型文件放在同一目录)。示例请参考导入模型时安装包依赖配置文件如何书写? health 否 health数据结构 镜像健康接口配置信息,只有“model_type”为“Image”时才需填写。
端到端运维ModelArts Standard推理服务方案 ModelArts推理服务的端到端运维覆盖了算法开发、服务运维和业务运行的整个AI流程。 方案概述 推理服务的端到端运维流程 算法开发阶段,先将业务AI数据存放到对象存储服务(OBS)中,接着通过ModelArts数据管
ModelArts与其他服务的关系示意图 与统一身份认证服务的关系 ModelArts使用统一身份认证服务(Identity and Access Management,简称IAM)实现认证功能。IAM的更多信息请参见《统一身份认证服务用户指南》。 与对象存储服务的关系 ModelArts使用对象存储服务(Object
包年/包月 包年/包月是一种先付费再使用的计费模式,适用于对资源需求稳定且希望降低成本的用户。通过选择包年/包月的计费模式,您可以预先购买云服务资源并获得一定程度的价格优惠。本文将介绍ModelArts资源包年/包月的计费规则。 适用场景 包年/包月计费模式需要用户预先支付一定时
#安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 相关文档 和本文档配套的模型训练文档请
计算规格说明 AI Gallery提供了多种计算规格供用户按需选用。只要用户的账号费用充足,就可以持续使用资源,详细计费说明请参见计费说明。 计费说明 AI Gallery的计费规则如表1所示。 表1 计费说明 规则 说明 话单上报规则 仅当AI Gallery工具链服务创建成功
iffusion_img2img_mslite.py”,以便与源文件名称区分。但是这样也会导致无法正确找到源码中相对路径下的依赖,需要将对于diffusers包内的相对路径修改为绝对路径的形式。 图1 代码依赖修改前与修改后 将推理代码“modelarts-ascend/exam
file no such file or directory 原因分析 编译生成so文件的cuda版本与训练作业的cuda版本不一致。 处理方法 编译环境的cuda版本与训练环境不一致,训练作业运行就会报错。例如:使用cuda版本为10的开发环境tf-1.13中编译生成的so包,在cuda版本为9
启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。 |──${saved_checkpoints}
启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。 |──${saved_checkpoints}