检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建自动模型优化的训练作业 背景信息 如果用户使用的AI引擎为pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64和tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64,并且优化的超参类型为
发布ModelArts模型 针对ModelArts中创建的模型,支持以下发布方式: 发布至AI Gallery AI Gallery是在ModelArts的基础上构建的开发者生态社区,提供算法、模型、数据集等内容的共享,为高校科研机构、模型开发商、解决方案集成商、企业级个人开发者等群体
场景介绍 方案概览 本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的不同训练阶段方案,包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO
动态shape 在某些推理场景中,模型输入的shape可能是不固定的,因此需要支持用户指定模型的动态shape,并能够在推理中接收多种shape的输入。在CPU上进行模型转换时无需考虑动态shape问题,因为CPU算子支持动态shape;而在Ascend场景上,算子需要指定具体的shape
标注结果存储在哪里? ModelArts管理控制台,提供了数据可视化能力,您可以在控制台中查看详细数据以及标注信息。如需了解标注结果的存储路径,请参见如下说明。 背景说明 针对ModelArts中的数据集,在创建数据集时,需指定“数据集输入位置”和“数据集输出位置”。两个参数填写的均是
通过APP认证的方式访问在线服务 部署在线服务支持开启APP认证,即ModelArts会为服务注册一个支持APP认证的接口,为此接口配置APP授权后,用户可以使用授权应用的AppKey+AppSecret或AppCode调用该接口。 针对在线服务的APP认证,具体操作流程如下。 开启支持
开发用于自定义镜像训练的代码 当ModelArts Standard提供的预置框架不满足您的诉求时,ModelArts Standard支持用户构建自定义镜像用于模型训练。 自定义镜像的制作要求用户对容器相关知识有比较深刻的了解,除非订阅算法和预置框架无法满足需求,否则不推荐使用。
ma-cli auto-completion自动补全命令 命令行自动补全是指用户可以在Terminal中输入命令前缀通过Tab键自动提示支持的ma-cli命令。ma-cli自动补全功能需要手动在Terminal中激活。执行ma-cli auto-completion命令,用户根据提示的补全命令
性能调优 性能测试 benchmark工具也可用于性能测试,其主要的测试指标为模型单次前向推理的耗时。在性能测试任务中,与精度测试不同,并不需要用户指定对应的输入(inDataFile)和输出的标杆数据(benchmarkDataFile),benchmark工具会随机生成一个输入进行推理
续费概述 续费简介 包年/包月专属资源池到期后会影响ModelArts正常使用。如果您想继续使用,需要在指定的时间内为专属资源池续费,否则资源会自动释放,数据丢失且不可恢复。 续费操作仅适用于包年/包月专属资源池,按需计费专属资源池不需要续费,只需要保证账户余额充足即可。 专属资源池在到期前续费成功
日志提示“No space left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到
模型的自定义镜像制作流程 如果您使用了ModelArts不支持的AI引擎开发模型,也可通过制作自定义镜像,导入ModelArts创建为模型,并支持进行统一管理和部署为服务。 制作流程 场景一: 预置镜像的环境软件满足要求,只需要导入模型包,就能用于创建模型,通过镜像保存功能制作。具体案例参考在
欠费说明 用户在使用云服务时,账户的可用额度小于待结算的账单,即被判定为账户欠费。欠费后,可能会影响云服务资源的正常运行,请及时充值。 欠费原因 已购买资源包,但使用量超出资源包额度或资源包属性与桶属性不匹配,进而产生按需费用,同时账户中的余额不足以抵扣产生的按需费用。请参考如何查看
创建数据集版本 为数据集创建新的版本。 dataset.create_version(name=None, version_format=None, label_task_type=None, label_task_id=None, **kwargs) 示例代码 示例一:为数据集创建新的版本
系统容器异常退出 问题现象 在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
场景介绍 方案概览 本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的不同训练阶段方案,包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO
ModelArts与DLS服务的区别? 深度学习服务(DLS)是基于华为云强大高性能计算提供的一站式深度学习平台服务,内置大量优化的网络模型,以便捷、高效的方式帮助用户轻松使用深度学习技术,通过灵活调度按需服务化方式提供模型训练与评估。 但是,DLS服务仅提供深度学习技术,而ModelArts
训练作业容错检查 用户在训练模型过程中,存在因硬件故障而产生的训练失败场景。针对硬件故障场景,ModelArts提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。 容错检查包括两个检查项:环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时,隔离故障硬件并重新下发训练作业
资源池统计 功能介绍 获取资源池的统计信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/statistics/pools
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的