检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
专属资源池的费用请参考专属资源池计费项。 - - 存储资源 对象存储OBS 用于存储模型训练的输入和输出数据。 具体费用可参见对象存储价格详情。 注意: 存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除,则会按照OBS的计费规则进行持续计费。 按需计费 包年/包月 创建桶不收取费用,按实际使用的存储容量和时长收费
原因分析 出现该问题的可能原因如下: OBS相关错误。 OBS文件不存在。The specified key does not exist。 用户OBS权限不足。 OBS限流。 OBS其他问题。 磁盘空间不足。 处理方法 如果是OBS相关错误。 OBS文件不存在。The specified
经提供了迁移好的开箱即用模型,且保证了较优的精度和性能。如果用户业务同样使用这些开源模型,建议直接使用ModelArts提供的模型运行指导,其余场景再考虑使用本指导自行迁移和调优。 迁移流程 模型迁移主要指将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上,需要保证模型
Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size
类型type、属性properties,必须属性required 、定义definitions等,JSON Schema通过定义对象属性、类型、格式的方式来引导模型生成一个包含用户信息的JSON对象。 其优势主要如下: 上下文引导:通过提供特定的提示或上下文信息,模型可以更好地理解生成内容的方向。 约束生成:可以设定
gatron格式权重文件。 lora微调不支持断点续训 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration
gatron格式权重文件。 lora微调不支持断点续训 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration
gatron格式权重文件。 lora微调不支持断点续训 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration
false 启动SD1.5 Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh run_finetune.sh 所有数据保存在auto_log/avg_step_time.txt文本中 auto_log/log/目录下存放各个shapes的数据 父主题:
/configs/unet.ini 最多支持100档配置,每一档通过英文逗号分隔。 如果用户设置的dim数值过大或档位过多,可能会导致模型编译失败,此时建议用户减少档位或调低档位数值。 如果用户设置了动态维度,实际推理时,使用的输入数据的shape需要与设置的档位相匹配。 父主题:
Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size
gatron格式权重文件。 lora微调不支持断点续训 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration
I等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另外,华为云还提供了以下销售许可证及软件著作权证书,供用户下载和参考。具体请查看合规资质证书。
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求消息 请求参数如表2所示。 表2 参数说明 参数 是否必选 参数类型 说明 config_name 是 String 训练作业参数名称。限制为1-64位只含数字、字母、下划线或者中划线的名称。 config_desc
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求消息 请求参数如表2所示。 表2 请求参数 参数 是否必选 参数类型 说明 job_name 是 String 训练作业名称。限制为1-64位只含数字、字母、下划线和中划线的名称。 job_desc
image”如何解决? 问题现象 保存镜像时报错“too many layers in your image”。 原因分析 用户创建Notebook时所选用的镜像是经过多次保存的自定义镜像或用户自行注册的镜像,基于该镜像所创建的Notebook已经无法再执行镜像保存的操作了。 解决方法 使用公共镜像
chmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置。 目前仅支持SFT指令监督微调训练阶段。 准备工作 参考bench
导入模型后部署服务,提示磁盘不足 问题现象 用户在导入模型后,部署服务时,提示磁盘空间不足:“No space left on device”。 原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker
ving.csv中,示例如下图所示。 图2 动态benchmark测试结果(示意图) 投机推理benchmark验证 本章节介绍如何进行投机推理benchmark验证。 已经上传投机推理benchmark验证脚本到推理容器中。如果在Step4 制作推理镜像步骤中已经上传过AscendCloud-LLM-x
“nvidia-smi”是一个NVIDIA GPU监视器命令行工具,用于查看GPU的使用情况和性能指标,可以帮助用户进行GPU优化和故障排除。 但是建议在业务软件或训练算法中,避免频繁使用“nvidia-smi”命令功能获取相关信息,存在锁死的风险。出现D+进程后可以尝试如下方法: 方法1: