检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
批量服务输入/输出obs目录不存在或者权限不足 问题现象 输入输出目录不存在,报如下错误 "error_code": "ModelArts.3551", "error_msg": "OBS path xxxx does not exist." 当访问目录权限不足时,报如下错误 "error_code":
管理Workflow工作流 启动Workflow 登录ModelArts管理控制台,在左侧导航栏选择“开发空间>Workflow”,进入Workflow总览页面。 有3种操作方式运行工作流。 工作流列表页:单击操作栏的“启动”按钮,出现启动Workflow询问弹窗,单击“确定”。
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
将Notebook的Conda环境迁移到SFS磁盘 本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后,Conda环境不会丢失。 步骤如下: 创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境
Cann软件与Ascend驱动版本不匹配 问题现象 训练失败并提示“Cann软件与Ascend驱动版本不匹配”。 原因分析 当昇腾规格的训练作业在ModelArts训练平台上运行时,会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配,则会立即训练失败,避免后续无意义的运行时长。
Standard模型部署 ModelArts Standard提供模型、服务管理能力,支持多厂商多框架多功能的镜像和模型统一纳管。 通常AI模型部署和规模化落地非常复杂。 例如,智慧交通项目中,在获得训练好的模型后,需要部署到云、边、端多种场景。如果在端侧部署,需要一次性部署到不
【下线公告】华为云ModelArts服务模型转换下线公告 华为云ModelArts服务模型转换在2024年4月30日 00:00(北京时间)正式下线。 下线范围 下线区域:华为云全部Region 下线影响 正式下线后,用户将无法再使用模型转换的功能,包括创建和删除模型转换任务、查询模型转换任务列表和详情功能。
场景介绍 方案概览 本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的微调方案,包括sft全参和lora 微调。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
数据标注 物体检测图片标注,一张图片是否可以添加多个标签? 在物体检测作业中上传已标注图片后,为什么部分图片显示未标注? 父主题: Standard自动学习
CodeLab 如何将git clone的py文件变为ipynb文件 Notebook里面运行的实例,如果重启,数据集会丢失么? Jupyter可以安装插件吗? 是否支持在CodeLab中使用昇腾的卡进行训练? 如何在CodeLab上安装依赖? 父主题: Standard Notebook
配置kubectl工具 kubectl是Kubernetes集群的命令行工具,配置kubectl后,您可通过kubectl命令操作Kubernetes集群。本文介绍如何配置kubectl工具,操作步骤如下。 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 >
旧版训练迁移至新版训练需要注意哪些问题? 新版训练和旧版训练的差异主要体现在以下3点: 新旧版创建训练作业方式差异 新旧版训练代码适配的差异 新旧版训练预置引擎差异 新旧版创建训练作业方式差异 旧版训练支持使用“算法管理”(包含已保存的算法和订阅的算法)、“常用框架”、“自定义”(即自定义镜像)方式创建训练作业。
训练作业日志中提示“No such file or directory” 问题现象 训练作业运行失败,日志中提示“No such file or directory”。 例如:找不到训练输入的数据路径时,会提示“No such file or directory”。 例如:找不到训练启动文件时,也会提示“No