检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
重校验失败 使用AWQ或SQ压缩后的模型新增版本时,权重校验失败 使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时,权重校验失败 创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务,显示创建失败 创建训练任务,显示创建失败
PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。 Ascend PyTorch
PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。 Ascend PyTorch
数据。 pages Integer 总的页数。 size Integer 每一页的数量。 total Long 总的记录数量。 表4 ImageGroup 参数 参数类型 描述 name String 镜像名称。 create_at Long 镜像创建的时间,UTC毫秒。 namespace
准备环境 本文档中的模型运行环境是ModelArts Lite的Server。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表2。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表 不同机型的对应的软件配套版本
分布式模型训练 分布式训练功能介绍 创建单机多卡的分布式训练(DataParallel) 创建多机多卡的分布式训练(DistributedDataParallel) 示例:创建DDP分布式训练(PyTorch+GPU) 示例:创建DDP分布式训练(PyTorch+NPU) 父主题:
数据集版本发布:将已完成标注的数据进行版本发布。 数据校验:对您的数据集的数据进行校验,是否存在数据异常。 图像分类:将发布好的数据集版本进行训练,生成对应的模型。 模型注册:将训练后的结果注册到模型管理中。 服务部署:将生成的模型部署为在线服务。 快速查找创建好的项目 在自动学习总览页
如何判断训练作业资源利用率高低 在模型训练的训练作业列表页可以查看作业资源利用率情况。当作业worker-0实例的GPU/NPU的平均利用率低于50%时,在训练作业列表中会进行告警提示。 图2 作业列表显示作业资源利用率情况 此处的作业资源利用率只涉及GPU和NPU资源。作业worker-0实例的GPU/NP
org上查询依赖的待安装包是否存在,如果不存在则建议使用whl包进行安装(将待安装的whl包放到模型所在的OBS目录下)。 查看待安装包的安装限制和前置依赖等,排查是否满足相关要求。 如果包有依赖关系,请参考导入模型时,模型配置文件中的安装包依赖参数如何编写?章节配置包的先后依赖关系。
Integer 资源规格的弹性使用量,物理池该值和count相同。 azs Array of azs objects 资源所在的AZ的数量。 nodePool String 节点池名称。比如:nodePool-1。 表24 azs 参数 参数类型 描述 az String AZ的名称。 count
Standard数据管理 Standard开发环境 Standard模型训练 Standard模型部署 Standard资源管理 Standard支持的AI框架 父主题: 功能介绍
timed out”提示,不显示详细的构建日志。 处理方法 预先准备需要编译下载的依赖包,减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装,需确保wheel包与模型文件放在同一目录。 优化模型代码,提高构建模型镜像的编译效率。 父主题: 模型管理
制作自定义镜像用于创建Notebook Notebook的自定义镜像制作方法 在ECS上构建自定义镜像并在Notebook中使用 在Notebook中通过Dockerfile从0制作自定义镜像 在Notebook中通过镜像保存功能制作自定义镜像 父主题: 制作自定义镜像用于ModelArts
创建Notebook失败,查看事件显示JupyterProcessKilled 创建Notebook实例后无法打开页面,如何处理? 使用pip install时出现“没有空间”的错误 出现“save error”错误,可以运行代码,但是无法保存 出现ModelArts.6333错误,如何处理? 打开Notebook实
用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 user_id 否 String 用户ID,当user_id为all时,表示删除所有IAM子用户的授权。 请求参数 无 响应参数 无 请求示例 删除指定用户的授权 DELETE https
配额管理 查询OS的配额
删除AppCode 功能介绍 删除指定API网关应用的指定的AppCode,只有APP的创建用户才可以删除AppCode,且只有共享/专享版APIG的APP才支持AppCode。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自
自动模型优化(AutoSearch) 自动模型优化介绍 创建自动模型优化的训练作业 父主题: 使用ModelArts Standard训练模型
节点池管理 查询节点池列表 创建节点池 查询指定节点池详情 更新节点池 删除节点池 查询节点池的节点列表