检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。详细可了解:无条件自动重启。 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表2进行配置。
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
配置Lite Server软件环境 NPU服务器上配置Lite Server资源软件环境 GPU服务器上配置Lite Server资源软件环境 父主题: Lite Server资源配置
用户使用torch报错Unexpected error from cudaGetDeviceCount 问题现象 在Notebook执行兼容gpu的脚本时报错不兼容,但是通过nvcc --version排查显示是兼容。 import torch import sys print('A'
制作自定义镜像用于推理 模型的自定义镜像制作流程 在Notebook中通过镜像保存功能制作自定义镜像用于推理 在Notebook中通过Dockerfile从0制作自定义镜像用于推理 在ECS中通过Dockerfile从0制作自定义镜像用于推理 父主题: 制作自定义镜像用于ModelArts
发布Workflow 发布Workflow到ModelArts 发布Workflow到AI Gallery 父主题: 开发Workflow命令参考
Workflow高阶能力 在Workflow中使用大数据能力(DLI/MRS) 在Workflow中指定仅运行部分节点 父主题: 开发Workflow命令参考
通过团队标注方式标注数据 团队标注使用流程 创建和管理团队 创建团队标注任务 审核并验收团队标注任务结果 管理团队和团队成员 父主题: 标注ModelArts数据集中的数据
发布和管理AI Gallery中的AI应用 发布本地AI应用到AI Gallery 将AI Gallery中的模型部署为AI应用 管理AI Gallery中的AI应用 父主题: AI Gallery(新版)
监控Lite Server资源 使用CES监控Lite Server资源 使用DCGM监控Lite Server资源 父主题: Lite Server资源管理
gz上传到OBS并设置公共读,并在构建时wget获取、解压、清理。 新镜像构建 基础镜像一般选用ubuntu 18.04的官方镜像,或者nvidia官方提供的带cuda驱动的镜像。相关镜像直接到dockerhub官网查找即可。 构建流程:安装所需的apt包、驱动,配置ma-user用户、导入conda环境、配置Notebook依赖。
资产识别与管理 资产识别 用户在AI Gallery中的资产包括用户发布的AI资产以及用户提供的一些个人信息。 AI资产包括但不限于文本、图形、数据、文章、照片、图像、插图、代码、AI算法、AI模型等。 用户的个人信息包括: 用户注册时提供的昵称、头像、邮箱。 用户参加实践时提供的姓名、手机号、邮箱。
AI Gallery功能介绍 面向开发者提供了AI Gallery大模型开源社区,通过大模型为用户提供服务,普及大模型行业。AI Gallery提供了大量基于昇腾云底座适配的三方开源大模型,同步提供了可以快速体验模型的能力、极致的开发体验,助力开发者快速了解并学习大模型。 构建零
0:打标者 1:审核者 2:团队管理者 3:数据集拥有者 status 否 Integer 标注成员的当前登录状态。可选值如下: 0:未发送邀请邮件 1:已发送邀请邮件但未登录 2:已登录 3:标注成员已删除 update_time 否 Long 更新时间。 worker_id 否 String
0:打标者 1:审核者 2:团队管理者 3:数据集拥有者 status Integer 标注成员的当前登录状态。可选值如下: 0:未发送邀请邮件 1:已发送邀请邮件但未登录 2:已登录 3:标注成员已删除 update_time Long 更新时间。 worker_id String
worker with pid: 997 服务异常进程反复重启导致预测请求无法发送到服务实例。 可以通过以下方式解决问题: 缩小预测请求数量看是否问题还复现,如果不复现是因为负载过大导致服务进程退出,需要扩容实例数量或者提升规格。 推理代码本身存在错误,请排查推理代码解决。 父主题: 服务预测
通过智能标注方式标注数据 创建智能标注作业 确认智能标注作业的数据难例 使用自动分组智能标注作业 父主题: 标注ModelArts数据集中的数据
ModelArts支持的预置镜像列表 ModelArts预置镜像更新说明 ModelArts统一镜像列表 Notebook专属预置镜像列表 训练专属预置镜像列表 推理专属预置镜像列表 父主题: 制作自定义镜像用于ModelArts Standard
创建Workflow节点 创建Workflow数据集节点 创建Workflow数据集标注节点 创建Workflow数据集导入节点 创建Workflow数据集版本发布节点 创建Workflow训练作业节点 创建Workflow模型注册节点 创建Workflow服务部署节点 父主题:
e.yaml。 配置用户名密码鉴权 以在虚拟机上使用ma-cli configure为例,介绍如何配置用户名密码进行鉴权。 以下样例中所有以${}装饰的字符串都代表一个变量,用户可以根据实际情况指定对应的值。 比如${your_password}表示输入用户自己的密码信息。 #