检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CUDA和CUDNN Vnt1机型软件版本建议:gpu driver version : 440.95.01 gpu driver version : 440.95.01(GPU驱动在宿主机中安装,镜像中无需安装) cuda runtime version : 10.2(PyTorch自带,无需关心)
迁移Standard专属资源池和网络至其他工作空间 背景信息 专属资源池的工作空间关联了企业项目,企业项目涉及到账单归集。为隔离不同子用户操作资源的权限,ModelArts提供了工作空间功能,管理员可以根据工作空间,隔离不同子用户操作工作空间内资源的权限。工作空间迁移包括资源池迁移和网络迁移,具体方法可见下文说明。
用户自定义镜像没有ma-user用户及ma-group用户组; 用户自定义镜像中/home/ma-user目录,属主和用户组不是ma-user和ma-group; 用户自定义镜像必须满足用户目录/home/ma-user权限为750,不能为其他权限; 用户自定义镜像使用远程SSH功能,OpenSSH版本要兼容或高于8
创建模型失败,如何定位和处理问题? 问题定位和处理 创建模型失败有两种场景:创建模型时直接报错或者是调用API报错和创建模型任务下发成功,但最终模型创建失败。 创建模型时直接报错或者是调用API报错。一般都是输入参数不合法导致的。您可以根据提示信息进行排查修改即可。 创建模型任务
服务管理权限 表1 服务管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 部署模型服务 POST /v1/{project_id}/services modelarts:service:create - √ √ 查询模型服务列表 GET /v1/
模型管理权限 表1 模型管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 导入模型 POST /v1/{project_id}/models modelarts:model:create obs:bucket:ListAllMybuckets o
获取账号名和账号ID 在调用接口的时候,部分请求中需要填入账号名(domain name)和账号ID(domain_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的查看“账号名”和“账号ID”。 图1 获取账号名和ID
发布和管理AI Gallery中的AI应用 发布本地AI应用到AI Gallery 将AI Gallery中的模型部署为AI应用 管理AI Gallery中的AI应用 父主题: AI Gallery(新版)
数据管理权限 表1 数据集管理的细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 查询数据集列表 GET /v2/{project_id}/datasets modelarts:dataset:list - √ √ 创建数据集 POST /v2/{project_id}/datasets
工作空间管理权限 表1 工作空间管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建工作空间 POST /v1/{project_id}/workspaces modelarts:workspace:create - √ √ 查询工作空间列表 GET
管理AI Gallery模型 编辑模型介绍 资产发布上架后,准确、完整的资产介绍有助于提升资产的排序位置和访问量,能更好的支撑用户使用该资产。 在模型详情页,选择“模型介绍”页签,单击右侧“编辑介绍”。 编辑模型基础设置和模型描述。 表1 模型介绍的参数说明 参数名称 说明 基础设置
管理AI Gallery镜像 编辑镜像介绍 资产发布上架后,准确、完整的资产介绍有助于提升资产的排序位置和访问量,能更好的支撑用户使用该资产。 在镜像详情页,选择“镜像介绍”页签,单击右侧“编辑介绍”。 编辑镜像基础设置和镜像描述。 表1 镜像介绍的参数说明 参数名称 说明 基础设置
请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如返回Timeout则需排查本地防火墙,代理和网络配置。 检查模型是否启动成功或者模型处理单个消
查找和收藏资产 AI Gallery共享了算法、Notebook代码样例、数据集、镜像、模型、Workflow等多种AI资产,为了方便快速搜索相关资产,提供了多种快速搜索方式以及收藏功能,提升资产的查找效率。 搜索资产 在各类资产模块页面,通过如下几种搜索方式可以提高资产的查找效
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global