检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
评审分数,当前可取A/B/C/D四个值,从高到低排列。 worker_id 否 String 标注成员ID,可调用标注成员列表接口获取。 响应参数 无 请求示例 团队标注审核。设置是否通过为“true”,评审分数为“A”。 { "comments" : [ { "worker_id" : "8c15ad0
表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 否 String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application/octet-stream,返回临时下载链接。 X-Auth-Token 是 String 用户token。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
表3 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 否 String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application/octet-stream,返回临时下载链接。 X-Auth-Token 是 String 用户token。
检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker
wf.AlgorithmParameters(name="save_model_secs", value=wf.Placeholder(name="save_model_secs", placeholder_type=wf.PlaceholderType.INT, default=60
务。 从AI Gallery订阅模型:ModelArts的AI Gallery中提供了免费模型供用户一键部署,您可订阅AI Gallery上的模型进行AI体验学习。 推理支持的AI引擎 在ModelArts创建AI应用时,如果使用预置镜像“从OBS中选择”导入模型,则支持如下常用引擎及版本的模型包。
模型推荐的参数与NPU卡数设置 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 文本序列长度 并行参数设置 规格与节点数 1 llama2
ModelArts数据准备全流程 ModelArts数据管理为用户准备高质量的AI数据提供了以下主要能力: 解决用户获取数据的问题。 用户可在AI Gallery上一键下载需要的数据资源到ModelArts数据管理。 提供多种数据接入方式,支持用户从OBS,MRS,DLI以及DWS等服务导入用户的数据。
MindSpore Lite云侧推理包解压缩后,设置`LITE_HOME`环境变量为解压缩的路径,例如: export LITE_HOME=$some_path/mindspore-lite-2.2.10-linux-aarch64 设置环境变量LD_LIBRARY_PATH: export
“保存路径”:即导出数据存储的路径。建议不要将数据存储至当前数据集所在的输入路径或输出路径。 图1 导出到OBS 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。 在“数据集概览页”,单击右上角“导出历史”,在弹出的“任务历史”对话框中,可以查看该数据集之前的导出任务历史。
worker_id 否 String 标注成员ID,可调用标注成员列表接口获取。 响应参数 无 请求示例 提交验收任务的样本评审意见。设置是否通过为“true”,评审分数为“A”。 { "comments" : [ { "worker_id" : "8c15ad0
描述 total_count Integer 不分页的情况下符合查询条件的总服务数量。 count Integer 当前查询结果的服务数量,不设置offset、limit查询参数时,count与total相同。 services Array of ListServices objects
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
配置检查和简单的业务验证。 A050933 节点管理 容错Failover 当节点具有该污点时,会将节点上容错(Failover)业务迁移走。 当节点标记该污点时,会将节点上容错(Failover)业务迁移走。 A050931 训练toolkit 预检容器 训练预检容器检测到GPU错误。
用Region。 可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。
|──llm_tools # 推理工具 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。训练脚本以分类的方式集中在 scripts 文件夹中。 ${workdir}(例如使用SFS Turbo的路径:/mnt/sfs_turbo/)
本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化 在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化,工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0
端口有问题,请联系技术支持。 端口无问题请继续远端排查。 远端排查 排查/home/ma-user目录权限是否为755/750,不是该权限,请执行如下命令设置权限。 chmod 755 /home/ma-user 排查/home/ma-user/.ssh目录权限是否为755/750,不是该权限请修改。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。