检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.912版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite Server。 镜像适配的Cann版本是cann_8
“deepseekv2”。 转换后的权重文件再复制到其它三台机器的相同目录。 如果是新开的Server机器则需要安装torch、tqdm等软件包,具体命令如下 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tqdm
的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.910版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite Server。 镜像适配的Cann版本是cann_8
ECS中构建新镜像(二选一) 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的训练代码AscendCloud-LLM-6
Workflow 区别于传统的机器学习模型构建,开发者可以使用Workflow开发生产流水线。基于MLOps的概念,Workflow会提供运行记录、监控、持续运行等功能。根据角色的分工与概念,产品上将工作流的开发和持续迭代分开。 一条流水线由多个节点组成,Workflow SDK提供了流水
启动Ray集群。 # 指定通信网卡,使用ifconfig查看,找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export TP_SOCKET_IFNAME=enp67s0f5 # 指定可使用的卡 export ASCEND_RT_VISIBLE_DEVICES=0
启动Ray集群。 # 指定通信网卡,使用ifconfig查看,找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export TP_SOCKET_IFNAME=enp67s0f5 export RAY_EXPERIMENTAL_NOSET_AS
大模型参数如(qwen2-72B、llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 需要开启profiling功能进行性
3、大模型参数如(qwen2-72B、llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 4、需要开启profiling功能进
3、大模型参数如(qwen2-72B、llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 4、需要开启profiling功能进
3、大模型参数如(qwen2-72B、llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 4、需要开启profiling功能进
流、实例数、部署超时时间、环境变量、存储挂载等信息。专属资源池部署的服务,同时展示资源池信息。 “历史更新记录”:展示历史模型相关信息。 监控信息 展示当前服务的“资源统计信息”和“模型调用次数统计”。 “资源统计信息”:包括CPU、内存、GPU、NPU的可用和已用信息。 “模型
model_metric_list String 训练作业的模型评测参数。具体请参见表5。 system_metric_list Object 训练作业的系统监控指标。具体请参见表6。 user_image_url String 自定义镜像训练作业的自定义镜像的SWR-URL。 user_command
直接填写“预测代码”进行文本预测。 选择“multipart/form-data”时,需填写“请求参数”,请求参数取值等同于使用图形界面的软件进行预测(以Postman为例)Body页签中填写的“KEY”的取值,也等同于使用curl命令发送预测请求上传数据的参数名。 设置完成后,
model_metric_list String 训练作业的模型评测参数。具体请参见表7。 system_metric_list String 训练作业的系统监控指标。具体请参见表8。 user_image_url String 自定义镜像训练作业的自定义镜像的SWR-URL。 user_command
PU)、CANN(NPU)。 自定义模型使用的预置镜像 AI Gallery提供了PyTorch基础镜像,镜像里已经安装好了运行任务所需的软件,供自定义模型直接使用,快速进行训练、推理。预置镜像的版本信息请参见表3。 表3 AI Gallery预置镜像列表 引擎类型 资源类型 版本名称
默认关闭。如需开启此功能,请参见通过APP认证的方式访问在线服务了解详情并根据实际情况进行设置。 “订阅消息” - 订阅消息使用消息通知服务,在事件列表中选择需要监控的服务状态,在事件发生时发送消息通知。 可选:配置高级选项。 表3 高级选项参数说明 参数名称 说明 故障自动重启 开启该功能后,系统检测
直接填写“预测代码”进行文本预测。 选择“multipart/form-data”时,需填写“请求参数”,请求参数取值等同于使用图形界面的软件进行预测(以Postman为例)Body页签中填写的“KEY”的取值,也等同于使用curl命令发送预测请求上传数据的参数名。 设置完成后,
{dataset_id}/data-annotations/stats modelarts:dataset:get - √ √ 查询数据集监控数据 GET /v2/{project_id}/datasets/{dataset_id}/metrics modelarts:dataset:get
可以通过执行docker pull、apt-get update/upgrade和pip install命令判断是否可正常访问外部可用的开源软件仓库,若可以正常访问表示环境已连接外部网络。 上述的虚拟机或物理机需要为arm64架构。 建议构建节点安装的Linux系统版本为Ubuntu