检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
get-image 查询ModelArts已注册镜像。 register 注册SWR镜像到ModelArts镜像管理。 unregister 取消注册ModelArts镜像管理中的已注册镜像。 build 基于指定的Dockerfile构建镜像 (只支持ModelArts Notebook里使用)。
Ascend-vLLM支持的特性介绍 表1 Ascend-vLLM支持的特性 特性名称 特性说明 调度 Page-attention 分块管理kvcache,提升吞吐。 Continuous batching 迭代级调度,动态调整batch,降低延迟,提升吞吐。 Multi-step
检查containerd是否安装 在创建CCE集群时,会选择 containerd 作为容器引擎,并默认给机器安装。如尚未安装,说明机器操作系统安装错误。需要重新纳管机器,重新安装操作系统。 安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。
使用自定义镜像功能,通过torch.distributed.run命令启动训练的启动文件 torch_ddp.py内容如下: import os import torch import torch.distributed as dist import torch.nn as nn import
处理方法 针对原因1,需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"] = "3" os.environ["NCCL_IB_TIMEOUT"] = "22"
port是否正常打开,SFS Turbo所需要入方向的端口号为111、445、2049、2051、2052、20048,具体请参见创建文件系统的“安全组”参数。Cloud Shell功能的操作指导请参见使用CloudShell登录训练容器。 是,则修改安全组的配置,具体操作请参见修改安全组规则。
能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NP
使用专属资源池进行训练时,支持挂载多个弹性文件服务SFS Turbo。用于存储模型训练的代码及输入输出数据。 具体费用可参见弹性文件服务价格详情。 按需计费 包年/包月 按文件系统所占用的存储空间容量和使用时长收费 存储空间费用=每GB费率*存储容量*使用时长 事件通知(不开启则不计费) 订阅消息使用消息通知服务,在
INDEX}.${MA_VJ_NAME}"”。 在创建训练作业页面配置环境变量“ROUTE_PLAN”,取值为“true”,具体操作请参见管理训练容器环境变量。 代码示例 训练作业的启动脚本示例如下。 启动脚本中设置plog生成后存放在“/home/ma-user/modelar
在模型详情页,单击“前往控制台”。在弹出的“选择云服务区域”页面选择ModelArts所在的云服务区域,单击“确定”跳转至ModelArts控制台的“模型管理 > 订阅模型”页面。 图1 前往控制台 在“订阅模型”列表,单击“版本数量”,在右侧展开版本列表,当订阅模型的版本列表的状态显示为“就绪”时表示模型可以使用。
能开启超参搜索功能。 图2 开启超参搜索功能 开启超参搜索功能后,用户可以设置搜索指标、搜索算法和搜索算法参数。三个参数显示的支持值与算法管理模块的超参设置对应。 完成超参搜索作业的创建后,训练作业需要运行一段时间。 查看超参搜索作业详情 训练作业运行结束后,可以查看自动超参搜索结果判断此训练作业是否满意。
download_datasets.py的内容。 import os import pandas as pd for idx, row in pd.read_csv('results_2M_val.csv').iterrows(): os.system(f"wget -O './dat
步骤一:ModelArts专属资源池打通VPC 创建好VPC和子网,具体步骤请参考创建虚拟私有云和子网。 创建Modelarts专属资源池网络。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,默认进入“Standard资源池”页面。 切换到“网络”页签,单击“创建”,弹出“创建网络”页面。
file_path”。 import os current_path = os.path.dirname(os.path.realpath(__file__)) # 获得启动文件bootfile.py的路径 project_root = os.path.dirname(current_path)
购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NP
完成修改。 图5 编辑标签 删除标签:在“选中文件标签”区域中,单击操作列的删除该标签。 基于标签修改 在数据标注概览页,单击右侧的“标签管理”,即可显示全部标签的信息。 图6 全部标签的信息 修改标签:在需要修改的标签的“操作”列,单击“修改”,输入修改后的标签,单击“确定”即可。
3 打印如下信息,表示上传镜像成功。 图5 成功上传镜像 Step8 注册镜像 镜像上传至SWR成功后,在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。 图6 在ModelArts控制台注册镜像 在镜像源中,选择上一步中上传到SWR自有镜像仓中的镜像名,作为模型推
能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NP
用户只创建了一个未标注完成的数据集,需要在工作流运行时对数据进行人工标注。 可以放在数据集导入节点之后,对导入的新数据进行人工标注。 数据准备:提前在ModelArts管理控制台创建一个数据集。 from modelarts import workflow as wf # 通过LabelingStep给输入的
能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NP