检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
H /home/ma-user/ws/llm_train/saved_dir_for_output/plog 保存训练过程中记录的程序堆栈信息日志PLOG文件。示例中,默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改,可添加并自定义该变量。
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 您还可以选择数据集的多个版本,查看其可视化曲线,进行对比分析。 背景信息 只有“图片”的数据集,且版本标注类型为“物体检测”和“图像分类”的数据集版本支持数据特征分析。 只有发布后的数据集支持数据特征分析。发布
连续2个周期原始值 > 90% 紧急 请及时检查,防止磁盘写满影响业务。推荐清理计算节点无效数据。 磁盘信息 ma_node_disk_info 该指标用于展示磁盘的基础信息。 - ≥0 NA NA NA 读取次数 ma_node_disk_reads_completed_total
数据处理任务描述。 duration_seconds Integer 数据处理的运行时间,单位秒。 error_msg String 错误信息,status是3时,会出现该字段。 inputs Array of ProcessorDataSource objects 数据处理任务
问Cluster机器,具体配置请参见配置Lite Cluster网络。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
在“创建告警规则”页面,“资源类型”选择“ModelArts”,“维度”选择“服务”,“触发规则”选择“自定义创建”,设置告警策略,完成其他信息填写后,单击“立即创建”。 方式二:对单个服务设置告警规则 登录管理控制台。 在“服务列表”中选择“管理与监管 > 云监控服务”,进入“云监控服务”管理控制台。
理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vL
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件 表2 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件 表2 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址
n长度说明。 --hostname:服务部署的IP,使用本机IP 0.0.0.0。 --port:服务部署的端口。 服务启动后,会打印如下信息。 server launch time cost: 15.443044185638428 s INFO: Started server
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。
数据标注”,进入“数据标注”管理页面。 在数据标注管理页面,单击页面右上角“创建标注作业”,进入“创建标注作业”页面,根据需求创建不同类型的标注作业。 填写标注作业基本信息,标注作业的“名称”和“描述”。 根据您的需求,选择“标注场景”和“标注类型”。 图1 选择标注场景和标注类型 针对不同类型的标注作业,需
job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。 version_id Long 训练作业的版本ID。 version_name String 训练作业的版本名称。 pre_version_id
理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vL
使用的区域,单击“确定”。 本示例以只允许用户使用“华南-广州”Region的服务为例。 图2 选择授权的区域范围 提示授权成功,查看授权信息,单击“完成”。此处的授权生效需要15-30分钟。 创建子用户账号。在IAM左侧菜单栏中,选择“用户”,单击右上角“创建用户”,在“创建用
=session) 参数session即是1初始化的数据。返回的是一个字典,其中flavors值是一个列表,描述了训练服务支持的所有规格的信息。每个元素中flavor_id是可直接用于远程训练任务的计算规格,max_num是该规格的最大节点数。如果用户知道要使用的计算规格,可以略过这一步。