检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询服务监控信息 功能介绍 查询服务监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/monitor
方式,需要机器在同一个集群,NPU卡之间IP能够ping通方可,具体步骤如下: 查看卡IP,在其中一个宿主机上执行。 for i in $(seq 0 7);do hccn_tool -i $i -ip -g;done 检查卡之间的网络是否通。 # 在另一个机器上执行,29.81
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表12 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。
name String 存储卷的名称。 mount_path String 存储卷在容器中的挂载路径。如:/tmp。请不要挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。建议挂载在空目录下,若目录不为空,请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表12 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
问题。新的数据和新的特征在已有的模型上表现会越来越差。在MLOps中,实验迭代的产物将会是一条固化下来的流水线,这条流水线将会包含数据工程、模型算法、训练配置等。用户将会使用这条流水线在持续产生的数据中持续迭代训练,确保这条流水线生产出来的模型始终维持在一个较好的状态。 图1 MLOps
选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在创建Notebook的“子目录挂载”路径。若默认没有填写,则忽略。 图4 选择SFS Turbo
选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在创建Notebook的“子目录挂载”路径。若默认没有填写,则忽略。 图4 选择SFS Turbo
选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在创建Notebook的“子目录挂载”路径。若默认没有填写,则忽略。 图4 选择SFS Turbo
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表13 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
domain_name为用户所属的帐号名。 cn-north-1为项目名,代表服务的部署区域。 返回状态码“201 Created”,在响应Header中获取“X-Subject-Token”的值即为Token,如下所示: x-subject-token →MIIZmgYJK
定“inference_params.json”中的参数,否则配置的参数将无法在推理过程中生效。 “inference_params.json”文件的参数请参见表4。该参数会显示在部署推理服务页面,在“高级设置”下会新增“参数设置”,基于配置的推理参数供模型使用者修改自定义镜像的部署参数。
如果数据集选择错误,您可以通过以下方式查看日志详情。 登录ModelArts Studio控制台,在“模型调优”页面单击目标作业,在作业详情的日志页签查看详情。 登录ModelArts控制台,在“模型训练 > 训练作业”页面单击目标作业,在日志页签查看详情。 添加数据集 选择存放训练数据集的OBS路径,必须选
Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json
Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json
Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json
查询节点列表 功能介绍 查询资源池中的节点列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/nodes
查询节点池的节点列表 功能介绍 查询节点池的节点列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{poo
DataSelector:支持多种数据类型的选择,当前仅支持在JobStep节点中使用(仅支持选择OBS或者数据集) 数据选择对象: DataConsumptionSelector:用于在多个依赖节点的输出中选择一个有效输出作为数据输入,常用于存在条件分支的场景中(在构建工作流时未能确定数据输入来源为哪