检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问Cluster机器,具体配置请参见配置Lite Cluster网络。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
标注文本(文本三元组) 标注音频(语音分割) 在标注页面中,每个成员可查看“未标注”、“待确认”、“已驳回”、“待审核”、“审核通过”、“验收通过”的图片信息。请及时关注管理员驳回以及待修正的图片。 当团队标注任务中,分配了Reviewer角色,则需要对标注结果进行审核,审核完成后,再提交给管理员验收。
选择该模型资产是否支持在单机多卡的资源节点上进行并行训练或推理。 README.md - 资产的README内容,支持添加资产的简介、使用场景、使用方法等信息。 当托管的是自定义镜像时,填写的内容要满足自定义镜像规范,否则该镜像无法正常使用AI Gallery工具链服务(微调大师和在线推理服务)。
/home/ma-user/ws/llm_train/AscendSpeed/saved_dir_for_output/plog 保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中,默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改,可添加并自定义该变量。
} ] } 创建委托。 在统一身份认证服务页面的左侧导航选择“权限管理 > 委托”,单击右上角的“创建委托”,设置策略。填写委托信息并单击“下一步”。 委托名称:可自定义委托名称,例如:ma_agency_trainJob。 委托类型:选择“云服务”。 云服务:选择“ModelArts”。
响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 请求示例 如下
“Secret Access Key”:填写访问密钥的SK。 图2 填写区域和访问密钥 查看认证结果。 在Event Log区域中,当提示如下类似信息时,表示访问密钥添加成功。 16:01Validate Credential Success: The HUAWEI CLOUDcredential
文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像包 swr.cn-southwest-2.myhuaweicloud
running”状态代表启动成功。 kubectl get pod -A 图1 启动pod成功 执行如下命令查看pod日志,若打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明: ${pod_name}:pod名,例如图1${po
注意:如果使用投机推理功能,必须开启此参数。 --served-model-name:vllm服务后台id。 服务启动后,会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO: Started server
ELF文件,而NVIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。 安装过程中的提示均选OK或YES,安装好后执行reboot重启机器,再次登录后执行命令查看GPU卡信息。 nvidia-smi -pm 1 #该命令执行时间较长,请耐心等待,作用为
里上传,否则会导致微调失败。 “train_params.json” 必选文件,训练参数文件,定义了模型训练的必要参数,例如训练方式、超参信息。该参数会显示在微调工作流的“作业设置”页面的算法配置和超参数设置里面。代码示例请参见train_params.json示例。 “dataset_readme
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像 西南-贵阳一: swr.cn-southwest-2.myhuaweicloud
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像包 swr.cn-southwest-2.myhuaweicloud
安装过程需要连接互联网git clone,确保容器可以访问公网。 步骤一 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
安装过程需要连接互联网git clone,确保容器可以访问公网。 步骤一 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
Gallery支持审计的关键操作列表 操作名称 资源类型 事件名称 发布资产 ModelArts_Market create_content 修改资产信息 ModelArts_Market modify_content 发布资产新版本 ModelArts_Market add_version
Log区域,会实时展示训练作业运行情况。当训练日志中出现“Current training job status: Successful”类似信息时,表示训练作业运行成功。 在单击“Apply and Run”按钮后,系统将自动开始执行训练作业。如果您想停止此作业,可以选择菜单栏中的“ModelArts