搜索_华为云

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

中。NetworkManager.service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
多模态模型推理性能测试 - AI开发平台ModelArts

benchmark_tools/modal_benchmark/modal_benchmark_parallel.py，具体操作命令如下，可以根据参数说明修改参数。 python modal_benchmark_parallel.py \ --host ${docker_ip} \

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
创建图像分类数据集并进行标注任务 - AI开发平台ModelArts

"property" : { "@modelarts:color" : "#3399ff" } } ] } 根据响应可以了解数据集详情，其中“status”为“1”表示数据集创建成功且状态正常。调用查询样本列表接口根据数据集ID获取数据集的样本详情。请求消息体：

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

MySQL数据库对外提供服务的端口。 Windows Server Remote Desktop Services 3389 Windows远程桌面服务端口，通过这个端口可以连接Windows弹性云服务器。代理 8080 8080端口常用于WWW代理服务，实现网页浏览，实现网页浏览。如果您使用8080端口，访

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询作业资源规格 - AI开发平台ModelArts

gpu_type String 资源规格GPU的类型。 spec_code String 云资源的规格类型。 max_num Integer 可以选择的最大节点数量。 unit_num Integer 计价单元个数。 storage String 资源规格的ssd大小。 interface_type

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
准备Notebook - AI开发平台ModelArts

scripts/install.sh，该命令用于git clone完整的代码包和安装必要的依赖包，每次启动训练作业时会执行该命令安装。您可以在Notebook中导入完代码之后，在Notebook运行sh scripts/install.sh命令提前下载完整代码包和安装依赖包，然

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

<模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

<模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
查询服务列表 - AI开发平台ModelArts

情况下，有的实例正常，有的实例异常。正常的实例会产生费用，此时服务状态是concerning。 failed：失败，服务部署失败，失败原因可以查看事件和日志标签。 stopped：停止。 finished：只有批量服务会有这个状态，表示运行完成。 sort_by 否 String

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

= os.path.join(base_local_path, "train/") # 这里提前将训练脚本放在了obs中，实际上训练脚本可以是任何来源，只要能够放到Notebook里边就行 session.obs.download_file(os.path.join(base_bucket_path

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

168.20.0/24重叠，否则会和专属资源池的网段发生冲突，因为专属资源池的默认网段为192.168.20.0/24。专属资源池实际使用的网段可以在资源池的详情页面查看“网络”获取。条件二：SFS Turbo网段不能与172网段重叠，否则会和容器网络发生冲突，因为容器网络使用的是172网段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在主机上新建config.yaml文件。 config.yaml文件用于配置pod，本示例中使用sleep命令启动pod，便于进入pod调试。您也可以修改command为对应的任务启动命令（如“python train.py”），任务会在启动容器后执行。 config.yaml内容如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

&& \ 执行以下命令制作训练镜像。安装过程需要连接互联网git clone，请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 若无法访问公网，则可以配置代理，增加`--build-arg`参数指定代理地址，可访问公网。 docker build

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
配置Workflow参数 - AI开发平台ModelArts

dict required 参数是否必填标记。默认required=True。 Delay参数不能设required=False。运行时前端可以不填此参数。否 bool 使用案例 int类型参数 from modelarts import workflow as wf wf.Pl

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
查询训练作业列表 - AI开发平台ModelArts

调用成功时无此字段。 job_total_count Integer 查询到的用户创建作业总数。 job_count_limit Integer 用户还可以创建训练作业的数量。 jobs jobs结构数组训练作业的属性列表，具体请参见表4。 quotas Integer 训练作业的运行数量上限。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

最终的权重保存路径。修改代码如图2。图2 修改权重保存路径多机训练场景下，需要将CODE_DIR修改为OBS_CODE_DIR目录，则可以使用scripts/tools/sync_with_obs.py工具将其它节点的权重文件同步上传到主节点。修改代码如图3。图3 多机同步权重文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备Notebook - AI开发平台ModelArts

|——megatron/ # 注意：该文件夹从Megatron-LM中复制得到 |——... 您可以在Notebook中导入完代码之后，在Notebook运行sh scripts/install.sh命令提前下载完整代码包和安装依赖包，然

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

logs {pod-name} 其中{pod-name}替换为实际pod名称，可以在5的回显信息中获取。图4 成功执行动态路由的回显只有任务节点大于等于3的训练任务才能成功执行动态路由。如果执行失败可以参考故障排除：ranktable路由优化执行失败处理。故障排除：ranktable路由优化执行失败

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

最终的权重保存路径。修改代码如图2。图2 修改权重保存路径多机训练场景下，需要将CODE_DIR修改为OBS_CODE_DIR目录，则可以使用scripts/tools/sync_with_obs.py工具将其它节点的权重文件同步上传到主节点。修改代码如图3。图3 多机同步权重文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
推理精度测试 - AI开发平台ModelArts

启动脚本，建立线程池发送请求，并汇总结果 ├── service_predict.py # 发送请求的服务执行精度测试启动脚本eval_test.py，具体操作命令如下，可以根据参数说明修改参数。 python eval_test.py \ --max_workers=1 \ --service_name=qwen-14b-test

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

总条数： 1438

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

创建图像分类数据集并进行标注任务 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线