搜索_华为云

准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

<模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
训练精度测试 - AI开发平台ModelArts

创建精度训练benchmark目录。 # 任意目录创建 mkdir accuracy-test-benchmark 进入上步骤创建目录执行训练命令，可以多次执行，按自己实际情况。 ascendfactory-cli train <cfgs_yaml_file> <model_name> <exp_name>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练评测
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

练，该值始终为 0。 RANK_ID：可以理解为训练作业级的device逻辑（顺序）编号。 RANK_SIZE：根据RTF中device的数目设置该值，例如“4 * snt9b”，则该值即为4。当需要启动文件仍然在逻辑上仅运行1次时，则可以在启动文件中判断“ASCEND_DEV

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

<模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 准备工作
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

当前支持“按节点比例”和“按实例数量”两种滚动方式。按节点比例：每批次驱动升级的实例数量为“节点比例*资源池实例总数”。按实例数量：可以设置每批次驱动升级的实例数量。对于不同的升级方式，滚动升级选择实例的策略会不同：如果升级方式为安全升级，则根据滚动节点数量选择无业务的节点，隔离节点并滚动升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

MySQL数据库对外提供服务的端口。 Windows Server Remote Desktop Services 3389 Windows远程桌面服务端口，通过这个端口可以连接Windows弹性云服务器。代理 8080 8080端口常用于WWW代理服务，实现网页浏览，实现网页浏览。如果您使用8080端口，访

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询作业资源规格 - AI开发平台ModelArts

gpu_type String 资源规格GPU的类型。 spec_code String 云资源的规格类型。 max_num Integer 可以选择的最大节点数量。 unit_num Integer 计价单元个数。 storage String 资源规格的ssd大小。 interface_type

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

<模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
运行第一条Workflow - AI开发平台ModelArts

分如何计费，请您关注，避免造成不必要的资源浪费。节点配置数据标注参数配置 labeling_input：选择预先创建的数据集即可，版本可以不用选择。 task_name：填写需要创建的标注任务名称即可。说明：首次运行需要配置，会自动创建新的标注任务，后续不建议进行修改，使用同一个标注任务进行数据标注。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

168.20.0/24重叠，否则会和专属资源池的网段发生冲突，因为专属资源池的默认网段为192.168.20.0/24。专属资源池实际使用的网段可以在资源池的详情页面查看“网络”获取。条件二：SFS Turbo网段不能与172网段重叠，否则会和容器网络发生冲突，因为容器网络使用的是172网段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
停止计费 - AI开发平台ModelArts
停止计费 - AI开发平台ModelArts

包年/包月资源对于包年/包月计费模式的资源，用户在购买时会一次性付费，服务将在到期后自动停止使用。如果在计费周期内不再使用包年/包月资源，您可以执行退订操作，系统将根据资源是否属于五天无理由退订、是否使用代金券和折扣券等条件返还一定金额到您的账户。详细的退订规则请参见云服务退订规则概览。

帮助中心 > AI开发平台ModelArts > 计费说明
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

&& \ 执行以下命令制作训练镜像。安装过程需要连接互联网git clone，请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 若无法访问公网，则可以配置代理，增加`--build-arg`参数指定代理地址，可访问公网。 docker build

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在主机上新建config.yaml文件。 config.yaml文件用于配置pod，本示例中使用sleep命令启动pod，便于进入pod调试。您也可以修改command为对应的任务启动命令（如“python train.py”），任务会在启动容器后执行。 config.yaml内容如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
查询服务列表 - AI开发平台ModelArts

情况下，有的实例正常，有的实例异常。正常的实例会产生费用，此时服务状态是concerning。 failed：失败，服务部署失败，失败原因可以查看事件和日志标签。 stopped：停止。 finished：只有批量服务会有这个状态，表示运行完成。 sort_by 否 String

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
PD分离部署性能调优理论基础 - AI开发平台ModelArts

时延。请求增加输入长度降低Prefill生产速率（计算量增加），同时也降低Decode消费速率（KV Cache访存增加），增加P和D实例可以提高生产和消费速率。因此，PD分离系统良好运行的关键在于满足时延SLO约束下，那么面对不同的请求分布，尽可能提高这三种速率。PD配比寻优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 分离部署
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

= os.path.join(base_local_path, "train/") # 这里提前将训练脚本放在了obs中，实际上训练脚本可以是任何来源，只要能够放到Notebook里边就行 session.obs.download_file(os.path.join(base_bucket_path

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
预训练任务 - AI开发平台ModelArts

预训练脚本llama2.sh，存放在“xxx-Ascend/llm_train/AscendSpeed/scripts/llama2”目录下。训练前，可以根据实际需要修改超参配置。表1 预训练超参配置参数示例值参数说明 DATASET_PATH /home/ma-user/ws/pr

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练
部署在线服务 - AI开发平台ModelArts

duration=1)] # （可选）设置在线服务运行时间 ) 参数“model_id”代表将部署成在线服务的模型。“model_id”可以通过查询模型列表或者ModelArts管理控制台获取。部署服务到专属资源池 from modelarts.config.model_config

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
图模式 - AI开发平台ModelArts
图模式 - AI开发平台ModelArts

缓存文件与实际推理不匹配而报错。什么是CANN-GRAPH CANNGraph图模式是一种Capture-Replay架构的Host图，可以有效消除Host瓶颈，支持模型输入动态shape，无需分档构图，构图较快。未设置INFER_MODE环境变量时，即默认模式下，部分模型会默

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
创建处理任务 - AI开发平台ModelArts

“数据增强”表示通过简单的数据扩增例如缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{projec

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 1863

上一页
1
...
89
90
91
...
94
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备权重 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

运行第一条Workflow - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

停止计费 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

PD分离部署性能调优理论基础 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

图模式 - AI开发平台ModelArts

创建处理任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线