搜索_华为云

在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

训练结果、日志、checkpoints上传。（本地使用硬盘挂载或者docker cp，在ModelArts上使用OBSutil）可以用一个run脚本把整个流程包起来。run.sh脚本的内容可以参考如下示例： #!/bin/bash ##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

读取文件报错，您可以使用Moxing将数据复制至容器中，再直接访问容器中的数据。请参见步骤1。您也可以根据不同的文件类型，进行读取。请参见读取“json”文件、读取“npy”文件、使用cv2库读取文件和在MXNet环境下使用torch包。读取文件报错，您可以使用Moxing将

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

DLI的default队列只用作体验，不同账号间可能会出现抢占的情况，需进行资源排队，不能保证每次都可以得到资源执行相关操作。 DLI支持schema映射的功能，即导入的表的schema的字段名称可以不和数据集相同，但类型要保持一致。父主题：导入数据到ModelArts数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
什么是ModelArts - AI开发平台ModelArts

“一站式”是指AI开发的各个环节，包括数据处理、算法开发、模型训练、创建AI应用、AI应用部署都可以在ModelArts上完成。从技术上看，ModelArts底层支持各种异构计算资源，开发者可以根据需要灵活选择使用，而不需要关心底层的技术。同时，ModelArts支持Tensorflo

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
精度调优总体思路 - AI开发平台ModelArts

精度调优总体思路精度问题定位首先要能在昇腾环境上稳定地复现问题，这样才可以在该异常场景下进行针对性分析。大模型训练通常使用多机训练，多机训练的问题复现成本通常较高，且难以直接Dump分析（例如直接使用精度工具采集整网Tensor信息可能会产生TB级的Dump数据，存储和复制都比

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
MA-Advisor和Ascend-Insigh工具使用指导 - AI开发平台ModelArts

MA-Advisor和Ascend-Insigh工具使用指导 MA-Advisor：一款昇腾迁移性能问题自动诊断工具，支持对推理、训练等多种场景进行自动诊断。自动诊断工具可以有效减少人工分析profiling的耗时，降低性能调优的门槛，帮助客户快速识别性能瓶颈点并完成性能优化。推荐用户在采集profiling分

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
克隆GitHub开源仓库文件到JupyterLab - AI开发平台ModelArts

git测试网络连通情况。图6 Clone仓库失败如果克隆时遇到Notebook当前目录下已有该仓库，系统给出提示仓库名称重复，此时可以单击“覆盖”继续克隆仓库，也可以单击取消。父主题：上传文件至JupyterLab

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

<模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了git clone repo_url 的方式下载，但是不支持断点续传，并且clone会下载历史版本占用磁盘空间。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
发布数据集到AI Gallery - AI开发平台ModelArts

发布数据集到AI Gallery 除了Gallery提供的已有资产外，还可以将个人创建的资产发布至Gallery货架上，供其他AI开发者使用，实现资产共享。数据集资产上架登录AI Gallery，选择右上角“我的Gallery”。在“我的资产 > 数据集”下，选择未发布的数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

训练作业中如何判断文件夹是否复制完毕？您可以在训练作业启动文件的脚本中，通过如下方式获取复制和被复制文件夹大小，根据结果判断是否复制完毕： import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True)

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
准备数据（可选） - AI开发平台ModelArts

准备数据（可选）此小节为自定义数据集执行过程，如非自定义数据集此小节忽略。本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集，目前支持alpaca格式和sharegpt格式的微调数据集；使用自定义数据集时，请更新代码目录下data/dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

以llama2-13b预训练为例，执行脚本0_pl_pretrain_13b.sh。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。表1 必须修改的训练超参配置参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH /ho

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
准备数据（可选） - AI开发平台ModelArts

准备数据（可选）此小节为自定义数据集执行过程，如非自定义数据集此小节忽略。本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集，目前指令微调数据集支持alpaca格式和sharegpt格式的数据集；使用自定义数据集时，请更新代码目录下data/dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
创建Workflow数据集节点 - AI开发平台ModelArts

的创建功能。主要用于通过创建数据集对已有数据（已标注/未标注）进行统一管理的场景，后续常见数据集导入节点或者数据集标注节点。属性总览您可以使用CreateDatasetStep来构建数据集创建节点，CreateDatasetStep及相关对象结构如下。表1 CreateDatasetStep

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
配置了合理的服务部署超时时间，服务还是部署失败，无法启动 - AI开发平台ModelArts

失败，无法启动服务部署成功的标志是模型启动完成，如果没有配置健康检查，就无法检测到模型是否真实的启动。在自定义镜像健康检查接口中，用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间，保证容器服务的初始化。因此，推荐在创建AI应用时配置健康检查，并设置合理的延迟检测时间，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

输出”支持配置训练的输出参数名称（一般设置为“train_url”），以及输出数据的存储位置。训练作业运行成功之后，在训练作业列表中，您可以单击作业名称，查看该作业的详情。在“日志”页签搜索输入输出参数名称获取参数信息。如果需在训练中获取“train_url”、“data_u

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

据集相同。DWS的详细功能说明，请参考DWS用户指南。图1 从DWS导入数据集群名称：系统自动将当前账号下的DWS集群展现在列表中，您可以在下拉框中选择您所需的DWS集群。数据库名称：根据选择的DWS集群，填写数据所在的数据库名称。表名称：根据选择的数据库，填写数据所在的表。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

练改造(DDP)的完整代码示例，供用户学习参考。训练流程简述相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：初始化进程组。创建分布式并行模型，每个进程都会有相同的模型和参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
训练文本分类模型 - AI开发平台ModelArts

F1值是模型精确率和召回率的加权调和平均，用于评价模型的好坏，当F1较高时说明模型效果较好。同一个自动学习项目可以训练多次，每次训练生成一个版本。如第一次训练版本号为“0.0.1”，下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后，再执行模型部署的操作。父主题：使用自动学习实现文本分类

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
训练物体检测模型 - AI开发平台ModelArts

F1值是模型精确率和召回率的加权调和平均，用于评价模型的好坏，当F1较高时说明模型效果较好。同一个自动学习项目可以训练多次，每次训练会注册一个新的模型一个版本。如第一次训练版本号为“0.0.1”，下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后，再执行模型部署的操作。父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测

总条数： 1638

上一页
1
...
72
73
74
...
82
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

精度调优总体思路 - AI开发平台ModelArts

MA-Advisor和Ascend-Insigh工具使用指导 - AI开发平台ModelArts

克隆GitHub开源仓库文件到JupyterLab - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

发布数据集到AI Gallery - AI开发平台ModelArts

训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

创建Workflow数据集节点 - AI开发平台ModelArts

配置了合理的服务部署超时时间，服务还是部署失败，无法启动 - AI开发平台ModelArts

训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

训练文本分类模型 - AI开发平台ModelArts

训练物体检测模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线