搜索_华为云

通过自定义镜像创建模型失败 - AI开发平台ModelArts

到SWR检查下对应的镜像是否存在，对应镜像的镜像地址是否和实际地址一致，大小写，拼写等是否一致。检查用户给ModelArts的委托中是否有SWR的权限，可以在权限管理中查看对应用户的授权内容，查看授权详情。如果没有对应权限，需要到统一身份认证服务给对应委托中加上对应权限。图1 权限管理图2

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch.distributed.init_process_group()，然后再根据local_rank()==0去复制数据，之后再调用torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练启动脚本说明和参数配置 - AI开发平台ModelArts

、2_convert_mg_hf.sh中的具体python指令，并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件，并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox # OBS存放数据路径

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Step3 为用户配置ModelArts的委托访问授权 - AI开发平台ModelArts

管理等。一般用户选择此项即可。自定义：如果对用户有更精细化的权限管理需求，可使用自定义模式灵活按需配置ModelArts创建的委托权限。可以根据实际需在权限列表中勾选要配置的权限。勾选“我已经详细阅读并同意《ModelArts服务声明》”，单击“创建”，完成委托授权配置。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
修改模型服务QPS - AI开发平台ModelArts

选择模型服务，单击操作列的“更多 > 设置QPS”，在弹窗中修改数值，单击“提交”启动修改任务。图1 修改QPS 在我的服务列表，单击服务名称，进入服务详情页，可以查看修改后的QPS是否生效。父主题：管理我的服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
BF16和FP16说明 - AI开发平台ModelArts

程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
创建训练任务 - AI开发平台ModelArts

resnet50 -b 128 --epochs 5 dog_cat_1w/ 此处的“demo”为用户自定义的OBS存放代码路径的最后一级目录，可以根据实际修改。资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择单GPU规格。单击“提交”，在“信息确认”页面，确认

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
查询服务详情 - AI开发平台ModelArts

此参数。表2 real-time config结构参数参数类型描述 model_id String 模型ID。“model_id”可以通过查询模型列表或者ModelArts管理控制台获取。 model_name String 模型名称。 model_version String

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

数据生命周期与训练作业生命周期相同，当训练作业运行结束以后“/cache”目录下面所有内容会被清空，腾出空间，供下一次训练作业使用。因此，可以在训练过程中将数据从OBS复制到“/cache”目录，然后每次从“/cache”目录读取数据，直到训练结束。训练结束以后“/cache”目录的内容会自动被清空。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

[root@Server-ddff ~]# 发现和当前内核一致，因此即使reboot也不会更改服务器的内核版本。如果希望升级指定的操作系统内核，也可以执行grub2-set-default进行设置默认启动内核版本。但操作系统内核升级可能带来的问题。例如在操作系统内核4.18.0-147.5

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
返回结果 - AI开发平台ModelArts
返回结果 - AI开发平台ModelArts

对于获取用户Token接口，返回如图1所示的消息头。其中“x-subject-token”就是需要获取的用户Token。有了Token之后，您就可以使用Token认证调用其他API。图1 获取用户Token响应消息头响应消息体响应消息体通常以结构化格式返回，与响应消息头中Cont

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

络来替代线性回归，用随机森林来代替决策树。增加更多的特征，使输入数据具有更强的表达能力。特征挖掘十分重要，尤其是具有强表达能力的特征，可以抵过大量的弱表达能力的特征。特征的数量并非重点，质量才是，总之强表达能力的特征最重要。能否挖掘出强表达能力的特征，还在于对数据本身以及具体应用场景的深刻理解，这依赖于经验。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
查看ModelArts相关审计日志 - AI开发平台ModelArts

时间范围：可选择查询最近七天内任意时间段的操作事件。在需要查看的事件左侧，单击展开该事件的详细信息。单击需要查看的事件“操作”列的“查看事件”，可以在弹窗中查看该操作事件结构的详细信息。更多关于云审计服务事件结构的信息，请参见《云审计服务用户指南》。父主题：使用CTS审计ModelArts服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用CTS审计ModelArts服务
确认智能标注作业的数据难例 - AI开发平台ModelArts

标注和采集筛选任务，难例的发现操作是系统自动执行的，无需人工介入，仅需针对标注后的数据进行确认和修改即可，提升数据管理和标注效率。其次，您可以基于难例的情况，补充类似数据，提升数据集的丰富性，进一步提升模型训练的精度。在数据集管理中，对难例的管理有如下场景。智能标注后，确认难例

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
创建并完成图像分类的智能标注任务 - AI开发平台ModelArts

"image_colorfulness": false } } 根据响应可以了解智能标注任务详情，其中“progress”为“30”表示当前任务进度为30%，“status”为“1”表示任务状态为在运行中。待智能标注任务完成后，调用查询智能标注的样本列表接口可以查看标注结果。请求消息体： URI格式：GET

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

通过pytorch官网可查兼容版本：https://pytorch.org/get-started/previous-versions/ 如果环境中装了多版本的cuda，可以排查LD_LIBRARY_PATH中的cuda优先级，需要手动调整下。举例：如果cuda只兼容cuda-9.1，查询到LD_LIBRAR

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
数据准备使用流程 - AI开发平台ModelArts

量。帮助用户提高数据的质量。提供图像、文本、音频、视频等多种格式数据的预览，帮助用户识别数据质量。提供对数据进行多维筛选的能力，用户可以根据样本属性、标注信息等进行样本筛选。提供12+标注工具，方便用户进行精细化、场景化和专业化的数据标注。提供基于样本和标注结果进行特征分析，帮助用户整体了解数据的质量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理

总条数： 2321

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

通过自定义镜像创建模型失败 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

Step3 为用户配置ModelArts的委托访问授权 - AI开发平台ModelArts

修改模型服务QPS - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

返回结果 - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

查看ModelArts相关审计日志 - AI开发平台ModelArts

确认智能标注作业的数据难例 - AI开发平台ModelArts

创建并完成图像分类的智能标注任务 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

数据准备使用流程 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线