搜索_华为云

如何在ModelArts训练作业中加载部分训练好的参数？ - AI开发平台ModelArts

如何在ModelArts训练作业中加载部分训练好的参数？在训练作业时，需要从预训练的模型中加载部分参数，初始化当前模型。请您通过如下方式加载：通过如下代码，您可以查看所有的参数。 from moxing.tensorflow.utils.hyper_param_flags import

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？ - AI开发平台ModelArts

镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？不会，反而会变大。因为Docker镜像的层原因，当前的镜像是基于原来的镜像制作，而原来的镜像层数是无法改变的，层不变的情况下，大小是不变的，卸载包或者删除数据集，会新增镜像层，镜像反而会变大，这和传统概念的存储不一样。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？ - AI开发平台ModelArts

第一条命令为安装Linux内核头文件和内核镜像，其中版本为5.4.0-144-generic。第二条命令为重新生成GRUB引导程序的配置文件，用于在启动计算机时加载操作系统，命令将使用新安装的内核镜像更新GRUB的配置文件，以便在下次启动时加载新的内核。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
在ModelArts中智能标注完成后新加入数据需要重新训练吗？ - AI开发平台ModelArts

在ModelArts中智能标注完成后新加入数据需要重新训练吗？智能标注完成后，需要对标注结果进行确认。如果未确认标注结果，直接加入新数据，重新智能标注，会将待确认的数据和新加入的数据全部重新训练。如果确认标注结果后，再加入新数据，只重新训练标注新的数据。父主题： Standard数据准备

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
在ModelArts的Notebook中实例重新启动后要怎么连接？ - AI开发平台ModelArts

在ModelArts的Notebook中实例重新启动后要怎么连接？可以在本地的ssh config文件中对这个Notebook配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”，如下参考所示： Host roma-local-cpu

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
导入模型提示单个模型文件超过5G限制 - AI开发平台ModelArts

在导入模型时，提示单个模型文件大小超过5G限制。原因分析在不使用动态加载的情况下，系统对单个模型文件的限制大小为5G，超过时无法进行导入。处理方法精简模型文件后，重新导入。使用动态加载功能进行导入。图1 使用动态加载父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
如何处理使用opencv.imshow造成的内核崩溃？ - AI开发平台ModelArts

imshow在jupyter这样的client/server环境下存在问题。而matplotlib不存在这个问题。解决方法参考如下示例进行图片显示。注意opencv加载的是BGR格式，而matplotlib显示的是RGB格式。 Python语言： 1 2 3 4 5 6 from matplotlib import

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？场景描述在Ubuntu 20.04每次内核升级后，系统需要重新启动以加载新内核。如果您已经安装了自动更新功能，则系统将自动下载和安装可用的更新，这可能导致系统在不经意间被重启，如果使用的软件依赖于特定版本的内核，那么当系统自动更新

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
重试/停止/运行Workflow节点 - AI开发平台ModelArts

重试/停止/运行Workflow节点重试/停止/继续运行Workflow节点重试当单个节点运行失败时，用户可以通过重试按钮重新执行当前节点，无需重新启动工作流。在当前节点的运行状况页面，单击“重试”。在重试之前您也可以前往权限管理页面修改配置，节点重试启动后新修改的配置信息可以在当前执行中立即生效。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
tensorboard显示502 bad gateway - AI开发平台ModelArts

启动tensorboard对应的summary目录错误，导致tensorboard启动失败。启动tensorboard对应的summary目录过大，导致tensorboard加载summary导致OOM。处理方法检查summary目录是否存在其他文件，如有请删除。检查summary目的文件是否过大（比如大于5GB），如果有请减小summary。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

服务部署时，默认情况下，动态加载的模型包位于临时磁盘空间，服务停止时已加载的文件会被删除，再次启动时需要重新加载。为了避免反复加载，平台允许使用资源池节点的本地存储空间来加载模型包，并在服务停止和重启时仍有效（通过哈希值保证数据一致性）使用大模型要求用户采用自定义引擎，并开启动态加载的模式导入模型。基于此，需要执行以下操作：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
断点续训和故障快恢说明 - AI开发平台ModelArts

态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成的Megatron格式权重(${user_converted_ckpt_path}) 故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
断点续训和故障快恢说明 - AI开发平台ModelArts

态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成的Megatron格式权重(${user_converted_ckpt_path}) 故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
断点续训和故障快恢说明 - AI开发平台ModelArts

态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成的Megatron格式权重(${user_converted_ckpt_path}) 故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成的Megatron格式权重(${user_converted_ckpt_path}) 故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
在ModelArts的Notebook中如何将git clone的py文件变为ipynb文件？ - AI开发平台ModelArts

XXX.py命令，即可将py文件内容加载到ipynb中。以“test.py”文件为例，下图展示了如何将“test.py”的文件内容加载到ipynb文件中。图1 test.py文件图2 将“test.py”文件内容加载到.ipynb文件里图3 加载后的ipynb文件父主题： Standard

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

越多镜像越大，如果多次保存后就会有存储显示没那么大，但是镜像已经很大。镜像超大会导致加载的各种问题，所以这里做了限制。这种场景下，建议找到原始镜像重新构建环境进行保存。解决方法找到原始镜像重新构建环境。建议使用干净的基础镜像，最小化的安装运行依赖内容，并进行安装后的软件缓存清理，然后保存镜像。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

dia-modprobe”命令，将必要的内核模块加载到系统中。但有时候也可能需要手动执行该命令。例如，在更新了NVIDIA驱动后，需要重新加载新版本的内核模块才能使变更生效。此外，如果使用了多个NVIDIA显卡，每个显卡都需要加载相应的内核模块才能正常工作。在这种情况下，也需要

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
增量模型训练 - AI开发平台ModelArts

了存储资源有限的问题；另一方面，增量训练节约了重新训练中需要消耗大量算力、时间以及经济成本。增量训练特别适用于以下情况：数据流更新：在实际应用中，数据可能会持续更新，增量训练允许模型适应新的数据而不必重新训练。资源限制：如果重新训练一个大型模型成本过高，增量训练可以是一个更经济的选择。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

如果已安装则进入下一检测项。查看该软件是否已经加载至内核。 lsmod | grep peer 如果没有则需要重新加载至内核，执行如下命令进行加载： /etc/init.d/nv_peer_mem start 如果执行失败，可能是未加载nv_peer_mem.conf至/etc/i

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 487

上一页
1
2
3
4
5
...
25
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何在ModelArts训练作业中加载部分训练好的参数？ - AI开发平台ModelArts

镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？ - AI开发平台ModelArts

如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？ - AI开发平台ModelArts

在ModelArts中智能标注完成后新加入数据需要重新训练吗？ - AI开发平台ModelArts

在ModelArts的Notebook中实例重新启动后要怎么连接？ - AI开发平台ModelArts

导入模型提示单个模型文件超过5G限制 - AI开发平台ModelArts

如何处理使用opencv.imshow造成的内核崩溃？ - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

重试/停止/运行Workflow节点 - AI开发平台ModelArts

tensorboard显示502 bad gateway - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

在ModelArts的Notebook中如何将git clone的py文件变为ipynb文件？ - AI开发平台ModelArts

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线