搜索_华为云

tensorboard显示502 bad gateway - AI开发平台ModelArts

启动tensorboard对应的summary目录过大，导致tensorboard加载summary导致OOM。处理方法检查summary目录是否存在其他文件，如有请删除。检查summary目的文件是否过大（比如大于5GB），如果有请减小summary。父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
训练中的权重转换说明 - AI开发平台ModelArts

原始Hugging Face模型中的文件进行对比，查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json等tokenizer文件或者其他json文件。若缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

原始Hugging Face模型中的文件进行对比，查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

原始Hugging Face模型中的文件进行对比，查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

属资源池的默认网段为192.168.20.0/24。专属资源池实际使用的网段可以在资源池的详情页面查看“网络”获取。条件二：SFS Turbo网段不能与172网段重叠，否则会和容器网络发生冲突，因为容器网络使用的是172网段。如果不满足条件，则修改SFS Turbo的VPC网段，推荐网段为10

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
通过运行的实例保存成容器镜像 - AI开发平台ModelArts

镜像支持服务类型。枚举值如下： COMMON：通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 size Long 镜像大小（单位KB）。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

<模型版本> --local-dir <模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
训练中途卡死 - AI开发平台ModelArts

writer = Sumarywriter('./path)/to/log') 解决方案3 存储路径设为本地路径，如cache/tensorboard，不要使用OBS路径。问题现象4 使用pytorch中的dataloader读数据时，作业卡在读数据过程中，日志停在训练的过程中并不再更新日志。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
昇腾云服务6.3.906版本说明 - AI开发平台ModelArts

昇腾云服务6.3.906版本说明本文档主要介绍昇腾云服务6.3.906版本配套的镜像地址、软件包获取方式和支持的特性能力。配套的基础镜像镜像地址获取方式配套关系镜像软件说明配套关系 PyTorch：西南-贵阳一 swr.cn-southwest-2.myhuaweicloud

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

<模型版本> --local-dir <模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作
删除节点池 - AI开发平台ModelArts

String 资源规格名称，比如：modelarts.vm.gpu.t4u8。 count Integer 规格保障使用量。 maxCount Integer 资源规格的弹性使用量，物理池该值和count相同。 azs Array of PoolNodeAz objects 资源池中节点的AZ信息。

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
更新Workflow Execution - AI开发平台ModelArts

objects 节点steps使用到的数据。 parameters 否 Array of WorkflowParameter objects 节点steps使用到的参数。 policies 否 WorkflowDagPolicies object 执行记录使用到的执行策略。表3 StepExecution

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
在线服务鉴权 - AI开发平台ModelArts

value 否 Long 付费工作流可使用的时间值。响应参数状态码： 201 表4 响应Body参数参数参数类型描述 result String 认证结果。请求示例对在线服务进行鉴权。设置付费工作流计费周期为“day”，付费工作流可使用的时间为“100”。 POST h

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
托管数据集到AI Gallery - AI开发平台ModelArts

单击“添加文件”，进入上传文件页面，选择本地的数据文件单击“点击上传”或拖动文件，单击“确认上传”启动上传。上传单个超过5GB的文件时，请使用Gallery CLI工具。CLI工具的获取和使用请参见Gallery CLI配置工具指南。文件合集大小不超过50GB。文件上传完成前，请不要刷新或关闭上传页面，防止意外终止上传任务，导致数据缺失。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
配置Lite Cluster存储 - AI开发平台ModelArts

小。表1 容器挂载存储的方式及差异容器挂载存储的方式使用场景特点挂载操作参考 EmptyDir 适用于训练缓存场景。 Kubernetes的临时存储卷，临时卷会遵从Pod的生命周期，与Pod一起创建和删除。使用临时存储路径 HostPath 适用于以下场景：容器工作负载程序生成的日志文件需要永久保存。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
管理Workflow Execution - AI开发平台ModelArts

objects 节点steps使用到的数据。 parameters Array of WorkflowParameter objects 节点steps使用到的参数。 policies WorkflowDagPolicies object 执行记录使用到的执行策略。表8 StepExecution

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
查询工作空间详情 - AI开发平台ModelArts

状态描述，默认为空。该字段会补充显示状态的详细信息。如删除失败时，可通过该字段查看删除失败的原因。表4 grants 参数参数类型描述 user_id String IAM用户ID。此参数与user_name必填一个。两者都填优先使用user_id。 user_name String

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
查询指定节点池详情 - AI开发平台ModelArts

String 资源规格名称，比如：modelarts.vm.gpu.t4u8。 count Integer 规格保障使用量。 maxCount Integer 资源规格的弹性使用量，物理池该值和count相同。 azs Array of PoolNodeAz objects 资源池中节点的AZ信息。

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

<模型版本> --local-dir <模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了git clone repo_url

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备Notebook - AI开发平台ModelArts

您可以在Notebook中导入完代码之后，在Notebook运行sh scripts/install.sh命令提前下载完整代码包和安装依赖包，然后使用保存镜像功能。后续训练作业使用新保存的镜像，无需每次启动训练作业时再次下载代码包以及安装依赖包，可节约训练作业启动时间。由于训练启动命令也会执行sh scripts/install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作

总条数： 1817

上一页
1
...
80
81
82
...
91
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

tensorboard显示502 bad gateway - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

通过运行的实例保存成容器镜像 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

训练中途卡死 - AI开发平台ModelArts

昇腾云服务6.3.906版本说明 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

删除节点池 - AI开发平台ModelArts

更新Workflow Execution - AI开发平台ModelArts

在线服务鉴权 - AI开发平台ModelArts

托管数据集到AI Gallery - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

管理Workflow Execution - AI开发平台ModelArts

查询工作空间详情 - AI开发平台ModelArts

查询指定节点池详情 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线