搜索_华为云

训练精度测试 - AI开发平台ModelArts

客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置，权重使用表1 模型权重中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k数据。查看精度结果任务完成之后会在test-benchmark目录下生成excel表格：精度结果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

训练过程中出现如下报错： DataFrame.dtypes for data must be int, float or bool 原因分析出现该问题的可能原因如下：训练数据中出现了非int、float、bool类型数据。处理方法可参考如下代码，将错误列进行转换： from sklearn

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
更新标注团队成员 - AI开发平台ModelArts

_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 worker_id 是 String 标注团队成员ID。 workforce_id 是 String 标注团队ID。请求参数表2

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

镜像过大Push任务一直在运行，或实例节点有问题。解决方法以对应租户的华为云账号登录SWR服务，查看镜像是否已经Push成功。如果Push成功，请重新注册镜像。如果未Push成功，联系SRE查看对应实例的节点是否有问题。父主题：自定义镜像故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
预训练超参配置 - AI开发平台ModelArts

非必填。流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch 默认值1。建议值单机1，双机2。 GBS 16 非必填。默认值 16 训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长，建议值单机16，双机32。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

ModelArts-xxx port xxx: Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
运行训练作业时提示URL连接超时 - AI开发平台ModelArts

timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。处理方法如果在运行训练作业时提示连接超时，请您将需要联网下载的数据提前下载至本地，并上传至OBS中。父主题：外网访问限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

Module named XXX，表示模型中没有导入对应依赖模块。处理方法依赖模块没有导入，需要您在模型推理代码中导入缺失依赖模块。例如您的模型是Pytorch框架，部署为在线服务时出现告警：ModuleNotFoundError: No module named ‘model_service

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

以及选不到Kernel。图1 报错Server Connection Error截图图2 选不到Kernel 原因分析用户误操作引起的。解决方案打开Terminal窗口，执行以下命令启动kernelgateway服务。 API_TYPE=kernel_gateway.jupyter_websocket

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
日志提示"Permission denied" - AI开发平台ModelArts

可取消sudoers行的注释）： v1训练作业环境变量迁移v2说明： v1的DLS_TASK_NUMBER环境变量，可以使用v2的MA_NUM_HOSTS环境变量替换，即选择的训练节点数。 v1的DLS_TASK_INDEX环境变量，当前可以使用v2的VC_TASK_INDEX

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
注册API并授权给APP - AI开发平台ModelArts

工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。表4 Apps 参数是否必选参数类型描述 app_id 否 String APP的编号，可通过查询APP列表获取。响应参数状态码：200 表5 响应Header参数

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
获取训练作业事件列表 - AI开发平台ModelArts

结束时间，需要与开始时间一起传入。 level 否 String 指定返回的事件级别，取值范围[Info Error Warning]。 pattern 否 String 指定事件信息包含的内容，最长256个字符。 source 否 String 指定返回的事件来源，取值范围为[K8S Job Task]。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
Notebook运行代码报错，在'/tmp'中到不到文件 - AI开发平台ModelArts

*，查看该目录下的空间占用情况。 sh-4.3$cd /tmp sh-4.3$du -sh * 4.0K core-js-banners 0 npm-19-41ed4c62 6.7M v8-compile-cache-1000 请删除不用的大文件。删除示例文件“test

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用自定义镜像创建Notebook后打开没有kernel - AI开发平台ModelArts

自定义镜像的python环境没有注册。解决方案在Terminal里执行命令排查实例存在几个Conda环境。 conda env list 执行如下命令分别切换到对应环境查看是否有ipykernel包。 conda activate base # base替换为实际使用的python环境

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
查询AI应用列表 - AI开发平台ModelArts

ect-Token的值）。响应参数状态码：200 表4 响应Body参数参数参数类型描述 models Array of ModelListItem objects 模型元数据信息。 total_count Integer 不分页的情况下符合查询条件的总模型数量。 count

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
安装VS Code软件 - AI开发平台ModelArts

Code下载方式：下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求：建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下：图2 Windows系统下VS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例

总条数： 2625

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练精度测试 - AI开发平台ModelArts

日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

更新标注团队成员 - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

预训练超参配置 - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

注册API并授权给APP - AI开发平台ModelArts

获取训练作业事件列表 - AI开发平台ModelArts

Notebook运行代码报错，在'/tmp'中到不到文件 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

使用自定义镜像创建Notebook后打开没有kernel - AI开发平台ModelArts

查询AI应用列表 - AI开发平台ModelArts

安装VS Code软件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线