搜索_华为云

查看批量服务详情 - AI开发平台ModelArts

批量服务创建时填写的环境变量。任务结束时间本次批量服务的任务结束时间。描述您可以单击编辑按钮，添加服务描述。输入数据目录位置本次批量服务中，输入数据的OBS路径。输出数据目录位置本次批量服务中，输出数据的OBS路径。模型名称＆版本本次批量服务所使用的模型名称及版本。运行日志输出默认关闭

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
训练作业训练失败报错：TypeError: unhashable type: ‘list’ - AI开发平台ModelArts

type: ‘list’。原因分析可能由于使用了多标签分类导致（即一个图片用了1个以上的标签）。处理方法使用单标签分类的数据集进行训练。父主题：数据集问题导致训练失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

create('dist_async') print('end') 原因分析 worker阻塞的原因可能是连不上server。处理方法将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态，同时ps能够重新发送。 import os os.environ['PS_VERBOSE']

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用kv-cache-int8量化 - AI开发平台ModelArts

th kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

JupyterLab常用功能介绍在JupyterLab使用Git克隆代码仓在JupyterLab中创建定时任务上传文件至JupyterLab 下载JupyterLab文件到本地在JupyterLab中使用MindInsight可视化作业在JupyterLab中使用TensorBoard可视化作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
tensorboard显示502 bad gateway - AI开发平台ModelArts

ry目录过大，导致tensorboard加载summary导致OOM。处理方法检查summary目录是否存在其他文件，如有请删除。检查summary目的文件是否过大（比如大于5GB），如果有请减小summary。父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
查询网络资源 - AI开发平台ModelArts

Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常 Abnormal：SFS连通状态异常 ipAddr String SFS Turbo的访问地址。状态码：404 表13 响应Body参数参数参数类型描述 error_code String ModelArts错误码。 error_msg

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
Standard资源池功能介绍 - AI开发平台ModelArts

运行的作业可以访问打通网络中的存储和资源。例如，在创建训练作业时选择打通了网络的专属资源池，训练作业创建成功后，支持在训练时访问SFS中的数据。专属资源池支持自定义物理节点运行环境相关的能力，例如GPU/Ascend驱动的自助升级，而公共资源池暂不支持。专属资源池使用说明如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
查看ModelArts模型事件 - AI开发平台ModelArts

administrator. 请联系技术支持。异常模型文件xxx大于5G，无法导入。 Model file %s is larger than 5G and cannot be imported. 模型文件xxx大于5G，请精简模型文件后重试，或者使用动态加载功能进行导入。FAQ 异常

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
管理Workflow Execution - AI开发平台ModelArts

String 输入数据的名称，支持1到64位只包含英文、数字、下划线（_）和中划线（-）的字符。 type String 输入项类型。枚举值如下： dataset：数据集 obs：OBS data_selector：数据选择 data Object 输入项数据。 value Object

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
在ModelArts中同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

Android 完全兼容。 360浏览器 L3 Android 完全兼容。百度浏览器 L3 Android 完全兼容。父主题： Standard数据准备

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
在Workflow中更新已部署的服务 - AI开发平台ModelArts

default="True", description="是否进行数据清洗, 数据格式异常会导致训练失败，建议开启，保证训练稳定性。数据量过大时，数据清洗可能耗时较久，可自行线下清洗（支持BMP.JPEG,PNG格式, RGB三通道）。建议用JPEG格式数据")), wf.Al

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
使用kv-cache-int8量化 - AI开发平台ModelArts

th kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
OBS操作相关故障 - AI开发平台ModelArts

OBS操作相关故障读取文件报错，如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
注册API并授权给APP - AI开发平台ModelArts

String API的认证方式。枚举值如下： NONE：无认证 APP：APP认证 IAM：IAM认证 predict_url String 预测地址。 service_id String 服务编号。 service_name String 服务名称。 support_app_code Boolean

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理

总条数： 2066

上一页
1
...
83
84
85
...
104
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看批量服务详情 - AI开发平台ModelArts

训练作业训练失败报错：TypeError: unhashable type: ‘list’ - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

tensorboard显示502 bad gateway - AI开发平台ModelArts

查询网络资源 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

Standard资源池功能介绍 - AI开发平台ModelArts

查看ModelArts模型事件 - AI开发平台ModelArts

管理Workflow Execution - AI开发平台ModelArts

在ModelArts中同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

在Workflow中更新已部署的服务 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

OBS操作相关故障 - AI开发平台ModelArts

注册API并授权给APP - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线