搜索_华为云

查看日志和性能 - AI开发平台ModelArts

训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
查看日志和性能 - AI开发平台ModelArts

训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
更新训练作业描述 - AI开发平台ModelArts

description 否 String 对训练作业的描述，默认为“NULL”，字符串的长度限制为[0, 256]。响应参数无请求示例如下以修改uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。修改成功后再调用查询训练作业接口即可看到description已被修改。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

提示找不到运行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

当前Notebook默认内置的引擎环境不能满足用户诉求，用户可以新建一个conda env按需搭建自己的环境。本小节以搭建一个“python3.6.5和tensorflow1.2.0”的IPython Kernel为例进行展示。操作步骤创建conda env。在Notebook的Termin

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 环境配置相关
AI Gallery简介 - AI开发平台ModelArts

Gallery的AI说模块为开发者提供自由分享各类AI领域内知识和经验的平台。开发者既可以发布个人技术文章，也可以阅读和学习他人分享的技术文章。案例库介绍 AI Gallery的案例库是面向场景化交付的AI资产的组合和使用案例。案例中沉淀了基于业务场景的AI知识、经验和部分通用的业务逻

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
Step1 创建用户组并加入用户 - AI开发平台ModelArts

Step1 创建用户组并加入用户主用户账号下面可以创建多个子账号，并对子账号的权限进行分组管理。此步骤介绍如何创建用户组、子账号、并将子账号加入用户组中。主用户登录管理控制台，单击右上角用户名，在下拉框中选择“统一身份认证”，进入IAM服务。图1 统一身份认证创建用户组。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求，能评估推理框架在实际业务中能支持的并发数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决？ - AI开发平台ModelArts

ssh文件夹，选择“属性”。然后单击“安全”页签。单击“高级”，在弹出的高级安全设置界面单击“禁用继承”，在弹出的“阻止继承”窗口单击“从此对象中删除所有继承的权限”。此时所有用户都将被删除。添加所有者：在同一窗口中，单击“添加”，在弹出的新窗口中，单击“主体”后面的“选择主体”，弹出“选择用

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
查看日志和性能 - AI开发平台ModelArts

若查看启动作业日志信息，可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME，例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

若查看启动作业日志信息，可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME，例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

本章节提供了推理服务访问公网的方法。应用场景推理服务访问公网地址的场景，如：输入图片，先进行公网OCR服务调用，然后进行NLP处理；进行公网文件下载，然后进行分析；分析结果回调给公网服务终端。方案设计从推理服务的算法实例内部，访问公网服务地址的方案。如下图所示：图1 推理服务访问公网

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
启动停止边缘节点服务实例 - AI开发平台ModelArts

边缘节点ID。在IEF上创建边缘节点后可得到。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。表3 请求Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 训练速度突然下降以及执行nvidia-smi卡顿如何解决？ GP

帮助中心 > AI开发平台ModelArts > 故障排除
IAM - AI开发平台ModelArts
IAM - AI开发平台ModelArts

控制等功能，可以帮助您安全的控制云服务资源的访问。如果华为账号已经能满足您的要求，不需要通过IAM对用户进行权限管理，您可以跳过本章节，不影响您使用ModelArts服务的其他功能。 IAM是提供权限管理的基础服务，无需付费即可使用，您只需要为您账号中的资源进行付费。通过IAM

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

返回一个资源特征与地址的列表用于用户终端（例如：浏览器）选择。 301 Moved Permanently 永久移动，请求的资源已被永久的移动到新的URI，返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。使用GET和POST请求查看。

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

callbacks suppressed"。原因分析根据SFS客户端日志分析出现问题的时间点发现，SFS盘连接的客户端个数较多，在问题的时间点并发读取数据，I/O超高；当前SFS服务端的机制是：当SFS盘的性能到上限时，就会IO排队。IO排队造成处理时间超过 1 分钟时，客户端内核会打

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
AIGC工具tailor使用指导 - AI开发平台ModelArts

查询onnx模型的输入信息。 # 查询onnx模型的输入信息 t.get_model_input_info() 图1 查询onnx模型的输入输出信息查询onnx模型的输出信息。 # 查询模型的输出信息 t.get_model_output_info() 图2 查询onnx模型的输出信息

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
训练过程中无法找到so文件 - AI开发平台ModelArts

directory 原因分析编译生成so文件的cuda版本与训练作业的cuda版本不一致。处理方法编译环境的cuda版本与训练环境不一致，训练作业运行就会报错。例如：使用cuda版本为10的开发环境tf-1.13中编译生成的so包，在cuda版本为9.0训练环境中tf-1

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业容错检查 - AI开发平台ModelArts

补充健康的计算节点至专属资源池。（该功能即将上线）容错检查详细介绍请参考：开启容错检查检测项目与执行条件触发容错环境检测达到的效果环境预检查通过后，如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload ckpt的代码逻辑，使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

总条数： 1338

上一页
1
...
58
59
60
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

AI Gallery简介 - AI开发平台ModelArts

Step1 创建用户组并加入用户 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决？ - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

启动停止边缘节点服务实例 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

IAM - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线