搜索_华为云

查看日志和性能 - AI开发平台ModelArts

在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global batch size×seq_length/(总卡数×elapsed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
查看日志和性能 - AI开发平台ModelArts

在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global batch size×seq_length/(总卡数×elapsed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global batch size×seq_length/(总卡数×elapsed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
迁移适配 - AI开发平台ModelArts
迁移适配 - AI开发平台ModelArts

外，这里去掉了int 4量化默认为FP16精度。${HOME} 目录需要根据读者实际数据集及模型路径匹配，适配的数据集是ADGEN数据集，如果您需要使用自定义的数据集训练，具体请参考使用自己数据集。另外通过指定local_rank为-1为单卡模式，多卡模式下无需指定，会默认启动D

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导
在Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

在Notebook中，如何使用昇腾多卡进行调试？昇腾多卡训练任务是多进程多卡模式，跑几卡需要起几个python进程。昇腾底层会读取环境变量：RANK_TABLE_FILE，开发环境已经设置，用户无需关注。比如跑八卡，可以如下片段代码： export RANK_SIZE=8

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

在Notebook中添加自定义IPython Kernel 使用场景当前Notebook默认内置的引擎环境不能满足用户诉求，用户可以新建一个conda env按需搭建自己的环境。本小节以搭建一个“python3.6.5和tensorflow1.2.0”的IPython Kernel为例进行展示。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 环境配置相关
ModelArts支持将模型部署为哪些类型的服务？ - AI开发平台ModelArts

ModelArts支持将模型部署为哪些类型的服务？支持在线服务、批量服务和边缘服务。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 功能咨询
什么是图像分类和物体检测？ - AI开发平台ModelArts

什么是图像分类和物体检测？图像分类是根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。简单的说就是识别一张图中是否是某类/状态/场景，适合图

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 功能咨询
提示“上传的AK/SK不可用”，如何解决？ - AI开发平台ModelArts

提示“上传的AK/SK不可用”，如何解决？问题分析 AK与SK是用户访问OBS时需要使用的密钥对，AK与SK是一一对应，且一个AK唯一对应一个用户。如提示不可用，可能是由于账号欠费或AK与SK不正确等原因。解决方案使用当前账号登录OBS管理控制台，确认当前账号是否能访问OBS。

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

使用pip install时出现“没有空间”的错误问题现象在Notebook实例中，使用pip install时，出现“No Space left...”的错误。解决办法建议使用pip install --no-cache ** 命令安装，而不是使用pip install

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
训练作业是否支持定时或周期调用？ - AI开发平台ModelArts

训练作业是否支持定时或周期调用？ ModelArts训练作业不支持定时周期化调用。当您的作业处于“运行中”状态时，可以按照业务需求进行调用。父主题：管理训练作业版本

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 管理训练作业版本
TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

TensorFlow在OBS写入TensorBoard到达5GB时停止问题现象 ModelArts训练作业出现如下报错： Encountered Unknown Error EntityTooLarge Your proposed upload exceeds the maximum

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错问题现象训练作业的状态“运行失败”，查看训练作业的“日志”，存在NCCL的报错，例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配问题现象在现有镜像基础上，重新装了引擎版本，或者编译了新的CUDA包，出现如下错误： 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/s

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？问题现象启动服务失败，报错：资源不足，服务调度失败。（Schedule failed due to insufficient resources. Retry later.或ModelArts.3976：No resources

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount 问题现象在Notebook执行兼容gpu的脚本时报错不兼容，但是通过nvcc --version排查显示是兼容。 import torch import sys print('A'

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
删除训练作业参数 - AI开发平台ModelArts

删除训练作业参数功能介绍删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导昇腾性能自动诊断工具使用说明基于ModelArts performance advisor插件的昇腾PyTorch性能调优步骤创建Notebook并执行性能诊断任务 advisor分析报告html文件详解父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）场景介绍准备工作在Notebook调试环境中部署推理服务在推理生产环境中部署推理服务推理精度测试推理性能测试推理模型量化附录：基于vLLM不同模型推理支持最小卡数和最大序列说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）场景介绍准备工作在Notebook调试环境中部署推理服务在推理生产环境中部署推理服务推理精度测试推理性能测试推理模型量化附录：基于vLLM不同模型推理支持最小卡数和最大序列说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理

总条数： 2647

上一页
1
...
70
71
72
...
133
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

迁移适配 - AI开发平台ModelArts

在Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

ModelArts支持将模型部署为哪些类型的服务？ - AI开发平台ModelArts

什么是图像分类和物体检测？ - AI开发平台ModelArts

提示“上传的AK/SK不可用”，如何解决？ - AI开发平台ModelArts

使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

训练作业是否支持定时或周期调用？ - AI开发平台ModelArts

TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

删除训练作业参数 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线