搜索_华为云

配置Grafana数据源 - AI开发平台ModelArts

s实例的Grafana数据源配置代码。在Grafana中增加数据源。登录Grafana。首次登录用户名和密码为admin，登录成功后可根据提示修改密码。在左侧菜单栏，选择“Configuration > Data Sources”，单击“Add data source”。图3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
约束与限制 - AI开发平台ModelArts

间不会造成额外费用增加。更多信息，请参见导入AI应用对镜像大小的约束限制。自动学习项目中，在完成模型部署后，其生成的模型也将自动上传至AI应用列表中。但是自动学习生成的AI应用无法下载，只能用于部署上线。 Standard推理服务部署只支持使用专属资源池部署的在线服务使用Cl

帮助中心 > AI开发平台ModelArts > 产品介绍
人工标注音频数据 - AI开发平台ModelArts

认显示“未标注”的音频列表。在“未标注”页签左侧音频列表中，单击目标音频文件，在右侧的区域中出现音频，单击音频下方，即可进行音频播放。根据播放内容，在下方“语音内容”文本框中填写音频内容。输入内容后单击下方的“确认标注”按钮完成标注。音频将被自动移动至“已标注”页签。图3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

但有时候会出现读取速度变慢的现象，并且SFS提示报错"rpc_check_timeout:939 callbacks suppressed"。原因分析根据SFS客户端日志分析出现问题的时间点发现，SFS盘连接的客户端个数较多，在问题的时间点并发读取数据，I/O超高；当前SFS服务端的机制是：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

tools" rm -rf /usr/bin/readelf rm -rf /usr/bin/gcc-nm #readelf根据需要决定是否删除 #rm -rf /usr/local/Ascend/ascend-toolkit/latest/toolkit/

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
创建训练任务 - AI开发平台ModelArts

认无误后单击“确定”。训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。训练作业执行成功后，日志信息如下所示。父主题：单机多卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

被自动下载至训练容器的“${MA_JOB_DIR}/demo-code”目录中，demo-code为OBS存放代码路径的最后一级目录，可以根据实际修改。使用自定义镜像创建训练作业时，在代码目录下载完成后，镜像的启动命令会被自动执行。启动命令的填写规范如下：如果训练启动脚本用的是py文件，例如train

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建训练作业 - AI开发平台ModelArts

modelarts.estimatorV2 import Estimator session = Session() #训练脚本里接收的参数，请根据实际情况填写 parameters = [{"name": "mod", "value":"gpu"}, {"name":

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练作业卡死检测 - AI开发平台ModelArts

程IO都没有变化，则进入资源利用率检测阶段。资源利用率：在作业进程IO没有变化的情况下，采集一定时间段内的GPU利用率或NPU利用率，并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化，则判定作业卡死。约束限制卡死检测仅支持资源类型为GPU和NPU的训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
数据准备使用流程 - AI开发平台ModelArts

帮助用户提高数据的质量。提供图像、文本、音频、视频等多种格式数据的预览，帮助用户识别数据质量。提供对数据进行多维筛选的能力，用户可以根据样本属性、标注信息等进行样本筛选。提供12+标注工具，方便用户进行精细化、场景化和专业化的数据标注。提供基于样本和标注结果进行特征分析，帮助用户整体了解数据的质量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

配套CANN8.0.RC1镜像无算子，包名：AscendCloud-OPP Scatter、Gather算子性能提升，满足MoE场景昇腾随机数生成算子与GPU保持一致支持GroupNorm+transpose+BMM融合算子 FFN推理算子支持geglu激活函数支持配套pybind推理的10+算子（matmul

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

桶的目录结构如下。 <bucket_name> |──llm_train # 解压代码包后自动生成的代码目录，无需用户创建 |── AscendSpeed # 代码目录

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
Lite Cluster资源管理介绍 - AI开发平台ModelArts

用一段时间后，由于用户AI开发业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts提供了扩缩容功能，用户可以根据自己的需求动态调整。升级Lite Cluster资源池驱动：当资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

（后面称模板机）的实例ID信息，如果制作镜像不清理“/var/lib/cloud/*”就会导致用该镜像再重装模板机时，cloud-init根据残留目录（含实例ID）判断已经执行过一次，进而不会再执行user-data里面的脚本。而使用该镜像的服务器B和C，由于实例ID信息和镜像

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

桶的目录结构如下。 <bucket_name> |──llm_train # 解压代码包后自动生成的代码目录，无需用户创建 |── AscendSpeed # 代码目录

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
Lite Cluster使用流程 - AI开发平台ModelArts

要购买一个CCE集群。在ModelArts控制台购买Lite Cluster集群时，ModelArts的资源池会先纳管这个CCE集群，然后根据用户设置的规格创建相应的计算节点（BMS/ECS）。随后，CCE会对这些节点进行纳管，并且ModelArts会在CCE集群中安装npuDr

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
训练作业卡死检测定位 - AI开发平台ModelArts

内，作业所有进程IO都没有变化，则进入资源利用率检测阶段。资源利用率：在作业进程IO没有变化的情况下，采集一定时间段内的GPU利用率，并根据这段时间内的GPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化，则判定作业卡死。由于检测规则的局限性，当前卡死检测存在一

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
如果不再使用ModelArts，如何停止收费？ - AI开发平台ModelArts

相关作业，即可停止计费。操作步骤：在ModelArts管理控制台，单击左侧菜单栏的“总览”，您可以在“总览”区域查看正在收费的作业。再根据实际情况进入管理页面，停止收费。图1 查看收费作业进入“ModelArts>Workflow”页面，检查是否有“运行中”的Workfl

帮助中心 > AI开发平台ModelArts > 常见问题 > 计费相关
ModelArts计费模式概述 - AI开发平台ModelArts

务。按需计费：一种后付费模式，即先使用再付费，按照ModelArts计算资源的实际使用时长计费，秒级计费，按小时结算。按需计费模式允许您根据实际业务需求灵活地调整资源使用，无需提前预置资源，从而降低预置过多或不足的风险。一般适用于资源需求波动的场景，可以即开即停。表1列出了两种计费模式的区别。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

访问OBS桶中的文件。处理方法读取文件报错，您可以使用Moxing将数据复制至容器中，再直接访问容器中的数据。请参见步骤1。您也可以根据不同的文件类型，进行读取。请参见读取“json”文件、读取“npy”文件、使用cv2库读取文件和在MXNet环境下使用torch包。读取

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障

总条数： 1011

上一页
1
...
43
44
45
...
51
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

配置Grafana数据源 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

人工标注音频数据 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

数据准备使用流程 - AI开发平台ModelArts

昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

训练作业卡死检测定位 - AI开发平台ModelArts

如果不再使用ModelArts，如何停止收费？ - AI开发平台ModelArts

ModelArts计费模式概述 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线