搜索_华为云

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

处理方法 “nvidia-smi”是一个NVIDIA GPU监视器命令行工具，用于查看GPU的使用情况和性能指标，可以帮助用户进行GPU优化和故障排除。但是建议在业务软件或训练算法中，避免频繁使用“nvidia-smi”命令功能获取相关信息，存在锁死的风险。出现D+进程后可以尝试如下方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用SDK调测单机训练作业 - AI开发平台ModelArts

train_instance_type='local', train_instance_count=1, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
获取训练作业支持的公共规格 - AI开发平台ModelArts

CPU GPU Ascend 请求参数无响应参数状态码： 200 表3 响应Body参数参数参数类型描述 total_count Integer 训练作业资源规格总数。 flavors Array of FlavorResponse objects 训练作业资源规格列表。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
Pyspark - AI开发平台ModelArts
Pyspark - AI开发平台ModelArts

respond...") predict_str = pre_data.toPandas().to_json(orient='records') predict_result = json.loads(predict_str) return predict_result

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 推理规范说明 > 自定义脚本代码示例
查询训练作业列表 - AI开发平台ModelArts

分组条件键对应值。表3 get_job_list返回参数说明参数参数类型描述 total Integer 查询到当前用户名下的所有作业总数。 count Integer 查询到当前用户名下的所有符合查询条件的作业总数。 limit Integer 查询作业的限制量。最小为1，最大为50。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
创建APP - AI开发平台ModelArts
创建APP - AI开发平台ModelArts

connect网关上 APIG：该APP注册在共享API网关上 DEDICATE_APIG：该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。 created_at Long APP创建时间。 project_id String 项目ID。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
删除AppCode - AI开发平台ModelArts
删除AppCode - AI开发平台ModelArts

connect网关上 APIG：该APP注册在共享API网关上 DEDICATE_APIG：该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。 created_at Long APP创建时间。 project_id String 项目ID。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
查询APP详情 - AI开发平台ModelArts

connect网关上 APIG：该APP注册在共享API网关上 DEDICATE_APIG：该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。 created_at Long APP创建时间。 project_id String 项目ID。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

如果节点个数设置为1，表示后台的计算模式是单机模式；如果节点个数设置大于1，表示后台的计算模式为分布式的。您可以根据实际需求进行选择。推理速度与模型复杂度强相关，您可以尝试优化模型提高预测速度。 ModelArts中提供了模型版本管理的功能，方便溯源和模型反复调优。图1 部署在线服务父主题：在线服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
创建AI应用失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

预先准备需要编译下载的依赖包，减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装，需确保wheel包与模型文件放在同一目录。优化模型代码，提高构建模型镜像的编译效率。父主题： AI应用管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
AI开发基本流程介绍 - AI开发平台ModelArts

最重要的是保证获取数据的真实可靠性。而事实上，不能一次性将所有数据都采集全，因此，在数据标注阶段你可能会发现还缺少某一部分数据源，反复调整优化。训练模型俗称“建模”，指通过分析手段、方法和技巧对准备好的数据进行探索分析，从中发现因果关系、内部联系和业务规律，为商业目的提供决策

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
查看训练作业资源占用情况 - AI开发平台ModelArts

提升数据读取的效率：如果读取一个batch数据的时间要长于GPU/NPU计算一个batch的时间，就有可能出现GPU/NPU利用率上下浮动的情况。建议优化数据读取和数据增强的性能，例如将数据读取并行化，或者使用NVIDIA Data Loading Library（DALI）等工具提高数据增强的速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
增加AppCode - AI开发平台ModelArts
增加AppCode - AI开发平台ModelArts

connect网关上 APIG：该APP注册在共享API网关上 DEDICATE_APIG：该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。 created_at Long APP创建时间。 project_id String 项目ID。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
重置AppCode - AI开发平台ModelArts
重置AppCode - AI开发平台ModelArts

connect网关上 APIG：该APP注册在共享API网关上 DEDICATE_APIG：该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。 created_at Long APP创建时间。 project_id String 项目ID。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
查询训练作业参数列表 - AI开发平台ModelArts

调用失败时的错误信息。调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码。调用成功时无此字段。 config_total_count Integer 查询到的训练作业参数的总数。 configs Array of ConfigResponse objects configs参数属性列表。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
查询API和APP - AI开发平台ModelArts

connect网关上 APIG：该APP注册在共享API网关上 DEDICATE_APIG：该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。 created_at Long APP创建时间。 project_id String 项目ID。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
重置AppSecret - AI开发平台ModelArts

connect网关上 APIG：该APP注册在共享API网关上 DEDICATE_APIG：该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。 created_at Long APP创建时间。 project_id String 项目ID。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
功能咨询 - AI开发平台ModelArts
功能咨询 - AI开发平台ModelArts

旧版训练迁移至新版训练需要注意哪些问题？ ModelArts训练好后的模型如何获取？ AI引擎Scikit_Learn0.18.1的运行环境怎么设置？ TPE算法优化的超参数必须是分类特征（categorical features）吗模型可视化作业中各参数的意义？如何在ModelArts上获得RAN

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
使用ModelArts Standard专属资源池进行单机单卡训练 - AI开发平台ModelArts

0 self.count = 0 def update(self, val, n=1): self.val = val self.sum += val * n self.count += n self

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard专属资源池训练模型
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

DeepSpeed是NVIDIA开源的加速深度学习训练的库。它针对大规模的模型和分布式训练进行了优化，可以显著提高训练速度和效率。DeepSpeed提供了各种技术和优化策略，包括分布式梯度下降、模型并行化、梯度累积和动态精度缩放等。它还支持优化大模型的内存使用和计算资源分配。 GPT2 GPT2（Generative

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用

总条数： 323

上一页
1
...
9
10
11
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

Pyspark - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

创建APP - AI开发平台ModelArts

删除AppCode - AI开发平台ModelArts

查询APP详情 - AI开发平台ModelArts

在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

创建AI应用失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

增加AppCode - AI开发平台ModelArts

重置AppCode - AI开发平台ModelArts

查询训练作业参数列表 - AI开发平台ModelArts

查询API和APP - AI开发平台ModelArts

重置AppSecret - AI开发平台ModelArts

功能咨询 - AI开发平台ModelArts

使用ModelArts Standard专属资源池进行单机单卡训练 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线