搜索_华为云

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

文件，可通过环境变量查看文件位置。在Notebook中打开terminal，可以运行如下命令查看RANK_TABLE_FILE： 1 env | grep RANK 在训练作业中，您可以在训练启动脚本的首行加入如下代码，把RANK_TABLE_FILE的值打印出来： 1 os

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

容器调用接口：指定模型启动的协议和端口号。请确保协议和端口号与自定义镜像中提供的协议和端口号保持一致。镜像复制：选填，选择是否将容器镜像中的模型镜像复制到ModelArts中。健康检查：选填，用于指定模型的健康检查。仅当自定义镜像中配置了健康检查接口，才能配置“健康检查”，否则会导致模型创建失败。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
准备Notebook（可选） - AI开发平台ModelArts

odelArts Notebook的详细资料请查看开发环境介绍。本案例中，如果用户有自定义开发的需要，比如查看和编辑代码、数据预处理、权重转换等操作，可通过Notebook环境进行，。并且Notebook环境具有一定的存储空间，可与OBS中的数据相互传递。创建Notebook

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
使用PyCharm手动连接Notebook - AI开发平台ModelArts

此时可以进入debug模式，代码运行暂停在该行，且可以查看变量的值。图9 Debug模式使用debug方式调试代码的前提是本地的代码和云端的代码是完全一致的，如果不一致可能会导致在本地打断点的行和实际运行时该行的代码并不一样，会出现意想不到的错误。因此在配置云上Python Inte

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

VIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤，您可针对需要安装的软件查看对应的内容：安装NVIDIA驱动安装CUDA驱动安装Docker 安

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

0”更换为“NVIDIA 515+CUDA 11.7”。操作步骤卸载原有版本的NVIDIA和CUDA。查看使用apt包管理方式安装的nvidia软件包，执行如下命令实现查看和卸载。 dpkg -l | grep nvidia dpkg -l | grep cuda sudo

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用镜像 - AI开发平台ModelArts
使用镜像 - AI开发平台ModelArts

Gallery中，您可以查找共享的镜像并用于AI开发。使用镜像登录“AI Gallery”。选择“资产集市 > 镜像”，进入镜像页面，该页面展示了所有共享的镜像。搜索业务所需的镜像，请参见查找和收藏资产。单击目标镜像进入详情页面。在详情页面您可以查看镜像的AI引擎框架、使用芯片、镜像URL、包含的依赖项等信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

限请修改。连接时如果报错密钥无权限，排查密钥是否为自己的密钥（可能使用了重名密钥），请更换密钥后重新连接实例。本地排查检查配置是否正确。打开config文件进行检查：Host必须放在每组配置的第一行，作为每组配置的唯一ID。 HOST remote-dev hostname

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

置过大，会占用过多显存，影响kvcache的空间。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

显示详细的信息开关，默认关闭。 -i / --image-id String 否查询指定镜像ID的镜像详情。 -n / --image-name String 否查询指定镜像名称的镜像详情。 -wi / --workspace-id String 否查询指定工作空间下的镜像信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

分析能力，详细的操作方式请参见基于advisor的昇腾训练性能自助调优指导。对于GPU和NPU性能比对、NPU多次训练之间性能比对的场景，昇腾提供了性能比对工具compare_tools，通过对训练耗时和内存占用的比对分析，定位到具体劣化的算子，帮助用户提升性能调优的效率。工具将训练耗时拆分为计算、通信、调度

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
欠费后，ModelArts的资源是否会被删除？ - AI开发平台ModelArts

欠费后，ModelArts的资源是否会被删除？欠费后，ModelArts的资源不会被立即删除。欠费后，您可以在“费用中心”查看欠费详情。为了防止相关资源不会被停止服务或者逾期释放，您需要及时进行还款或充值。查询欠费步骤登录管理控制台。单击页面右上角的“费用”进入“费用中心”页面。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
查询预置算法 - AI开发平台ModelArts

请求消息请求参数如表2所示。表2 查询检索参数参数是否必选参数类型说明 per_page 否 Integer 指定每一页展示作业参数的总量，默认为10，“per_page”可选的范围为[1，100]。 page 否 Integer 指定要查询页的索引，默认为1。 sortBy

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

建模型时填写与您镜像中相同的启动命令。提供的服务可使用HTTPS/HTTP协议和监听的容器端口，端口和协议可根据镜像实际使用情况自行填写，ModelArts提供的请求协议和端口号的缺省值是HTTPS和8080。请参考https示例。（可选）健康检查的URL路径必须为"/health"。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令是一种基于ICMP协议（Internet Control Message Protocol）的网络诊断工具，利用ICMP协议向目标主机发送数据包并接收返回的数据包来判断

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

xxx 问题现象原因分析执行VS Code Remote SSH连接失败。解决方法单击弹窗右上角关闭弹窗，查看OUTPUT中的具体报错信息，并参考后续章节列举的几种常见报错解决问题。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
非分离部署推理服务 - AI开发平台ModelArts

每个输出序列要生成的最大tokens数量。 top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
训练作业重调度 - AI开发平台ModelArts

详情”页签，里面记录了训练作业的启停情况。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“故障恢复详情”页签查看故障恢复信息。图1 查看故障恢复详情父主题：模型训练高可靠性

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL tim

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
训练预测分析模型 - AI开发平台ModelArts

被用户标注为某个分类的所有样本中，模型正确预测为该分类的样本比率，反映模型对正样本的识别能力。 precision：精确率被模型预测为某个分类的所有样本中，模型正确预测的样本比率，反映模型对负样本的区分能力。 accuracy：准确率所有样本中，模型正确预测的样本比率，反映模型对样本整体的识别能力。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析

总条数： 1322

上一页
1
...
8
9
10
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

使用PyCharm手动连接Notebook - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

使用镜像 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

欠费后，ModelArts的资源是否会被删除？ - AI开发平台ModelArts

查询预置算法 - AI开发平台ModelArts

使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

训练作业重调度 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线