搜索_华为云

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
部署模型为在线服务 - AI开发平台ModelArts

服务实际占用的资源会略大于该规格。 “实例数” 设置当前版本模型的实例个数。如果实例数设置为1，表示后台的计算模式是单机模式；如果实例数设置大于1，表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量，注入环境变量到容器实例。为确保您的数据安

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
在Linux上安装配置Grafana - AI开发平台ModelArts

grafana-server 在本地PC访问Grafana配置。确保ECS绑定了弹性公网IP，且对应配置正确（入方向放开TCP协议的3000端口，出方向全部放通）。设置如下：单击ECS服务器名称进入详情页，单击“安全组”页签，单击“配置规则”。单击“入方向规则”，入方向放开TCP协议的3000端口，出方向默认全部放通。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
给子账号配置开发环境基本使用权限 - AI开发平台ModelArts

VPC接入 VPC VPC ReadOnlyAccess 实例能够挂载在用户的VPC下，实现多网络平面接入。按需配置。创建自定义策略时，建议将项目级云服务和全局级云服务拆分为两条策略，便于授权时设置最小授权范围。委托表2 开发环境所需委托业务场景依赖的服务委托授权项说明配置建议

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

Code连接远端Notebook时报错“XHR failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。原因分析可能是所在环境的网络有问题，无法自动下载VS Code Server，请手动安装。解决方法打开VS Code，选择“Help>About”，并记下“Commit”的ID码。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

建配置。图4 资源设置表4 部署模型服务参数说明取值样例服务设置服务名称自定义模型服务的名称。参见表5 描述自定义部署模型服务的简介。 - 模型设置部署模型单击“选择模型”，从“我的模型”列表中选择需要部署的模型。参见表5 资源设置资源池类型资源池分为公共资源池与专属资源池。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
更新Notebook实例 - AI开发平台ModelArts

修改远程连接的可访问IP地址后，原来已经建立的链接依然有效，当链接关闭后失效；新打开建立的链接只允许当前设置的IP进行访问。此处的IP地址，请填写外网IP地址。如果用户使用的访问机器和华为云ModelArts服务的网络有隔离，则访问机器的外网地址需要在主流搜索引擎中搜索“IP地址查询”获取，而不是使

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
部署在线服务 - AI开发平台ModelArts

subnet_network_id 否 String 子网的网络ID，默认为空，当配置了vpc_id则此参数必填。需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。 security_group_id 否 String 安

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
基本配置 - AI开发平台ModelArts
基本配置 - AI开发平台ModelArts

基本配置权限配置创建网络专属资源池VPC打通 ECS服务器挂载SFS Turbo存储在ECS中创建ma-user和ma-group obsutil安装和配置（可选）工作空间配置父主题：专属资源池训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
在ModelArts中公共资源池和专属资源池的区别是什么？ - AI开发平台ModelArts

候，可能造成资源紧张而产生排队。专属池是专属于您的资源池，不会因为资源紧张而产生排队，同时专属资源池支持打通自己的VPC，能和自己的资源网络互通。父主题： Standard专属资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？问题现象原因分析当前本地网络原因，导致远程自动安装VS Code Server时间过长。解决方法打开VS Code，选择“Help>About”，并记下“Commit”的ID码。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

device 原因分析因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。解决方法对于GP Vnt1的显卡，GPU算力为-gencode arch=compute_70,code=[sm_70,compute_70]，设置setup.py中的编译参数即可解决。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

昇腾多卡训练任务是多进程多卡模式，跑几卡需要起几个python进程。昇腾底层会读取环境变量：RANK_TABLE_FILE，开发环境已经设置，用户无需关注。比如跑八卡，可以如下片段代码： export RANK_SIZE=8 current_exec_path=$(pwd)

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。 config 是 Array of ServiceConfig objects 模型运行配置，当推理方式为batch/edge时仅支持配置一个模型；当推理方式为real-t

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

要负责保护自己的数据和应用程序，以及遵守相关的合规性要求。具体而言，云服务提供商应该提供以下服务和功能：建立和维护安全的基础设施，包括网络、服务器和存储设备等。提供安全的底层基础平台，保证底层环境的运行时安全。提供安全的身份验证和访问控制机制，以确保只有授权用户可以访问云服务，保证租户之间的相互隔离。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
查看Standard专属资源池详情 - AI开发平台ModelArts

”，可进行扩缩容、删除、转包周期、设置作业类型等操作，不同资源池可进行的操作不一致，具体以控制台显示为准。对于包年/包月的Standard资源池，在详情页中，单击右上角“更多”，可进行扩容、退订、续费、开通自动续费或修改自动续费、驱动升级、设置作业类型等操作，不同资源池可进行的操作不一致，具体以控制台显示为准。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
日志提示“no socket interface found” - AI开发平台ModelArts

原因分析可能原因如下：原因1：未设置环境变量NCCL_IB_TC、NCCL_IB_GID_INDEX、NCCL_IB_TIMEOUT，因此会导致通信速度慢且不稳定，最后造成IB通信断连，偶发上述现象。原因2：NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 1115

上一页
1
...
7
8
9
...
56
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

给子账号配置开发环境基本使用权限 - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

更新Notebook实例 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

基本配置 - AI开发平台ModelArts

在ModelArts中公共资源池和专属资源池的区别是什么？ - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线