搜索_华为云

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
创建生产训练作业 - AI开发平台ModelArts

断点续训练。重启次数的取值范围是1~128，缺省值为3。创建训练后不支持修改重启次数，请合理设置次数。勾选无条件自动重启后，只要系统检测到训练异常，就无条件重启训练作业。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。当训练过程中触发了自动重启，则系统会记录

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创建一个新的Notebook，使用更高规格的资源池，比如专属资源池来运行此训练代码。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
部署GPU服务支持的Cuda版本是多少？ - AI开发平台ModelArts

部署GPU服务支持的Cuda版本是多少？默认支持Cuda版本为10.2，如果需要更高的版本，可以提工单申请技术支持。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 功能咨询
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创建一个新的Notebook，使用更高规格的资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 代码运行常见错误
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜像仓库不在同一区域，则上传镜像走公网链路，机器需要绑定弹性公网IP。约束与限制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

rule name=sshd dir=in action=allow protocol=TCP localport=22 启动OpenSSH服务，在CMD执行以下命令： Start-Service sshd 若OpenSSH未安装在默认路径下，打开命令面板（Windows： Ct

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
使用CES监控Lite Server资源 - AI开发平台ModelArts

业务可能受到影响终止 NPU: 需要重启实例 RebootVirtualMachine 提示当前故障很可能需要重启进行恢复在收集必要信息后，重启以尝试恢复重启可能中断客户业务 NPU: 需要复位SOC ResetSOC 提示当前故障很可能需要复位SOC进行恢复在收集必要信息后，复位SOC以尝试恢复

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
启动或停止Lite Server服务器 - AI开发平台ModelArts

启动或停止Lite Server服务器当您暂时不需要使用弹性节点Server的时候，可以通过对运行中的裸金属实例进行停止操作，停止对资源的消耗。当需要使用的时候，对于停止状态的弹性节点Server，可以通过启动操作重新使用弹性节点Server。登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

打通VPC网络后，网络列表和资源池详情页面将显示VPC名称，单击后可以跳转至VPC详情页面。图2 查看网络配置图3 打通VPC VPC下创建弹性云服务器登录弹性云服务器ECS控制台，单击右上角“购买弹性云服务器”，进入购买弹性云服务器页面，完成基本配置后单击“下一步：网络

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？问题现象使用MoXing训练模型，“global_step”放在Adam名称范围下，而非MoXing代码中没有Adam名称范围，如图1所示。其中1为

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
创建失败的专属资源池删除后，控制台为什么还能看到？ - AI开发平台ModelArts

创建失败的专属资源池删除后，控制台为什么还能看到？在控制台页面操作删除专属资源池后，后端服务需要进行资源实例释放。在资源实例释放过程中，用户依然可以查询到资源池。如果需要创建专属资源池，建议等待5min后再创建，且不要使用已创建过的专属资源池名称来命名新建的专属资源池。如果做UI自动化测试，建议用例用随机串替代。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

完成其他信息填写后，单击“立即创建”。方式二：对单个服务设置告警规则登录管理控制台。在“服务列表”中选择“管理与监管 > 云监控服务”，进入“云监控服务”管理控制台。在左侧导航栏，选择“云服务监控 > ModelArts”。选择需要添加告警规则的在线服务名称，单击操作列的“创建告警规则”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
在Linux上安装配置Grafana - AI开发平台ModelArts

一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本地存储100G），具体操作请参考《购买弹性云服务器》。购买弹性公网IP，并绑定到购买的弹性云服务器ECS上，具体操作请参见《弹性公网IP快速入门》。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
【下线公告】华为云ModelArts服务模型转换下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务模型转换下线公告华为云ModelArts服务模型转换在2024年4月30日 00:00(北京时间)正式下线。下线范围下线区域：华为云全部Region 下线影响正式下线后，用户将无法再使用模型转换的功能，包括创建和删除模型转换任务、查询模型转换任务列表和详情功能。

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的 - AI开发平台ModelArts

在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的问题现象在线服务启动后，当在线服务进入到“运行中”状态后，进行预测，预测请求发出后，收到的响应不符合预期，无法判断是不是模型的问题导致的不符合预期。原因分析在线服务启动后，ModelArts提供两种方式的预测：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

将此网络与某个选定的SFS Turbo资源做关联操作，关联完成后，表示SFS Turbo与网络已进行打通，可在训练和开发环境等功能时使用此SFS Turbo。关联与解除关联操作需要用户委托授权ModelArts云服务操作SFS Turbo的部分权限。涉及配置的自定义权限策略项如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
设置断点续训练 - AI开发平台ModelArts

态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当需要从训练中断的位置接续训练，只需要加载checkpoint，并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码，使能读取前一次训练保存的预训练模型。 ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

处理方法查看nv_peer_mem是否已安装。 dpkg -i | grep peer 若未安装则需要安装，安装方法参考装机指导。若已安装则进入下一检测项。查看该软件是否已经加载至内核。 lsmod | grep peer 若没有则需要重新加载至内核，执行如下命令进行加载：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1133

上一页
1
...
8
9
10
...
57
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ECS获取和上传基础镜像 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

部署GPU服务支持的Cuda版本是多少？ - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

创建失败的专属资源池删除后，控制台为什么还能看到？ - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

【下线公告】华为云ModelArts服务模型转换下线公告 - AI开发平台ModelArts

在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的 - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线