-
训练作业失败,返回错误码139 - AI开发平台ModelArts
训练作业运行失败,返回错误码139,如下图所示: 图1 错误码信息 原因分析 出现该问题的可能原因如下 pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import的时候出现了错误。 用户代码问题,出现了内存越界、非法访问内存空间的情况。
-
使用案例 - AI开发平台ModelArts
) 更新在线服务 使用场景:使用新版本的模型对已有的服务进行更新,需要保证新版本的模型与已部署服务的模型名称一致。 import modelarts.workflow as wf # 通过ServiceStep来定义一个服务部署节点,输入指定的模型对已部署的服务进行更新 # 定义模型名称参数
-
裸金属服务器支持IPV6解决方案 - AI开发平台ModelArts
确认镜像支持IPV6。如果未支持,需要更新该镜像属性,以支持IPV6。 查询方式请参考查询镜像列表。 调用API传入镜像ID,若响应体中有“__support_ipv6”: "true"内容,则代表支持,否则代表不支持。 图1 查询镜像是否支持IPV6 更新镜像属性,使得镜像支持IPV6。 更新步骤请参考更新镜像信息,关键代码如下:
-
使用案例 - AI开发平台ModelArts
主要包含三种场景的用例。 基于数据集发布版本 基于标注任务发布版本 基于数据集标注节点的输出发布版本 基于数据集发布版本 使用场景:当数据集更新了数据时,可以通过该节点发布新的数据集版本供后续的节点使用。 from modelarts import workflow as wf #
-
SDXL ComfyUI插件基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts
如果出现报错SSL certificate problem: self signed certificate in certificate chain 图1 报错SSL certificate problem 可采取忽略SSL证书验证:使用以下命令来克隆仓库,它将忽略SSL证书验证。 git
-
功能介绍 - AI开发平台ModelArts
功能介绍 通过对ModelArts模型管理的能力进行封装,实现将训练后的结果注册到模型管理中,便于后续服务部署、更新等步骤的执行。主要应用场景如下: 注册ModelArts训练作业中训练完成的模型。 注册自定义镜像中的模型。 父主题: 模型注册节点
-
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决? - AI开发平台ModelArts
instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书,且提示信息除标题外,都是乱码。选择证书后,如上图所示仍然没有反应且无法进行连接。 原因分析 当前环境未装OpenSSH或者OpenSSH未安装在默认路径下,详情请参考VS
-
Wav2Lip基于DevServer适配PyTorch NPU训练指导(6.3.902) - AI开发平台ModelArts
如果出现报错SSL certificate problem: self signed certificate in certificate chain 图2 报错SSL certificate problem 可采取忽略SSL证书验证:使用以下命令来克隆仓库,它将忽略SSL证书验证。 git
-
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts
-y”,“yum update -y”命令是用于在Linux操作系统上更新软件包的命令。其中,选项-y表示在更新时自动确认所有提示信息,而不需要手动输入“y”确认。 请注意,使用此命令将会检查您系统中已安装的软件包并更新至最新版本。 图1 yum命令历史 查看NetworkManager配置:
-
查看服务详情 - AI开发平台ModelArts
对在线服务进行预测。具体操作请参见测试服务。 配置更新记录 展示“当前配置”详情和“历史更新记录”。 “当前配置”:展示AI应用名称、版本、状态、计算节点规格、分流、计算节点个数、部署超时时间、环境变量、存储挂载等信息。专属资源池部署的服务,同时展示资源池信息。 “历史更新记录”:展示历史AI应用相关信息。
-
注册API并授权给APP - AI开发平台ModelArts
注册API并授权给APP 功能介绍 注册API并将API授权给APP,只有对服务有更新权限的华为云用户可以调用。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST
-
解除API对APP的授权 - AI开发平台ModelArts
解除API对APP的授权 功能介绍 解除指定的API对APP的授权,请求用户对API所属服务必须有更新权限。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE
-
AI Gallery的入口在哪里 - AI开发平台ModelArts
登录ModelArts管理控制台。 在左侧导航栏中选择“AI Gallery”跳转到AI Gallery首页。 直接网址访问 旧版AI Gallery将下线,已不再更新,建议使用新版AI Gallery。 旧版AI Gallery地址:https://developer.huaweicloud.com/d
-
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决? - AI开发平台ModelArts
(25G)”,镜像创建失败。 原因分析 镜像保存本质是通过在资源集群节点上的agent中进行了docker commit,再配合一系列自动化操作来上传和更新管理数据等。每次Commit都会带来额外的一些开销,层数越多镜像越大,如果多次保存后就会有存储显示没那么大,但是镜像已经很大了。镜像超大会
-
Notebook如何离线安装VS Code Server - AI开发平台ModelArts
Notebook如何离线安装VS Code Server 背景介绍 VS Code执行remote-ssh远程连接时,会根据用户的VS Code版本去自动更新vscode-server和Vscode-client的版本,通过本地和远端尝试下载相关的安装脚本和包。当远端网络和本地网络不通时,可以手
-
授权API至APP - AI开发平台ModelArts
将指定的API授权给APP。API的认证方式必须为APP认证,APP的创建用户必须是API所属服务的创建者,且请求用户对API所属服务必须有更新权限。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
-
迁移环境准备 - AI开发平台ModelArts
优点:可快速、低成本地搭建环境,使用标准化容器镜像,官方notebook示例可直接运行。 缺点:由于是容器化环境因此不如裸机方式灵活,例如不支持root权限操作、驱动更新等。 环境开通指导参考:Notebook环境创建。 样例演示可参考Notebook样例:Stable Diffusion模型迁移到Ascend上进行推理。
-
单机多卡数据并行-DataParallel(DP) - AI开发平台ModelArts
分发损失,各GPU各自反向传播梯度 主GPU收集梯度并更新参数,将更新后的模型参数分发到各GPU 具体流程图如下: 图1 单机多卡数据并行训练 DataParallel进行单机多卡训练的优缺点 代码简单:仅需修改一行代码。 通信瓶颈 :负责reducer的GPU更新模型参数后分发到不同的GPU,因此有较大的通信开销。
-
算法工程环境管理 - AI开发平台ModelArts
show_asset("algorithm") 安装资产 安装算法套件,Notebook实例启动后,首次安装套件后可能需要重新启动kernel以使用更新后的依赖包。 env.install(mode="algorithm", asset_name="mmdetection", version="2
-
如何在Notebook开发环境中配置Conda源 - AI开发平台ModelArts
#获取某一命令的帮助,如update 查看conda版本 conda -V 更新conda conda update conda #更新 conda conda update anaconda #更新 anaconda 环境管理 conda env list #显示所有的虚拟环境