检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自定义设置的云上开发环境名称。 HostName: 云上开发环境的访问地址,即在开发环境实例页面远程访问模块获取的访问地址。例如:dev-modelarts-cnnorth4.huaweicloud.com Port: 云上开发环境的端口,即在开发环境实例页面远程访问模块获取的端口号。 User:登录用户只支持ma-user进行登录。
Snt9B硬件,完成SDXL的LoRA微调训练。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 表1 环境要求 名称 版本 CANN cann_8.0.rc2 PyTorch 2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径
cluster_id 否 String 可选,部署服务时使用的资源池ID。对于rel-time和batch服务类型,为旧版专属资源池ID,配置此参数后,则使用集群的网络配置,vpc_id参数不生效,使用专属资源池部署服务时需确保集群状态正常,若要使用专属资源池,需配置cluster_id或pool_
日志提示“errorMessage:The specified key does not exist” 问题现象 在用moxing访问OBS路径时,出现如下错误: ERROR:root: stat:404 errorCode:NoSuchKey errorMessage:The specified
在线/批量服务使用的专属资源池ID或边缘服务使用的边缘资源池ID,仅当配置专属资源池或边缘资源池时返回。 vpc_id String 在线服务实例所在的虚拟私有云ID,服务自定义网络配置时返回。 subnet_network_id String 在线服务实例所在的子网的网络ID,服务自定义网络配置时返回。
“策略名称”:设置自定义策略名称,例如:允许通过Cloud Shell访问运行中的训练作业。 “策略配置方式”:选择可视化视图。 “策略内容”:允许,云服务中搜索ModelArts服务并选中,操作列中搜索关键词modelarts:trainJob:exec并选中,所有资源选择默认值。 图1 创建自定义策略 在统
VS Code自动升级后,导致远程连接时间过长 问题现象 原因分析 由于VS Code自动升级,导致连接时需要重新下载新版vscode-server。 解决方法 禁止VS Code自动升级。单击左下角选择Settings项,搜索Update: Mode,将其设置为none。 图1
npz”的目录,例如“obs://test-modelarts/tensorflow/data/mnist.npz”,获取方式设置为“超参”。 资源池:选择公共资源池。 资源类型:选择GPU规格。 计算节点个数:1个。 永久保存日志:打开。 作业日志路径:设置为OBS中存放训练日志的路径。例如:“o
FullAccess权限和ModelArts CommonOperations权限只能二选一,不能同时选。 选择说明如下: ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子账号配置此权限。 如果需要给子账号开通专属资源池的创建、
Code连接实例时,发现VS Code端的实例目录和云上目录不匹配 问题现象 用户使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配。 原因分析 实例连接错误,可能是配置文件写的不规范导致连接到别的实例。 解决方案 检查用户.ssh配置文件(路径一般在“C:\Users\{User}\
dir”安装到“site-package”中才能运行。但是在ModelArts可以将“project_dir”加入到“sys.path”中解决该问题。 使用from module_dir import module_file来导包,代码结构如下: project_dir |- main
义的值。 单击右上角“登录指令”,获取登录访问指令,本文选择复制临时登录指令。 以root用户登录本地环境,输入复制的SWR临时登录指令。 上传镜像至容器镜像服务镜像仓库。 使用docker tag命令给上传镜像打标签。 #region和domain信息请替换为实际值,组织名称d
Finetune训练。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 表1 环境要求 名称 版本 CANN cann_8.0.rc2 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径
String 资源池ID。 type 否 String 资源池类型。 name 否 String 资源池名称。 owner 否 Object 资源池所属的用户信息。如表9所示。 表9 userSpec 参数 是否必选 参数类型 描述 project_id 否 String 该资源所属的项目ID
VS Code连接远端Notebook时报错“XHR failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择
Turbo,并对存储在SFS Turbo中的数据执行编辑操作。 创建Notebook 创建开发环境Notebook实例,具体操作步骤请参考创建Notebook实例。 镜像选择已注册的自定义镜像,资源类型选择创建好的专属资源池,规格推荐选择“Ascend: 8*ascend-snt9b”。 图1 Notebook中选择自定义镜像与规格
次数、LOSS和吞吐数据按照“迭代次数|loss|吞吐”格式记录在日志中,AI Gallery通过环境变量找到日志,从中获取实际数据绘制成“吞吐”和“训练LOSS”曲线,呈现在训练的“指标效果”中。具体请参见查看训练效果。 说明: 日志文件中的迭代次数、LOSS和吞吐数据必须按照
义的值。 单击右上角“登录指令”,获取登录访问指令,本文选择复制临时登录指令。 以root用户登录本地环境,输入复制的SWR临时登录指令。 上传镜像至容器镜像服务镜像仓库。 使用docker tag命令给上传镜像打标签。 #region和domain信息请替换为实际值,组织名称d
本文档适配昇腾云ModelArts 6.3.906版本,请参考获取软件和镜像获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 推理需要单机单卡。 确保容器可以访问公网。 Step1 检查环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。
训练作业日志中提示“No module named .*” 用户请按照以下思路进行逐步排查: 检查依赖包是否存在 检查依赖包路径是否能被识别 检查训练作业使用的资源规格是否正确 建议与总结 检查依赖包是否存在 如果依赖包不存在,您可以使用以下两种方式完成依赖包的安装。 方式一(推荐使用):在创建我的算