检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AI Gallery下载数据到OBS中使用的带宽是用户自己的还是华为云的? AI Gallery下载数据到OBS中使用的带宽是华为云的。 父主题: AI Gallery
设置在线服务故障自动重启 场景描述 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 约束限制 仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。
租户不可见域名:指华为云服务在内网相互调用使用的域名,外部用户无法访问到对应的权威DNS服务器;或者Internet受限访问域名,只允许华为办公网络黄&绿区华为员工及合作方或外包人员访问的域名。 华为云基础域名安全使用,避免直接为租户分配基础域名。 华为云服务在内网互相调用使用的域名,避免使用外部已备案域名。
API网关地址环境变量 作业元信息环境变量 约束限制 为了避免新设置的环境变量与系统环境变量冲突,而引起作业运行异常或失败,请在定义自定义环境变量时,不要使用“MA_”开头的名称。 如何修改环境变量 用户可以在创建训练作业页面增加新的环境变量,也可以设置新的取值覆盖当前训练容器中预置的环境变量值。
VS Code中设置远端默认安装的插件 在VS Code的配置文件settings.json中添加remote.SSH.defaultExtensions参数,如自动安装Python和Maven插件,可配置如下。 "remote.SSH.defaultExtensions": [
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expa
ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错 问题现象 ModelArts SDK在OBS下载文件时,目标路径设置为文件名,在本地IDE运行不报错,部署为在线服务时报错。 代码如下: session.obs.download_file(obs_path,
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expa
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expa
公共参数 状态码 错误码 获取项目ID和名称 获取帐号名和帐号ID 获取用户名和用户ID
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expa
Standard功能介绍 Standard自动学习 Standard Workflow Standard数据管理 Standard开发环境 Standard模型训练 Standard模型部署 Standard资源管理 Standard支持的AI框架 父主题: 功能介绍
AI引擎Scikit_Learn0.18.1的运行环境怎么设置? 在ModelArts的算法管理页面,创建算法时勾选“显示旧版镜像”,选择XGBoost-Sklearn引擎即可。 ModelArts创建算法操作请参见创建算法。 ModelArts创建训练作业操作请参见创建训练作业。
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
自动学习中偏好设置的各参数训练速度大概是多少 偏好设置中: performance_first:性能优先,训练时间较短,模型较小。对于TXT、图片类训练速度为10毫秒。 balance:平衡 。对于TXT、图片类训练速度为14毫秒 。 accuracy_first:精度优先,训练
弹性集群Cluster”,进入“Standard资源池”页面。 在资源池列表中,选择某个资源池右侧操作列的“ > 设置作业类型”。 在“设置作业类型”弹窗中,选择需要设置的作业类型。 图1 设置作业类型 设置完成后,单击“确定”,启用作业类型。 父主题: 管理Standard专属资源池
GPU业务迁移至昇腾训练推理 ModelArts昇腾迁移调优工具总览 基于LLM模型的GPU训练业务迁移至昇腾指导 GPU训练业务迁移至昇腾的通用指导 基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导 基于advisor的昇腾训练性能自助调优指导
最小长度,可以根据实际需求设置。 --max-input:输入tokens最大长度,可以根据实际需求设置。 --avg-input:输入tokens长度平均值,可以根据实际需求设置。 --std-input:输入tokens长度方差,可以根据实际需求设置。 --min-outpu
最小长度,可以根据实际需求设置。 --max-input:输入tokens最大长度,可以根据实际需求设置。 --avg-input:输入tokens长度平均值,可以根据实际需求设置。 --std-input:输入tokens长度方差,可以根据实际需求设置。 --min-outpu
在调用指南页签中显示的调用地址都是华为云APIG(API网关服务)的地址。调用发起方的客户端和华为云网络不通。 处理方法 如果客户端位于华为云网络之外,保证客户端所处的网络环境可以连接Internet; 如果客户端位于华为云网络内,默认的网络配置即可以访问通这个地址,避免设置特殊的网络配置,例如防火墙规则等。