检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CANN:cann_8.0.rc2 PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。
CANN:cann_8.0.rc2 PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。
CANN:cann_8.0.rc2 PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。
如何关闭Mox的warmup 问题现象 训练作业mox的Tensorflow版本在运行的时候,会先执行“50steps” 4次,然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch(warmup),由于网络的参数是随机初始化的,如果一开始就采用较大的学习率会出现数值不稳定的问题,这是使用warm
/usr/local/Ascend /usr/local/Ascend # 设置容器镜像预置环境变量 # 请务必设置 CANN 相关环境变量 # 请务必设置 Ascend Driver 相关环境变量 # 请务必设置 PYTHONUNBUFFERED=1, 以免日志丢失 ENV PATH
在DevServer上部署SD WebUI推理服务 本章节主要介绍如何在ModelArts的DevServer环境上部署Stable Diffusion的WebUI套件,使用NPU卡进行推理。 步骤一 准备环境 请参考DevServer资源开通,购买DevServer资源,并确保
ranktable路由规划是一种用于分布式并行训练中的通信优化能力,在使用NPU的场景下,支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划,进而提升节点之间的通信速度。 本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch NPU分布式训练任务,训练任务默认使用Volcano
不同区域的资源价格可能有差异,请参见华为云服务价格详情。 如何选择可用区? 是否将资源放在同一可用区内,主要取决于您对容灾能力和网络时延的要求。 如果您的应用需要较高的容灾能力,建议您将资源部署在同一区域的不同可用区内。 如果您的应用要求实例之间的网络延时较低,则建议您将资源创建在同一可用区内。
“checkpoint_path”参数。其中“log_dir”参数建议设置为一个新的目录,“checkpoint_path”参数设置为上一次训练结果输出路径,如果是OBS目录,路径填写时建议使用“obs://”开头。 如果标注数据中的标签发生了变化,在运行“mox.run”前先执行如果标签发生变化的操作。
内存不足如何处理? 问题现象 在部署或升级在线服务时,如果部署或升级失败,并且在事件中出现如下类似提示。 图1 内存不足提示样例1 运行中服务出现告警时,在事件中出现建议:内存不足,请增加内存。 图2 内存不足提示样例2 原因分析 部署或升级时出现该提示,可能原因是选择的计算节点
ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错 问题现象 ModelArts SDK在OBS下载文件时,目标路径设置为文件名,在本地IDE运行不报错,部署为在线服务时报错。 代码如下: session.obs.download_file(obs_path,
检测等能力。 安全防护套件覆盖和使用堡垒机,增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件。及时检测主机层、应用层、网络层和数据层的安全入侵行为。 ModelArts服务涉及对互联网开放的Web应用,采用了统一推荐的Web安全组件防
d)net::ERR_ADDRESS_IN_USE。 原因分析 可能是用户本地网络的原因,网速不稳定或者网络配置有问题,均可能导致保存失败。 解决方案 1. 切换为稳定的网络后重试。 2. 初始化网络配置,使用管理员权限启动CMD,输入netsh winsock reset指令,
部署服务如何选择计算节点规格? 部署服务时,用户需要指定节点规格进行服务部署,界面目前显示的节点规格是ModelArts根据用户的AI应用和资源池的节点规格计算得到,用户可以选择ModelArts提供的规格,也可以使用自定义规格(公共资源池不支持)。 计算节点规格主要是根据用户A
数据集如何切分 在发布数据集时,仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。
步骤总览 单机单卡 资源购买: 购买对象存储服务OBS 购买容器镜像服务SWR 创建网络 购买ModelArts专属资源池 基本配置: 权限配置 obsutils安装和配置 (可选)工作空间配置 训练: 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试
使用自定义镜像创建在线服务,如何修改默认端口 当模型配置文件中定义了具体的端口号,例如:8443,创建AI应用没有配置端口(默认端口号为8080),或者配置了其他端口号,均会导致服务部署失败。您需要把AI应用中的端口号配置为8443,才能保证服务部署成功。 修改默认端口号,具体操作如下:
数据集图片无法显示,如何解决? 问题现象 创建的数据集,在进行标注时无法显示图片,单击单张图片也无法查看。或者数据集中提示图片加载异常。 原因分析 可能由于用户本地网络原因,无法正常访问OBS导致图片无法正常加载。 可能由于没有OBS桶的访问权限导致,请检查数据集输入位置所在的OBS桶,是否具有访问权限。
907) 本文档主要介绍如何在ModelArts Lite的DevServer环境中,使用NPU卡训练Wav2Lip模型。本文档中提供的Wav2Lip模型,是在原生Wav2Lip代码基础上适配后的模型,可以用于NPU芯片训练。 Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决? 问题现象 原因分析 网络不通;端口不通。 解决方法 检查实例是否运行。 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请