-
PyTorch迁移精度调优 - AI开发平台ModelArts
体思路和借助工具如何进行精度问题的定位。 精度调优总体思路 一般场景的训练模型都是包括随机种子、数据集shffule、网络结构dropout等操作的,目的是在网络训练阶段引入一定的随机性使得训练结果更加具有鲁棒性。然而在精度诊断或者对齐阶段需要暂时关闭这些随机特性,使得需要对齐的
-
ModelArts与DLS服务的区别? - AI开发平台ModelArts
ModelArts与DLS服务的区别? 深度学习服务(DLS)是基于华为云强大高性能计算提供的一站式深度学习平台服务,内置大量优化的网络模型,以便捷、高效的方式帮助用户轻松使用深度学习技术,通过灵活调度按需服务化方式提供模型训练与评估。 但是,DLS服务仅提供深度学习技术,而Mo
-
工作空间迁移 - AI开发平台ModelArts
空间”,单击“确定”。 图1 工作空间迁移 网络工作空间迁移 登录ModelArts管理控制台,选择“专属资源池 > 弹性集群”,切换到“网络”页签。 在网络列表中,选择目标网络“操作 > 更多 > 工作空间迁移”。 在弹出的“迁移网络”中,选择要迁移的“目标工作空间”,单击“确定”。
-
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts
创建训练作业界面无云存储名称和挂载路径排查思路 问题现象 创建训练作业界面没有云存储名称和挂载路径这两个选项。 原因分析 用户的专属资源池没有进行网络打通,或者用户没有创建过SFS。 处理方法 在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS
-
场景描述 - AI开发平台ModelArts
本文旨在指导如何在Snt9b裸金属服务器上,进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项: 首次装机时需要配置存储、固件、驱动、网络访问等基础内容,这部分配置尽量稳定减少变化。 裸机上的开发形式建议开发者启动独立的Docker容器作为个人开发环境。Snt9b的裸机包含8
-
使用Notebook开发Ascend算子 - AI开发平台ModelArts
使用Notebook开发Ascend算子 概述 训练、推理场景下,使用第三方框架时遇到不支持的算子,需要自己开发;网络调优时,发现一些算子组合性能较低,需重新开发高性能算子替换低性能的算子,此时可以通过VS Code一键连接云上Notebook,使用云上资源,在VS Code端进
-
准备镜像 - AI开发平台ModelArts
PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:C
-
准备镜像 - AI开发平台ModelArts
PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:C
-
Wav2Lip基于DevServer适配PyTorch NPU训练指导(6.3.902) - AI开发平台ModelArts
段语音,输出为一段唇音同步的视频。 Wav2Lip的网络模型总体上分成三块:生成器、判别器和一个预训练好的唇音同步判别模型Pre-trained Lip-sync Expert。 生成器是基于encoder-decoder的网络结构,分别利用2个encoder(speech encoder和identity
-
ModelArts中常用概念 - AI开发平台ModelArts
端-边-云分别指端侧设备、智能边缘设备、公有云。 推理 指按某种策略由已知判断推出新判断的思维过程。人工智能领域下,由机器模拟人类智能,使用构建的神经网络完成推理过程。 在线推理 在线推理是对每一个推理请求同步给出推理结果的在线服务(Web Service)。 批量推理 批量推理是对批量数据进行推理的批量作业。
-
孤立森林[PySpark版] - AI开发平台ModelArts
孤立森林(Isolation Forest),简称为iForest,用于挖掘异常(Anomaly)数据,从数据中找出与其它数据的规律不符合的数据。通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。 输入 参数 子参数 参数说明 inputs dataframe inpu
-
数据集图片无法显示,如何解决? - AI开发平台ModelArts
数据集图片无法显示,如何解决? 问题现象 创建的数据集,在进行标注时无法显示图片,单击单张图片也无法查看。或者数据集中提示图片加载异常。 原因分析 可能由于用户本地网络原因,无法正常访问OBS导致图片无法正常加载。 可能由于没有OBS桶的访问权限导致,请检查数据集输入位置所在的OBS桶,是否具有访问权限。
-
文本词向量 - AI开发平台ModelArts
一个向量,可用来表示词与词之间或句与句之间的关系。该算法基于Skip-gram模型利用词语来预测它的上下文,并表示为向量形式,可应用于社交网络中的推荐系统、文本相似度等场景。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,datafram
-
故障优雅退出 - AI开发平台ModelArts
故障优雅退出 使用场景 随着模型规模和数据集的急剧增长,需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时,会遇到集群中某个芯片、某台服务器故障,导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复,并可以在上一次训练中断的基础上继续训练,而不用从头开始。
-
推理性能测试 - AI开发平台ModelArts
静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求,
-
上传镜像 - AI开发平台ModelArts
的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。 如果容器引擎客户端机器为云上的ECS或CCE节点,根据机器所在区域有两种网络链路可以选择: 如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。 如果机器与容器镜像仓库不在同一区域,则上传镜像走公网链路,机器需要绑定弹性公网IP。
-
推理性能测试 - AI开发平台ModelArts
静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求,
-
配置了合理的服务部署超时时间,服务还是部署失败,无法启动 - AI开发平台ModelArts
在自定义镜像健康检查接口中,用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间,保证容器服务的初始化。 因此,推荐在创建AI应用时配置健康检查,并设置合理的延迟检测时间, 实现实际业务的是否成功的检测,确保服务部署成功。 父主题: 在线服务
-
责任共担 - AI开发平台ModelArts
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
-
访问边缘服务 - AI开发平台ModelArts
访问边缘服务 当边缘服务和边缘节点的状态都处于“运行中”状态,表示边缘服务已在边缘节点成功部署。 您可以通过以下两种方式,在能够访问到边缘节点的网络环境中,对部署在边缘节点上的边缘服务发起预测请求。 方式一:使用图形界面的软件进行预测(以Postman为例) 方式二:使用curl命令发送预测请求