-
数据去冗余 - AI开发平台ModelArts
数据去冗余 RRD算子概述 可以依据用户设置的比例去除差异最大的数据。 图1 RRD效果图 表1 高级参数说明 参数名 是否必选 默认值 参数说明 sample_ratio 否 0.9 数据留下的百分比。取值范围为0~1。例如0.9表示保留百分之90的原数据。 n_clusters
-
在Lite资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts
NPU分布式训练 场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力,在使用NPU的场景下,支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划,进而提升节点之间的通信速度。 本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch
-
训练前卡死 - AI开发平台ModelArts
NCCL_IB_GID_INDEX=3: 使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能丢包,而且后面的交换机不会支持v1,就无法启动。 NCCL_IB_TC=128:数据包走交换机的队列4通道,这是RoCE协议标准。 NCCL_IB_TIMEOUT=22:把超
-
GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 525+CUDA 12.0 - AI开发平台ModelArts
NCCL_IB_GID_INDEX=3 :数据包走交换机的队列4通道,这是RoCE协议标准。 NCCL_IB_TC=128 :使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能丢包,而且后面的交换机不会支持v1,就跑不起来了。 NCCL_ALGO=RING
-
GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA 11.7 - AI开发平台ModelArts
NCCL_IB_GID_INDEX=3 :数据包走交换机的队列4通道,这是RoCE协议标准。 NCCL_IB_TC=128 :使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能丢包,而且后面的交换机不会支持v1,就跑不起来了。 NCCL_ALGO=RING
-
故障恢复 - AI开发平台ModelArts
故障恢复 ModelArts全球基础设施围绕华为云区域和可用区构建。华为云区域提供多个在物理上独立且隔离的可用区,这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设
-
数据选择 - AI开发平台ModelArts
数据选择 数据去重 数据去冗余 父主题: 数据处理预置算子说明
-
配置外网访问(EIP) - AI开发平台ModelArts
弹性公网IP(Elastic IP,简称EIP)提供独立的公网IP资源,包括公网IP地址与公网出口带宽服务。可以与弹性云服务器、裸金属服务器、虚拟IP、弹性负载均衡、NAT网关等资源灵活地绑定及解绑。集群资源绑定EIP后,外网用户可以通过EIP访问集群资源中的k8s master。 图1 外网访问(EIP)
-
ModelBox基本概念 - AI开发平台ModelArts
件的性能、可靠性、安全性等属性。 ModelBox的核心概念 开发者在使用ModelBox前,需要关注的基本核心概念包括:功能单元、流程图、接收数据处理请求和ModelBox执行引擎。 图1 ModelBox核心概念 功能单元 ModelBox将流程图中的顶点称为功能单元(Flo
-
【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 - AI开发平台ModelArts
【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 华为云ModelArts服务MindStudio,ML Studio,ModelBox镜像将在2024年6月30日00:00(北京时间)正式退市。 下线范围 下线Region:华为云全部Region
-
上传镜像 - AI开发平台ModelArts
如果容器引擎客户端机器为云上的ECS或CCE节点,根据机器所在区域有两种网络链路可以选择: 如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。 如果机器与容器镜像仓库不在同一区域,则上传镜像走公网链路,机器需要绑定弹性公网IP。 约束与限制 使用客户端上传镜像,镜像的每个layer大小不能大于10G。
-
数据选择 - AI开发平台ModelArts
个数取类别总数,可指定具体类别数,如 4 do_validation 否 True 是否做数据校验,可填True或者False。表示数据去冗余前需要做数据校验,否则只做数据去重。 输入要求 算子输入分为两种,“数据集”或“OBS目录”。 选择“数据集”,请从下拉框中选择Model
-
推理服务支持虚拟私有云(VPC)直连的高速访问通道 - AI开发平台ModelArts
post(url, data=body) print(response.content) 由于高速通道特性会缺失负载均衡的能力,因此在多实例时需要自主制定负载均衡策略。 父主题: 推理部署
-
访问在线服务(VPC高速访问通道) - AI开发平台ModelArts
post(url, data=body) print(response.content) 由于高速通道特性会缺失负载均衡的能力,因此在多实例时需要自主制定负载均衡策略。 父主题: 访问方式
-
单机多卡数据并行-DataParallel(DP) - AI开发平台ModelArts
代码简单:仅需修改一行代码。 通信瓶颈 :负责reducer的GPU更新模型参数后分发到不同的GPU,因此有较大的通信开销。 GPU负载不均衡:负责reducer的GPU需要负责汇总输出、计算损失和更新权重,因此显存和使用率相比其他GPU都会更高。 代码改造点 模型分发:DataParallel(model)
-
样例介绍 - AI开发平台ModelArts
该样例是一个视频类的ModelBox应用样例,通过读取视频,经过目标检测的模型得到视频中车辆的位置。该样例中“src”目录下预置了视频车辆检测的具体实现,它包含“flowunit”和“graph”两个目录,分别代表功能单元和图。 在基于ModelBox框架的AI应用开发中,AI
-
使用大模型创建AI应用部署在线服务 - AI开发平台ModelArts
生产部署上对平台系统产生了新的要求。例如:导入AI应用管理时,需要支持动态调整租户存储配额;模型加载、启动慢,部署时需要灵活的超时配置;当负载异常重启,模型需要重新加载,服务恢复时间长的问题亟待解决。 为了应对如上诉求,ModelArts推理平台针对性给出解决方案,用于支持大模型场景下的AI应用管理和服务部署。
-
线下容器镜像构建及调试 - AI开发平台ModelArts
Notebook依赖。 推荐使用Dockerfile的方式构建镜像。这样既满足dockerfile可追溯及构建归档的需求,也保证镜像内容无冗余和残留。 每层构建的时候都尽量把tar包等中间态文件删除,保证最终镜像更小,清理缓存的方法可参考:conda clean。 构建参考样例 Dockerfile样例:
-
性能调优五板斧 - AI开发平台ModelArts
后,可尝试运行AOE自动性能调优。 多进程绑核 相比于x86服务器,ARM服务器通常CPU核数更多,但单核性能更弱,因此更容易触发内核的负载均衡策略,该策略是通过启用进程迁移来降低繁忙的处理器压力。进程迁移会导致进程上下文切换、降低Cache命中率和跨numa内存访问等,从而影响训练性能。
-
部署到推理调试 - AI开发平台ModelArts
部署到推理调试 在开发环境容器内调试完成后,开发者可以将自己开发好的AI应用和ModelBox runtime镜像打包成新的运行镜像,并发布到ModelArts推理服务,直接测试部署的服务并查看日志,以确保开发好的AI应用可以在ModelArts推理平台正常运行。具体调试步骤如下: