-
OBS拷贝过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts
在大规模分布式作业上,每个节点都在拷贝同一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮询,导致一个OBS Clinet与服务端连接30S内无响应,超过超时时间,服务端断开了连接。 处理方法 如果是限流问题,日志中还会有如下错误,OBS相关的错误码解释请参见OBS官方文档,这种情况建议提工单。
-
推理性能测试 - AI开发平台ModelArts
性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐
-
推理性能测试 - AI开发平台ModelArts
性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐
-
使用SFS盘出现报错rpc - AI开发平台ModelArts
将数据放在SFS盘中, 并发建立多个NFS链接、并发的读写数据、做大模型训练。 但有时候会出现读取速度变慢的现象,并且SFS提示报错"rpc_check_timeout:939 callbacks suppressed"。 原因分析 根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户
-
部署到推理调试 - AI开发平台ModelArts
部署到推理调试 在开发环境容器内调试完成后,开发者可以将自己开发好的AI应用和ModelBox runtime镜像打包成新的运行镜像,并发布到ModelArts推理服务,直接测试部署的服务并查看日志,以确保开发好的AI应用可以在ModelArts推理平台正常运行。具体调试步骤如下:
-
ModelBox基本概念 - AI开发平台ModelArts
加速卡等复杂的API使用 多线程并发互斥 多种开发语言的配合 应用性能,质量不满足要求 服务化上线复杂 ModelBox的目标就是解决AI开发者在开发AI应用时的编程复杂度,降低AI应用的开发难度,将复杂的数据处理、并发互斥、多设备协同、组件复用、数据通信等部分交由ModelBox处理,开发者主
-
推理性能测试 - AI开发平台ModelArts
性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐
-
拷贝数据至容器中空间不足 - AI开发平台ModelArts
处理方法 请排查是否将数据下载至“/cache”目录下,GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。并确认该目录下并发创建的文件数量是否过大,占用过多存储空间会出现inode耗尽的情况,导致空间不足。 请排查是否使用的是GPU资源。如果使用的是CPU规格的
-
算法开发套件简介 - AI开发平台ModelArts
manage.py deploy --launch_remote命令提交远程部署任务。 - 模块化设计:用户可基于算法框架规范构建自定义的算法资产并发布到ModelArts。 算法开发套件还支持用户在Notebook中用Python API进行交互式、参数化、低代码的开发方式快速完成算法
-
模型部署 - AI开发平台ModelArts
和各种场景上,并且还为个人开发者、企业和设备生产厂商提供了一整套安全可靠的一站式部署方式。 图1 部署模型的流程 在线推理服务,可以实现高并发,低延时,弹性伸缩,并且支持多模型灰度发布、A/B测试。 支持各种部署场景,既能部署为云端的在线推理服务和批量推理任务,也能部署到端,边等各种设备。
-
配置外网访问(EIP) - AI开发平台ModelArts
弹性公网IP(Elastic IP,简称EIP)提供独立的公网IP资源,包括公网IP地址与公网出口带宽服务。可以与弹性云服务器、裸金属服务器、虚拟IP、弹性负载均衡、NAT网关等资源灵活地绑定及解绑。集群资源绑定EIP后,外网用户可以通过EIP访问集群资源中的k8s master。 图1 外网访问(EIP)
-
日志提示"Permission denied" - AI开发平台ModelArts
可能原因是用户使用的启动脚本为旧版本的run_train.sh,脚本里面有某些环境变量在新版本下发的作业中并不存在这些环境变量导致。 可能原因是使用Python file接口并发读写同一文件。 处理方法 对挂载盘的数据加权限,可以改为与训练容器内相同的用户组(1000),假如/nas盘是挂载路径,执行如下代码。 chown
-
在线服务预测报错ModelArts.4206 - AI开发平台ModelArts
限制,同时为了保证推理服务可以稳定运行在合理区间,ModelArts将限流值设定在一个较高区间。 处理办法 降低API的流量,如果确有超高并发的需求,请提工单处理。 父主题: 服务预测
-
服务预测请求体大小限制是多少? - AI开发平台ModelArts
console的预测页签进行的预测,由于console的网络链路的不同,此时要求请求体的大小不超过8MB。 处理方法 尽量避免请求体大小超限; 如果有高并发的大流量推理请求,请提工单联系专业服务支持。 建议与总结 无 父主题: 功能咨询
-
【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 - AI开发平台ModelArts
【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 华为云ModelArts服务MindStudio,ML Studio,ModelBox镜像将在2024年6月30日00:00(北京时间)正式退市。 下线范围 下线Region:华为云全部Region
-
多机多卡数据并行-DistributedDataParallel(DDP) - AI开发平台ModelArts
多机多卡数据并行训练 DistributedDataParallel进行多机多卡训练的优缺点 通信更快:相比于DP,通信速度更快 负载相对均衡:相比于DP,GPU负载相对更均衡 运行速度快:因为通信时间更短,效率更高,能更快速的完成训练任务 代码改造点 引入多进程启动机制:初始化进程 引入几个
-
推理服务支持虚拟私有云(VPC)直连的高速访问通道 - AI开发平台ModelArts
使用VPC直连的高速访问通道,用户的业务请求不需要经过推理平台,而是直接经VPC对等连接发送到实例处理,访问速度更快。 由于请求不经过推理平台,所以会丢失以下功能: 认证鉴权 流量按配置分发 负载均衡 告警、监控和统计 图1 VPC直连的高速访问通道示意图 准备工作 使用专属资源池部署在线服务,服务状态为“运行中”。
-
与其他服务的关系 - AI开发平台ModelArts
与云容器引擎的关系 ModelArts使用云容器引擎(Cloud Container Engine,简称CCE)部署模型为在线服务,支持服务的高并发和弹性伸缩需求。CCE的更多信息请参见《云容器引擎用户指南》。 与容器镜像服务的关系 当使用ModelArts不支持的AI框架构建模型时,
-
ModelArts与其他服务的关系 - AI开发平台ModelArts
与云容器引擎的关系 ModelArts使用云容器引擎(Cloud Container Engine,简称CCE)部署模型为在线服务,支持服务的高并发和弹性伸缩需求。CCE的更多信息请参见《云容器引擎用户指南》。 与容器镜像服务的关系 当使用ModelArts不支持的AI框架构建模型时,
-
访问在线服务(VPC高速访问通道) - AI开发平台ModelArts
使用VPC直连的高速访问通道,用户的业务请求不需要经过推理平台,而是直接经VPC对等连接发送到实例处理,访问速度更快。 由于请求不经过推理平台,所以会丢失以下功能: 认证鉴权 流量按配置分发 负载均衡 告警、监控和统计 图1 VPC直连的高速访问通道示意图 准备工作 使用专属资源池部署在线服务,服务状态为“运行中”。