检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Notebook等线上开发工具工程化开发体验不如IDE,但是本地开发服务器等资源有限,运行和调试环境大多使用团队公共搭建的CPU或GPU服务器,并且是多人共用,这带来一定的环境搭建和维护成本。因此使用本地IDE+远程Notebook结合的方式,可以同时享受IDE工程化开发和云上资源的即开即用,优势互补,满足开发者需求。
训练作业运行失败,日志中出现如下类似报错: [Modelarts Service Log]Training end with return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里的退出码是用户的训练作业代码返回的。常见的错误码还包括247、139等。
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in
retCode=0x91, [the model stream execute failed] 原因分析 出现该问题的可能原因如下: 数据读入的速度跟不上模型迭代的速度。 处理方法 减少预处理shuffle操作。 dataset = dataset.shuffle(buffer_size=x)
--loopCount=100 图1 调优前模型 图2 调优后模型 AOE优化成功的mindir已经融合了优化的知识库,是一个独立可用的模型。即使AOE知识库删除,不影响该mindir的性能。可以备份这个模型优化产生的知识库,以后需要的话再使用。 父主题: 性能调优
eway”开头的最新日志文件,搜索“Starting kernel”附近的日志。若看到如下类似的堆栈,可看到是因为用户工作目录下的“code.py”和创建kernel依赖的import code文件名冲突: 重命名当前工作目录下和创建kernel依赖的库文件冲突的文件名称。 常见容易冲突的文件:code
gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing. Found secret key 原因分析 这是TensorFlow-1.8中会出现的情况,该日志是Info级别的,并不是错误信息,可以通过设
数据,客户端有不同的实现,同一种语言也存在不同的lib包的实现,这里不考虑实现的不同种类。 客户端发送的内容在协议的角度不限定格式,Postman支持Text/Json/XML/HTML/Binary,以text为例,在输入框中输入要发送的文本,单击右侧中部的Send按钮即可将请
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “Runtim
在线服务预测报错DL.0105,报错日志:“TypeError:‘float’object is not subscriptable”。 原因分析 根据报错日志分析,是因为一个float数据被当做对象下标访问了。 处理方法 将模型推理代码中的x[0][i]修改为x[i],重新部署服务进行预测。
保了模型权重的功能性和准确性后,才可以进行模型权重的滚动升级。 获取待更新的模型权重文件,并上传到OBS桶中。 参考创建我的模型,用待更新的模型权重文件新建一个我的模型。关键参数请参见表1。 表1 创建模型的关键参数说明 参数 说明 来源模型 选择和待升级的模型服务的“部署模型”同一个模型框架。
在SWR服务页面创建镜像组织。 图2 创建镜像组织 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3 复制登录指令 修改并上传镜像。 在ECS中输入上一步的登录指令后,使用下列示例命令: docker tag {image_url}
管理我的服务 修改MaaS模型服务 更新MaaS模型服务的模型权重
单个弹性公网IP用于单个Server服务器:为单台Server服务器绑定一个弹性公网IP,该Server服务器独享网络资源。 单个弹性公网IP用于多个Server服务器:一个VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有Server服务器均可以通过该E
请检查推理代码是否存在内存溢出或者内存泄漏的问题。 模型运行异常。 请检查您的模型是否能正常运行。例如模型依赖的资源是否故障,需要排查推理日志。 实例pod数量异常 。 如果您曾经找过运维人员删除过异常的实例pod,事件中可能会出现告警“服务异常,不正常的实例数为XXX”。在出现这种告警后,服务会自动拉起新的正常实
查看在线服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件
label_map.pbtxt.”。 如果使用的是AI Gallery订阅的算法,建议先检查数据的标签是否有问题。 如果使用的是物体检测类算法,建议检查数据的label框是否为非矩形。 物体检测类算法仅支持矩形label框。 查看训练作业的“日志”,出现报错“RuntimeError:
VPC下创建弹性云服务器 登录弹性云服务器ECS控制台,单击右上角“购买弹性云服务器”,进入购买弹性云服务器页面,完成基本配置后单击“下一步:网络配置”,进入网络配置页面,选择1中打通的VPC,完成其他参数配置,完成高级配置并确认配置,下发购买弹性云服务器的任务。等待服务器的状态变为
数据,客户端有不同的实现,同一种语言也存在不同的lib包的实现,这里不考虑实现的不同种类。 客户端发送的内容在协议的角度不限定格式,Postman支持Text/Json/XML/HTML/Binary,以text为例,在输入框中输入要发送的文本,单击右侧中部的Send按钮即可将请
本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1