检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设备孪生更新结果 订阅设备孪生更新结果。 Topic $hw/events/device/{device_id}/twin/update/result 参数 类型 说明 device_id String 终端设备ID 使用方式 使用MQTT客户端订阅该Topic,与设备孪生更新配对使用。
ModelArts的自定义镜像软件版本匹配有哪些注意事项? 如果您的自定义镜像涉及NCCL、CUDA、OFED等软件库,当您制作自定义镜像时,您需要确保镜像中的软件库和ModelArts的软件库相匹配。您镜像中的软件版本需要满足以下要求: NCCL版本 ≥ 2.7.8。 OFED版本
配置编排任务流程 概述 编排任务,通过可视化UI界面来创建任务,以降低不同经验背景用户的开发门槛。编排任务主要支持以下功能: 通过一个处理器节点实现一个数据源到N个目标端的采集,能够完成1:N场景的数据采集。 任务配置采用拖拽节点的方式实现参数配置,简化流程。 编排模式的数据转换
运行训练代码,出现dead kernel,并导致实例崩溃 在Notebook实例中运行训练代码,如果数据量太大或者训练层数太多,亦或者其他原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。 出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。
如何处理使用opencv.imshow造成的内核崩溃? 问题现象 当在Notebook中使用opencv.imshow后,会造成Notebook崩溃。 原因分析 opencv的cv2.imshow在jupyter这样的client/server环境下存在问题。 而matplotlib不存在这个问题。
TensorFlow-1.8作业连接OBS时反复出现提示错误 问题现象 基于TensorFlow-1.8启动训练作业,并在代码中使用“tf.gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing
创建训练作业提示错误码ModelArts.2763 问题现象 创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。
日志提示“Please set the train_url to an empty obs directory” 问题现象 日志提示“Please set the train_url to an empty obs directory”。 原因分析 对于不支持断点训练的模型,如果
PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象 在使用PyTorch1.0镜像时,必现如下报错: “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch的冲突,具体可参看文档。
训练作业的日志出现detect failed(昇腾预检失败) 问题现象 训练启动的日志出现如下相关错误: time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed
回滚基线泳道组件 已经在灰度泳道验证通过的灰度组件通过组件基线化升级了基线泳道同名组件后,根据实际业务需要,您可以将基线泳道组件版本配置回滚到最近一次基线化前的版本。 回滚后无法恢复。 前提条件 基线泳道组件已完成基线化升级,请参考基线化基线泳道组件。 回滚基线泳道组件 登录ServiceStage控制台。
修改灰度泳道名称标签 灰度泳道创建完成后,您可根据实际业务需要修改泳道的名称、标签。 前提条件 已创建灰度泳道,请参考创建灰度泳道。 灰度泳道下不存在组件。若存在,需全部删除,请参考删除组件。 修改灰度泳道名称标签 登录ServiceStage控制台。 单击“全链路流量控制”。
设置无条件自动重启 背景信息 训练过程中可能会碰到预期外的情况导致训练失败,且无法及时重启训练作业,导致训练周期长,而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算
训练日志失败分析 在ModelArts Standard中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能,如果训练作业运行失败,ModelArts会自动识别导致作业失败的原因
n"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务 在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数: --kv-cache-dtype int8 #只支持int8,表示kvint8量化 --qua
n"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务 在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数: --kv-cache-dtype int8 #只支持int8,表示kvint8量化 --qua
n"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务 在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数: --kv-cache-dtype int8 #只支持int8,表示kvint8量化 --qua
描述 Content-Type 是 String 消息体的类型(格式),默认取值为“application/json” X-Auth-Token 是 String 用户Token。 通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 ief-instance-id
密码的,所以要配置登录配置密码。本指南需要设置root和admin密码,先配置账户admin密码,再配置账户root密码,admin账户做平台调测使用,root账户后台调测使用,本次项目不涉及root登录操作。 图1 通过云账号访问边缘节点 需要重新登录admin账户并输入密码:
|"/”,不得超过256个字符。 Boot文件路径 输入标注脚本启动文件的路径,该路径为启动文件在脚本中的相对路径。 如果启动文件“xxx.py”位于脚本的一级目录下,则路径为“xxx.py”,文本框内只需输入“xxx”。 如果启动文件“xxx.py”位于脚本的二级目录下,则路径为“xxx/xxx