检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
根据环境ID修改环境 功能介绍 此API用于通过环境ID修改环境。 调试 您可以在API Explorer中调试该接口。 URI PUT /v3/{project_id}/cas/environments/{environment_id} 表1 路径参数 参数 是否必选 参数类型
添加组件环境变量 组件环境变量概述 环境变量是组件运行环境中设定的一个变量,可以在组件部署后升级单个组件版本配置时修改,为应用提供极大的灵活性。 应用组件下设置的环境变量,属于局部环境变量,仅对该应用组件起作用。 如果您在该组件所在的应用下添加了应用环境变量,且应用环境变量的变量
设置容器部署组件性能管理 性能管理可协助您快速进行问题定位与性能瓶颈分析,改善体验。勾选探针会启用性能管理服务并在节点上安装探针,产生少量资源消耗。Java探针通过字节码增强技术进行Java应用调用埋点,生成拓扑和调用链数据。 您可以根据实际业务需要,在设置组件“高级配置”时为容器部署方式部署的组件设置性能管理。
微服务治理 概述 治理微服务 父主题: 使用微服务引擎
更换泳道组目标服务 根据实际业务需要,您可以更换泳道组目标服务。 前提条件 待操作泳道组已创建成功并关联流量入口网关,请参考创建泳道组。 更换泳道组目标服务 登录ServiceStage控制台。 单击“全链路流量控制”。 单击待操作泳道组名称,进入“全链路流量控制”页面。 单击泳
基线化基线泳道组件 基线化基线泳道组件的目的是为了升级基线泳道组件到基线版本。根据实际业务需要,您可以通过以下两种方式基线化基线泳道组件: 将已经在灰度泳道得到验证的灰度组件通过组件基线化去升级基线泳道组件,将灰度组件的软件包配置、高级设置等同步给基线泳道组件。 直接通过升级基线泳道组件来基线化基线泳道组件。
回滚基线泳道组件 已经在灰度泳道验证通过的灰度组件通过组件基线化升级了基线泳道同名组件后,根据实际业务需要,您可以将基线泳道组件版本配置回滚到最近一次基线化前的版本。 回滚后无法恢复。 前提条件 基线泳道组件已完成基线化升级,请参考基线化基线泳道组件。 回滚基线泳道组件 登录ServiceStage控制台。
基于AIGC模型的GPU推理业务迁移至昇腾指导 场景介绍 迁移环境准备 pipeline应用准备 应用迁移 迁移效果校验 模型精度调优 性能调优 常见问题 父主题: GPU业务迁移至昇腾训练推理
常见问题 MindSpore Lite问题定位指南 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)
运行训练代码,出现dead kernel,并导致实例崩溃 在Notebook实例中运行训练代码,如果数据量太大或者训练层数太多,亦或者其他原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。 出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。
如何处理使用opencv.imshow造成的内核崩溃? 问题现象 当在Notebook中使用opencv.imshow后,会造成Notebook崩溃。 原因分析 opencv的cv2.imshow在jupyter这样的client/server环境下存在问题。 而matplotlib不存在这个问题。
在Notebook中使用tensorboard命令打开日志文件报错Permission denied 问题现象 在Notebook的Terminal中执行tensorboard --logdir ./命令,报错[Errno 13] Permission denied……。 原因分析
TensorFlow-1.8作业连接OBS时反复出现提示错误 问题现象 基于TensorFlow-1.8启动训练作业,并在代码中使用“tf.gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing
创建训练作业提示错误码ModelArts.2763 问题现象 创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。
日志提示“Please set the train_url to an empty obs directory” 问题现象 日志提示“Please set the train_url to an empty obs directory”。 原因分析 对于不支持断点训练的模型,如果
PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象 在使用PyTorch1.0镜像时,必现如下报错: “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch的冲突,具体可参看文档。
训练作业的日志出现detect failed(昇腾预检失败) 问题现象 训练启动的日志出现如下相关错误: time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)