检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU A系列裸金属服务器如何更换NVIDIA和CUDA? 场景描述 当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA
B中? 在ModelArts的Notebook中如何对OBS的文件重命名? 在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据? 在ModelArts的Notebook中,如何访问其他账号的OBS桶? 在ModelArts的Notebook中JupyterLab默认工作路径是什么?
配置Lite Cluster存储 如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。 容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存
Server资源,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保容器可以访问公网。 步骤一:检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info
推理精度测试 本章节介绍两个精度测评工具。如何使用opencompass工具开展语言模型的推理精度测试,数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen;以及使用lm-eval工具开展语言模型的推理精度测试,数据集包含
在ModelArts上如何创建引用第三方依赖包的训练作业? ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后,在训练启动文件被执行前系统会执行如下命令,以安装用户指定的Python Packages。 pip
ModelArts导入模型时,如何编写模型配置文件中的安装包依赖参数? 问题描述 从OBS中或者从容器镜像中导入模型时,开发者需要编写模型配置文件。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。配置文件为JSON格式。配置文件中的“dep
如何解决训练过程中出现的cudaCheckError错误? 问题现象 Notebook中,运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device
服务部署、启动、升级和修改时,容器健康检查失败如何处理? 问题现象 服务部署、启动、升级和修改时,容器健康检查失败。 原因分析 容器提供的健康检查接口调用失败。容器健康检查接口调用失败,原因可能有两种: 镜像健康检查配置问题 模型健康检查配置问题 解决方法 根据容器日志进行排查,查看健康检查接口失败的具体原因。
保存镜像时报错“too many layers in your image”如何解决? 问题现象 保存镜像时报错“too many layers in your image”。 原因分析 用户创建Notebook时所选用的镜像是经过多次保存的自定义镜像或用户自行注册的镜像,基于该
其可见该资产。 管理模型可用范围 仅当发布模型时,“可用范围”启用“申请用户可用”时,才支持管理模型的可用范围。管理操作包含如何添加可使用资产的新用户、如何审批用户申请使用资产的请求。 添加可使用资产的新用户。 模型发布成功后,如果模型所有者要新增可使用资产的新用户,则可以在模型详情页添加新用户。
如何安装第三方包,安装报错的处理方法 问题现象 ModelArts如何安装自定义库函数,例如“apex”。 ModelArts训练环境安装第三方包时出现如下报错: xxx.whl is not a supported wheel on this platform 原因分析 由于安装的文件名格式不支持,导致出现“xxx
ModelArts部署在线服务时,如何避免自定义预测脚本python依赖包出现冲突? 导入模型时,需同时将对应的推理代码及配置文件放置在模型文件夹下。使用Python编码过程中,推荐采用相对导入方式(Python import)导入自定义包。 如果ModelArts推理框架代码内
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
如何将Keras的.h5格式的模型导入到ModelArts中? ModelArts不支持直接导入“.h5”格式的模型。您可以先将Keras的“.h5”格式转换为TensorFlow的格式,然后再导入ModelArts中。 从Keras转TensorFlow操作指导请参见其官网指导。
credential:访问密钥(AK/SK) content 是 String 授权内容。 当授权类型是委托,该字段为委托名称。 当授权类型是访问密钥,该字段为访问密钥ID(AK)。 secret_key 否 String 秘密访问密钥(SK)。仅当授权类型为访问密钥时,需要该字段。
通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志 问题现象 用户通过OBS导入模型时,选择使用基础镜像,用户自己编写了部分推理代码实现自己的推理逻辑,出现故障后希望通过故障日志排查定位故障原因,但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。
模型转换报错如何查看日志和定位? 通过如下的配置项打开对应的模型转换日志,可以看到更底层的报错。如配置以下的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。
自定义设置的云上开发环境名称。 HostName: 云上开发环境的访问地址,即在开发环境实例页面远程访问模块获取的访问地址。例如:dev-modelarts-cnnorth4.huaweicloud.com Port: 云上开发环境的端口,即在开发环境实例页面远程访问模块获取的端口号。 User:登录用户只支持ma-user进行登录。
文件删除后不可恢复,请谨慎操作。 管理数据集可用范围 仅当发布数据集时,“可用范围”启用“申请用户可用”时,才支持管理数据集的可用范围。管理操作包含如何添加可使用资产的新用户、如何审批用户申请使用资产的请求。 添加可使用资产的新用户。 数据集发布成功后,如果数据集所有者要新增可使用资产的新用户,则可以在数据集详情页添加新用户。