检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业日志中提示“No such file or directory” 问题现象 训练作业运行失败,日志中提示“No such file or directory”。 例如:找不到训练输入的数据路径时,会提示“No such file or directory”。 例如:找不到训练启动文件时,也会提示“No
to instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书,且提示信息除标题外,都是乱码。选择证书后,如上图所示仍然没有反应且无法进行连接。 原因分析 当前环境未装OpenSSH或者OpenSSH未安装在默认路径下,详情请参考VS
ModelArts中提示OBS路径错误 问题现象 在ModelArts中引用OBS桶路径时,提示找不到用户创建的OBS桶或提示ModelArts.2791:非法的OBS路径。 在对OBS桶操作时,出现Error: stat:403错误。 Notebook中下载OBS文件时提示Permission
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另
日志提示“label_map.pbtxt cannot be found” 问题现象 使用目标检测算法训练时,训练作业日志运行出现如下报错:ERROR:root:label_map.pbtxt cannot be found. It will take a long time to
_vllm.sh及SSL证书。此处以chatglm3-6b为例。 ascend_vllm代码包在Step9 构建推理代码已生成。 模型权重文件获取地址请参见表1。 推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。 SSL证书制作包含cert.pem和key
日志提示“errorMessage:The specified key does not exist” 问题现象 在用moxing访问OBS路径时,出现如下错误: ERROR:root: stat:404 errorCode:NoSuchKey errorMessage:The specified
导入模型提示该账号受限或者没有操作权限 问题现象 在导入AI应用时,提示用户账号受限。 原因分析 提示用户账号受限,常见原因有如下几种: 导入模型账号欠费导致被冻结; 导入模型账号没有对应工作空间的权限; 导入模型账号为子账号,主账号没有给子账号赋予模型相关权限。 权限说明请参见:策略及授权项说明;
日志提示“No module name 'unidecode'” 问题现象 从mindspore开源gitee中master分支下载的tacotron2模型,修改配置文件后上传ModelArts准备训练,日志报错提示:No module name 'unidecode'。 原因分析
日志提示“No space left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未
推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。 SSL证书制作包含cert.pem和key.pem,需自行生成。生成方式请参见•通过openssl创建SSLpem证书。 图1 准备模型文件和权重文件 创建推理脚本文件run_vllm.sh run_vllm
推理启动脚本run_vllm.sh制作请参见下文创建推理脚本文件run_vllm.sh的介绍。 SSL证书制作包含cert.pem和key.pem,需自行生成。生成方式请参见•通过openssl创建SSLpem证书。 图1 准备模型文件和权重文件 创建推理脚本文件run_vllm.sh run_vllm
${MA_VJ_NAME}:6666替换。 分析代码中是否存在并发读写同一文件的逻辑,如有则进行修改。 如用户使用多卡的作业,那么可能每张卡都会有同样的读写数据的代码,可参考如下代码修改。 import moxing as mox from mindspore.communication
推理启动脚本run_vllm.sh制作请参见下文创建推理脚本文件run_vllm.sh的介绍。 SSL证书制作包含cert.pem和key.pem,需自行生成。生成方式请参见•通过openssl创建SSLpem证书。 图1 准备模型文件和权重文件 创建推理脚本文件run_vllm.sh run_vllm
推理启动脚本run_vllm.sh制作请参见下文创建推理脚本文件run_vllm.sh的介绍。 SSL证书制作包含cert.pem和key.pem,需自行生成。生成方式请参见•通过openssl创建SSLpem证书。 图1 准备模型文件和权重文件 创建推理脚本文件run_vllm.sh run_vllm
Notebook提示磁盘空间已满 问题现象 在使用Notebook时,提示磁盘空间已满:No Space left on Device。 在Notebook执行代码时,出现如下报错,提示:Disk quota exceeded。 原因分析 在JupyterLab浏览器左侧导航删除
训练作业访问OBS时,日志提示“stat:403 reason:Forbidden” 问题现象 训练作业访问OBS时,出现如下报错: ERROR:root:Failed to call: func= <bound method ObsClient.getObjectMetadata
推理启动脚本run_vllm.sh制作请参见下文创建推理脚本文件run_vllm.sh的介绍。 SSL证书制作包含cert.pem和key.pem,需自行生成。生成方式请参见•通过openssl创建SSLpem证书。 图1 准备模型文件和权重文件 创建推理脚本文件run_vllm.sh run_vllm
导入模型后部署服务,提示磁盘不足 问题现象 用户在导入模型后,部署服务时,提示磁盘空间不足:“No space left on device”。 原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” 问题现象 代码在Notebook的keras镜像中可以正常运行,在训练模块使用tensorflow.keras训练报错时,出现如下报错:AttributeError: