检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
动多卡推理。默认使用"mp"后端启动多卡推理。 推理启动脚本必须名为run_vllm.sh,不可修改其他名称。 hostname和port也必须分别是0.0.0.0和8080不可更改。 高阶参数说明: --enable-prefix-caching:如果prompt的公共前缀较长
日志提示"No CUDA-capable device is detected" 问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’
出现该问题的可能原因是“learning_rate”的参数名称写错了。keras官方文档中说明参数“lr”已重命名为“learning_rate”,在训练代码中必须写成“learning_rate”才能调用成功。keras官方文档请参见https://github.com/keras-team/keras/releases/tag/2
日志提示"write line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下:
导入模型提示模型或镜像大小超过限制 问题现象 在导入模型时,提示模型或镜像大小超过限制。 原因分析 如果使用的是OBS导入或者训练导入,则是基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和超过了限制。 如果使用的是自定义镜像导入,则是解压后镜像和镜像下载文件的大小总和超过了限制。
日志提示“no socket interface found” 问题现象 在pytorch镜像运行分布式作业时,设置NCCL日志级别,代码如下: import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误: job0879f61e-jo
CommonOperations”已生效。 在“服务列表”中选择除ModelArts外(假设当前策略仅包含ModelArts CommonOperations)的任一服务,如果提示权限不足,表示“ModelArts CommonOperations”已生效。 在“服务列表”中选择Mo
日志提示Compile graph failed 问题现象 日志提示:Compile graph failed。 图1 报错提示 原因分析 模型转换时未指定Ascend后端。 处理方法 需要在模型转换阶段指定“--device=Ascend”。 父主题: 常见问题
日志提示“Out of bounds nanosecond timestamp” 问题现象 在使用pandas.to_datetime转换时间时,出现如下报错: pandas._libs.tslibs.np_datetime.OutOfBoundsDatetime: Out of
日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” 问题现象 在pytorch训练时,出现如下报错: RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you
日志提示“RuntimeError: connect() timed out” 问题现象 使用pytorch进行分布式训练时,日志中出现报错“RuntimeError: connect() timed out”。 原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据复制
日志提示“Please set the train_url to an empty obs directory” 问题现象 日志提示“Please set the train_url to an empty obs directory”。 原因分析 对于不支持断点训练的模型,若选
日志提示“ValueError: label_map not match” 问题现象 日志提示“ValueError: label_map not match”,且打印出标签数据,如: ValueError: label_map not match. {1:'apple', 2:'orange'
运行训练作业时提示URL连接超时 问题现象 训练作业在运行时提示URL连接超时,具体报错如下: urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析 由于安全性问题在ModelArts上不能联网下载。
使用pip install提示Read timed out 问题现象 在Notebook实例中,使用pip install时,提示“ReadTimeoutError...”或者“Read timed out...”的错误。 解决办法 建议先尝试使用pip install --upgrade
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
导入模型提示单个模型文件超过5G限制 问题现象 在导入模型时,提示单个模型文件大小超过5G限制。 原因分析 在不使用动态加载的情况下,系统对单个模型文件的限制大小为5G,超过时无法进行导入。 处理方法 精简模型文件后,重新导入。 使用动态加载功能进行导入。 图1 使用动态加载 父主题:
CommonOperations”已生效。 在“服务列表”中选择除ModelArts外(假设当前策略仅包含ModelArts CommonOperations)的任一服务,如果提示权限不足,表示“ModelArts CommonOperations”已生效。 在“服务列表”中选择Mo
日志提示“root: XXX valid number is 0” 问题现象 日志提示“root: XXX valid number is 0”,表示训练集/验证集/测试集的有效样本量为0,例如: INFO: root: Train valid number is 0. INFO:
提示“上传的AK/SK不可用”,如何解决? 问题分析 AK与SK是用户访问OBS时需要使用的密钥对,AK与SK是一一对应,且一个AK唯一对应一个用户。如提示不可用,可能是由于账号欠费或AK与SK不正确等原因。 解决方案 使用当前账号登录OBS管理控制台,确认当前账号是否能访问OBS。