正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么通过Manifest文件导入失败? 问题现象 针对已发布的数据集,使用此数据集的Manifest文件,重新导入,此时出现导入失败的错误。 原因分析 针对已发布的数据集,其对应的OBS目录下,发生了数据变化,如删除图片,导致此Manifest文件与当前OBS目录下的数据情况不符。使用此
创建训练作业界面无云存储名称和挂载路径排查思路 问题现象 创建训练作业界面没有云存储名称和挂载路径这两个选项。 原因分析 用户的专属资源池没有进行网络打通,或者用户没有创建过SFS。 处理方法 在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS
to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析 根据错误信息判断,报错原因为训练作业运行程序读取不到GPU。 处理方法 根据报错提示,请您排查代码,是否已添加以下配置,设置该程序可见的GPU:
try: IsADirectoryError(21, 'Is a directory'). update products failed! 原因分析 用户代码中设置的目标路径(local_path)有误。 处理方法 需要将local_path路径设置为文件夹且后缀必须以“/”结尾。 父主题:
特权池信息数据显示均为0%如何解决? 问题现象 特权池基本信息页面数据均显示为0%(如CPU使用率、内存使用率、加速卡使用率、加速卡显存使用率)。 原因分析 原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。 处理方法
问题现象 训练过程中出现如下报错: DataFrame.dtypes for data must be int, float or bool 原因分析 出现该问题的可能原因如下: 训练数据中出现了非int、float、bool类型数据。 处理方法 可参考如下代码,将错误列进行转换: from
This could be because of a time skew. Attempting to adjust the signer 原因分析 OBS限制单次上传文件大小为5GB,TensorFlow保存summary可能是本地缓存,在每次触发flush时将该summary文件覆
ERROR:modelarts-downloader.py: Get object key failed: 'Contents' 图1 获取内容失败 原因分析 在创建训练作业时指定的代码目录不存在导致训练失败。 处理方法 请您根据报错原因排查创建训练作业时指定的代码目录,即OBS桶的路径是否正确。有两种方法判断是否存在。
ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法复制至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否将数据下载至“/cache”目录下,GPU规格资源的每个节点会有一个“/cache”
mge,False,Error response from daemon: Cannot pause container xxx”。 原因分析 执行镜像保存时,Notebook中存在状态为D的进程,会导致镜像保存失败。 解决方案 在Terminal里执行ps -aux命令检查进程。
analysis_cache_path String 特征分析的缓存路径。 analysis_status Integer 特征分析任务的当前状态。可选值如下: 0:初始化 1:运行中 2:完成 3:失败 analysis_task_id String 特征分析的任务ID。 annotated_sample_count
已购买专属资源池,但创建Notebook时该资源池不可选择,无法创建Notebook。 提示当前专属资源池未初始化开发环境,请到专属资源池页面初始化开发环境。 原因分析 新购买的专属资源池,需要初始化环境才能用于创建Notebook。 解决方法 请到专属资源池页面初始化开发环境。 进入“专属资源池”页面,单击目标资源池“操作”列的“更多
导入AI应用后部署服务,提示磁盘不足 问题现象 用户在导入AI应用后,部署服务时,提示磁盘空间不足:“No space left on device”。 原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker size大小时,会提示镜像内空间不足。
态为“No Kernel”如何处理? 问题现象 现象:创建Notebook文件后,右上角的Kernel状态为“No Kernel”。 原因分析 可能因为用户工作目录下的code.py和创建kernel依赖的import code文件名称冲突。 解决方案 查看“/home/ma-u
创建AI应用失败,构建日志提示超时“Model image build task timed out”,没有详细构建日志。 图1 模型镜像构建任务超时 原因分析 imagePacker构建镜像有超时时间限制,默认值为30min(各区域可能存在差异)。当模型镜像构建时间太长,构建日志最后未能完成构建
errorCode:NoSuchKey errorMessage:The specified key does not exist. 原因分析 出现该问题的可能原因如下: 桶中的对象不存在,请检查OBS路径中的内容是否存在。具体错误码请参见OBS官方文档。 处理方法 检查OBS路径及内容格式是否正常。
OutOfBoundsDatetime: Out of bounds nanosecond timestamp: 1-01-02 13:20:00 原因分析 出现该问题的可能原因如下: 时间值越界,请参考官方文档。 处理方法 校验时间数据,pandas以纳秒表示时间戳。 最小时间:1677-09-22
RUNTIME(3002)model execute error, retCode=0x91, [the model stream execute failed] 原因分析 出现该问题的可能原因如下: 数据读入的速度跟不上模型迭代的速度。 处理方法 减少预处理shuffle操作。 dataset = dataset
timed out WARNING:root:Retry=9,Wait=0.1, Timestamp = 1567152567.5327423 原因分析 当使用MoXing复制数据不成功,可能原因如下: 源文件不存在。 OBS路径不正确或者是两个OBS路径不在同一个区域。 训练作业空间不足。
用较大的学习率会出现数值不稳定的问题,这是使用warm up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。 原因分析 Tensorflow分布式有多种执行模式,mox会通过4次执行50 step记录执行时间,选择执行时间最少的模型。 处理方法 创建训练作