检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
出管道的具体信息。实例中“inputs”中“remote”下的“obs_url”表示从OBS桶中选择训练数据的OBS路径。实例中“outputs”中“remote”下的“obs_url”表示上传训练输出至指定OBS路径。 “spec”字段下的“flavor_id”表示训练作业所依
服务部署、启动、升级和修改时,镜像不断重启如何处理? 问题现象 服务部署、启动、升级和修改时,镜像不断重启。 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建模型,部署服务。 父主题: 服务部署
问题现象 使用Conda安装Keras 2.3.1版本报错。 原因分析 可能是Conda网络不通,请使用pip install命令安装。 解决方法 执行 !pip install keras==2.3.1命令安装Keras。 父主题: 环境配置故障
能正常打开创建页面,即可正常使用ModelArts。 验证OBS权限。 在左上角的服务列表中,选择OBS服务,进入OBS管理控制台。 在OBS管理控制台,单击右上角的“创建桶”,如果能正常打开页面,表示当前用户具备OBS的操作权限。 验证SWR权限。 在左上角的服务列表中,选择SWR服务,进入SWR管理控制台。
String 数据集输出位置,用于存放输出的标注信息等文件。此位置为OBS路径,格式为“/桶名称/文件路径”。例如:“/obs-bucket”。 work_path_type Integer 数据集输出路径类型。默认值为0,表示OBS桶。 workforce_descriptor WorkforceDescriptor
问题现象 AI Gallery中的YOLOv5算法,训练结束后没有显示模型评估结果。 原因分析 未标注的图片过多,导致没有模型评估结果。 处理方法 对所有训练数据进行标注。 父主题: 预置算法运行故障
killed by signal: Killed BP。 原因分析 由于batch size过大,导致Dataloader进程退出。 处理方法 请调小batch size的数值。 父主题: 业务代码问题
使用AWQ或SQ压缩后的模型新增版本时,开启权重校验功能,权重校验失败。 原因分析 平台暂不支持压缩后的模型进行权重校验。 问题影响 压缩后的模型无法使用权重检验。 处理方法 模型压缩后,不建议进行权重校验。 父主题: Studio
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 问题现象 服务部署、启动、升级和修改时,拉取镜像失败。 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
Code自动升级后,导致远程连接时间过长 问题现象 原因分析 由于VS Code自动升级,导致连接时需要重新下载新版vscode-server。 解决方法 禁止VS Code自动升级。单击左下角选择Settings项,搜索Update: Mode,将其设置为none。 图1 打开Settings
在过往性能调优场景中,如果性能profiling数据在OBS上,通常需要将TB或者GB级别的profiling数据下载至本地后才能使用msprof-analyze进行分析,大量数据的下载耗时以及对本地大规格存储盘的要求容易导致分析受阻。为了能自动串联高性能挂载OBS至ModelArts环境和mspr
在导入模型时,提示单个模型文件大小超过5G限制。 原因分析 在不使用动态加载的情况下,系统对单个模型文件的限制大小为5G,超过时无法进行导入。 处理方法 精简模型文件后,重新导入。 使用动态加载功能进行导入。 图1 使用动态加载 父主题: 模型管理
or: No module named xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__.py”存在,创建“module_dir”的“__init__
参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述
果能正常打开页面,表示当前用户具备DEW的操作权限。 验证OBS权限。 在左上角的服务列表中,选择OBS服务,进入OBS管理控制台。 在OBS管理控制台,单击右上角的“创建桶”,如果能正常打开页面,表示当前用户具备OBS的操作权限。 验证SWR权限。 在左上角的服务列表中,选择SWR服务,进入SWR管理控制台。
scp"超过10分钟以上,如何解决? 问题现象 原因分析 通过查看日志发现本地vscode-scp-done.flag显示成功上传,但远端未接收到。 解决方法 关闭VS Code所有窗口后,回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 父主题: VS Code连接开发环境失败故障处理
在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。 解决方法 关掉插件然后重新保存。 减少文件大小。 重新打开jupyter页面。 请检查网络。 父主题: 环境配置故障
computation. 原因分析 分布式Tensorflow不能使用“tf.variable”要使用“tf.get_variable”。 处理方法 请您将“启动文件”中的“tf.variable”替换为“tf.get_variable”。 父主题: 业务代码问题
用户创建Notebook时所选用的镜像是经过多次保存的自定义镜像或用户自行注册的镜像,基于该镜像所创建的Notebook已经无法再执行镜像保存的操作了。 解决方法 使用公共镜像或其他的自定义镜像来创建Notebook,完成镜像保存操作。 父主题: 自定义镜像故障
image、debug image, build image in Notebook. obs-copy Copy file or directory between OBS and local path. ma-job ModelArts