检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
您所在企业的华为方技术支持。 提示:本文档适用于仅使用OBS对象存储服务(Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,
Cluster存储 如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。 容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存储的基础知识了解
写入到SFS Turbo缓存中,并可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储,从而加速训练场景下加速OBS对象存储中的数据访问 ModelArts Standard模型训练提供便捷的作业管理能力,提升用户模型训练的开发效率
您所在企业的华为方技术支持。 提示:本文档适用于仅使用OBS对象存储服务(Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,
您所在企业的华为方技术支持。 提示:本文档适用于仅使用OBS对象存储服务(Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,
您所在企业的华为方技术支持。 提示:本文档适用于仅使用OBS对象存储服务(Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。
while getting xxx 问题现象 在Notebook中安装依赖包时报错,报错截图如下: 原因分析 pypi源没有这个包或源不可用。 解决方案 使用别的源下载。 pip install -i 源地址 包名 父主题: 环境配置故障
url发送给他人使用,他人无法打开,报错“……lost token or incorrect token……”。 原因分析 原因是由于其他人没有此账号的令牌导致。 解决方案 在此url后面加上Notebook拥有者的token。 父主题: 实例故障
用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决? 问题现象 用户的自定义镜像运行在Notebook里会查到一些额外的pip包。如下图所示,左侧为自定义镜像运行在本地环境,右侧为运行在Notebook里。 可能原因 Notebook自带moxing、m
所有承载ModelArts服务的主机部署了主机安全防护产品。包括不限于华为自研HSS或计算安全平台CSP。 ModelArts服务部署了漏洞扫描服务并自行进行例行扫描,能快速发现漏洞并能及时修复。 ModelArts服务通过统一的安全管控平台对云上资源进行安全运维。 ModelArts服务部署了态势
常见的磁盘空间不足的问题和解决办法 该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完。
'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), mox这个函数怎么定义以变量的形式填写OBS路径? 解决方案 变量定义参考如下示例: input_storage = './test.py' import moxing as mox mox.file
资源池磁盘信息。当服务部署失败,提示磁盘空间不足时,请参考服务部署、启动、升级和修改时,资源不足如何处理? 图2 查看专属资源池磁盘信息 创建模型 使用大模型创建模型,选择从对象存储服务(OBS)中导入,需满足以下参数配置: 采用自定义引擎,开启动态加载 使用大模型要求用户使用自
processes”或“Buildimge,False,Error response from daemon,Cannot pause container xxx”如何解决? 问题现象 在Notebook里保存镜像时报错“there are processes in 'D' status, please check
根据具体报错信息定位到报错的代码行,分析上下文逻辑。 历史SDK包常见的报错如下 服务部署节点运行报错 输入服务相关的参数后,执行报错如下: 解决方案 以上两种常见报错均可通过升级最新的SDK包解决。 父主题: Standard Workflow
出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的,如果没有自动重启,创建一直失败,请确认是否是自定义镜像的问题。 解决方案 排查是否是自定义镜像的问题。 自定义镜像构建完成,在ModelArts镜像管理注册时,“架构”和“类型”需要和源镜像保持一致。 图2 注册镜像
创建训练作业时,输入输出参数的超参目录有的是/work,有的是/ma-user。 图1 目录是/ma-user 图2 目录是/work 解决方案 这是创建训练作业选用的算法有差异导致的。 如果选择的算法是使用旧版镜像创建的,那么创建训练作业时输入输出参数的超参目录就是/work。
“No Kernel”。 原因分析 可能因为用户工作目录下的code.py和创建kernel依赖的import code文件名称冲突。 解决方案 查看“/home/ma-user/log/”下以“kernelgateway”开头的最新日志文件,搜索“Starting kernel
有这个库。 原因分析 客户创建了多个虚拟环境,numba库安装在了python-3.7.10中,如图1所示。 图1 查询创建的虚拟环境 解决方案 在Terminal中执行conda deactivate命令退出当前虚拟环境,默认进入base环境。执行pip list命令查询已安装
配置MobaXterm工具时,没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server after”时间设置太短。 解决方案 打开MobaXterm,单击菜单栏“Settings”,如图1 打开“Settings”所示。 图1 打开“Settings” 在打开的“MobaXterm