检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBM多ECC错误信息 NpuHbmMultiEccInfo 提示 NPU卡存在HBM的ECC错误,此事件上报相应错误信息 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 Snt9B Snt9C GPU: RoCE网卡配置错误 Gp
准备镜像 镜像方案说明 ECS获取基础镜像 ECS中构建新镜像 ECS中上传新镜像 父主题: 准备工作
进入OBS管理控制台,根据上述步骤获得的路径,找到对应版本号目录,即可获取数据集对应的标注结果。 如需将标注结果下载至本地,可前往manifest文件存储的OBS中,单击“下载”,即可将标注结果存储至本地。 图1 下载标注结果 父主题: Standard数据准备
络配置,此处需要授予用户VPC权限。 (可选)配置SFS和SFS Turbo权限。如果用户在专属资源池中挂载SFS系统作为开发环境或训练的存储时,需要授予使用权限。 单击左上角的“查看已选”,确认已勾选的权限。 再单击“下一步”,设置最小授权范围。单击“指定区域项目资源”,勾选待授权使用的区域,单击“确定”。
支持的rope scaling类型 本方案支持的rope scaling类型包括linear、dynamic和yarn,其中linear方法只支持传入一个固定的scaling factor值,暂不支持传入列表。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.908中的AscendCloud-LLM-xxx
modelarts/ma-cli-profile.yaml。 配置用户名密码鉴权 以在虚拟机上使用ma-cli configure为例,介绍如何配置用户名密码进行鉴权。 以下样例中所有以${}装饰的字符串都代表一个变量,用户可以根据实际情况指定对应的值。 比如${your_password}表示输入用户自己的密码信息。
准备镜像 镜像方案说明 ECS获取和上传基础镜像 ECS中构建新镜像(可选) 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
云硬盘EVS是Notebook开发环境内存的存储硬盘,作为持久化存储挂载在/home/ma-user/work目录下,该目录下的内容在实例停止后会被保留。可以自定义磁盘空间,如果需要存储数据集、模型等大型文件,建议申请规格300GB+。存储支持在线按需扩容。 图2 自定义存储配置 使用Notebook将OBS数据导入云硬盘EVS
size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关:
ebook实例配置信息。 挂载OBS并行文件系统:在Notebook实例详情页面,选择“存储配置”页签,单击“添加数据存储”,设置挂载参数。 设置本地挂载目录,在“/data/”目录下输入一个文件夹名称,例如:demo。挂载时,后台自动会在Notebook容器“的/data/”目
参数类型 描述 name String 工作流存储的名称。填写1-64位,只包含英文、数字、下划线(_)和中划线(-),并且以英文开头的名称。 type String 工作流存储的类型,当前只支持obs。 path String 统一存储的根路径,当前只支持OBS路径。 表17 WorkflowAsset
执行导出操作。 “数据来源”:选择OBS。 “保存路径”:即导出数据存储的路径。建议不要将数据存储至当前数据集所在的输入路径或输出路径。 图1 导出到OBS 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。 在“数据集概览页”,单击右上角“导出历史”,在弹出的“任务
云硬盘EVS是Notebook开发环境内存的存储硬盘,作为持久化存储挂载在/home/ma-user/work目录下,该目录下的内容在实例停止后会被保留。可以自定义磁盘空间,如果需要存储数据集、模型等大型文件,建议申请规格300GB+。存储支持在线按需扩容。 图2 自定义存储配置 使用Notebook将OBS数据导入云硬盘EVS
size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关:
sh文件,来安装依赖以及下载完整代码。 ECS中DockerFIle构建新镜像:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会尝试自动下载三方依赖源码并安装依赖的pip包,并将以上源码打包至镜像环境中; 训练作业的资源池以及ECS都需要连通公
说明 事件 展示当前服务使用过程中的关键操作,比如服务部署进度、部署异常的详细原因、服务被启动、停止、更新的时间点等。 事件保存周期为1个月,1个月后自动清理数据。 查看服务的事件类型和事件信息,请参见查看在线服务的事件 日志 展示当前服务下每个模型的日志信息。包含最近5分钟、最近30分钟、最近1小时和自定义时间段。