搜索_华为云

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

commit，再配合一系列自动化操作来上传和更新管理数据等。每次Commit都会带来额外的一些开销，层数越多镜像越大，如果多次保存后就会有存储显示没那么大，但是镜像已经很大。镜像超大会导致加载的各种问题，所以这里做了限制。这种场景下，建议找到原始镜像重新构建环境进行保存。解决方法

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
创建ModelArts数据清洗任务 - AI开发平台ModelArts

----1.xml # 如果输入数据有标注信息会一并输出，xml为标注文件 ----2.jpg ----3.jpg --output.manifest 其中manifest文件内容示例如下所示。 { "source":"obs://fake/be462ea9c5abc09f

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
准备镜像环境 - AI开发平台ModelArts

--shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像环境 - AI开发平台ModelArts

--shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像环境 - AI开发平台ModelArts

--shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

有GPU/Ascend资源。节点驱动升级操作登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”，在“弹性集群”页面，选择“Lite资源池”页签，查看资源池列表。进入资源池详情页，在节点管理页面，选择需要进行驱动升级的节点，单击操作列的“更多

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
标注文本分类数据 - AI开发平台ModelArts

据无法满足现有业务时，您可以在ModelArts自动学习页面中，添加或删除数据。添加文件在“未标注”页签下，可单击页面左上角的“添加数据”，您可以在弹出对话框中，选择本地文件上传。上传文件格式需满足文本分类型的数据集要求。删除文本对象在“已标注”页签或“未标注”页签下，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

载链接下载数据集。在创建OBS桶创建的桶下创建文件夹用以存放数据，例如在桶standard-llama2-13b中创建文件夹training_data。利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构： obs://<

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
查看日志和性能 - AI开发平台ModelArts

loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。图2 查看日志和性能训练结束之后，在保存路径下生成了如下几个文件： |──converted_hf2mg_weight_TP${TP}PP${PP} # 训练过程Megatron格式权重

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）
配额与限制 - AI开发平台ModelArts

服务资源类型 ECS资源类型 ECS实例数 CPU核心数 RAM容量（MB）弹性公网IP EIP资源伸缩带宽策略云硬盘EVS SFS资源磁盘数磁盘容量（GB）快照数弹性文件服务SFS资源容量配额

 帮助中心 > AI开发平台ModelArts > 产品介绍
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

匹配，因此每次创建训练作业时，训练作业的启动命令中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。 ECS中构建新镜像（二选一）：在ECS中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatr

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
单机多卡 - AI开发平台ModelArts
单机多卡 - AI开发平台ModelArts

单机多卡准备镜像上传数据和算法至SFS（首次使用时需要）使用Notebook进行代码调试创建训练任务父主题：调试与训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练
准备镜像环境 - AI开发平台ModelArts

--shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
在Notebook上安装配置Grafana - AI开发平台ModelArts

f/grafana-9.1.6/conf/defaults.ini”文件。修改[server]中的“root_url”和“serve_from_sub_path”字段。图1 修改defaults.ini文件其中： root_url的组成为：https:{jupyterlab

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
创建数据集标注版本 - AI开发平台ModelArts

with_column_header 否 Boolean 发布时是否将列名写到CSV文件的第一行，对于表格数据集有效。可选值如下： true：发布时将列名写到CSV文件的第一行（默认值） false：发布时不将列名写到CSV文件的第一行响应参数状态码： 201 表3 响应Body参数参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
修改Workflow工作流 - AI开发平台ModelArts

描述 name 否 String 工作流存储的名称。填写1-64位，只包含英文、数字、下划线（_）和中划线（-），并且以英文开头的名称。 type 否 String 工作流存储的类型，当前只支持obs。 path 否 String 统一存储的根路径，当前只支持OBS路径。表7 WorkflowStep

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备镜像环境 - AI开发平台ModelArts

--shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

去掉尖括号），使用浏览器下载vscode-server-linux-arm64.tar.gz文件。下载完成后，将下载的vscode-server-linux-arm64.tar.gz文件重命名为“vscode-server-linux-x64.tar.gz”。 https://update

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

载链接下载数据集。在创建OBS桶创建的桶下创建文件夹用以存放数据，例如在桶standard-llama2-13b中创建文件夹training_data。利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构： obs://<

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作

总条数： 1610

上一页
1
...
62
63
64
...
81
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

创建ModelArts数据清洗任务 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

标注文本分类数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

配额与限制 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

单机多卡 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在Notebook上安装配置Grafana - AI开发平台ModelArts

创建数据集标注版本 - AI开发平台ModelArts

修改Workflow工作流 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线