检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Arts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示,示例中的桶名称“test-modelarts” 和文件夹名称均为举例,请替换为用户自定义的名称。
解析Manifest文件 解析Manifest文件,支持本地和OBS。如果是OBS,需要Session信息。 manifest.parse_manifest(manifest_path, encoding='utf-8') 示例代码 通过Manifest路径来解析获取Manifest的信息。
账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示,示例中的桶名称“test-modelarts”和文件夹名称均为举例,请替换为用户自定义的名称。 创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。
部署上线失败 出现此问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新部署在线服务。如果重试超过3次仍无法解决,请获取如下信息,并联系华为云技术支持协助解决故障。 获取服务ID。 进入“部署上线>在线服务”页面,在服务列表中找到自动学习任务中部署的在线服务,自动学习部署的
sh,下载Miniconda3-py37-4.10.3安装文件(对应python 3.7.10)。 将上述pip源文件、*.run文件、*.whl文件、Miniconda3安装文件放置在context文件夹内,context文件夹内容如下。 context ├── Ascend-cann-nnae_6
在预置服务列表,选择所需的服务,单击操作列的“更多 > 部署为我的服务”,跳转到“创建模型”页面。 在创建模型页面,完成参数配置,创建我的模型。操作指导请参见在MaaS中创建模型。 当模型创建成功后,需要部署成模型服务,操作指导请参见使用MaaS部署模型服务。 模型服务部署成功后,即可继续使用。
超过最大递归深度导致训练作业失败 问题现象 ModelArts训练作业报错: RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析 递归深度超过了Python默认的递归深度,导致训练失败。 处理方法 如
执行如下命令,查看训练环境的cuda版本,确认当前cuda版本是否支持so文件。 os.system("cat /usr/local/cuda/version.txt") 支持。当前cuda版本无so文件,需外部导入so文件(自行在浏览器下载),再设置LD_LIBRARY_PATH,具体见2。
增加了和OBS交互工作的整个训练流程如下: 建议使用OBSutil作为和OBS交互的工具,如何在本机安装obsutil可以参考安装和配置OBS命令行工具。 训练数据、代码、模型下载。(本地使用硬盘挂载或者docker cp,在ModelArts上使用OBSutil) 启动脚本,用法无切换,一般就是到达执行目录,然后python
在本文档中,采用通过OBS管理控制台将数据上传至OBS桶。 OBS上传文件的规范: 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。 如需要提前上传待标注的文件,请创建一个空文件夹,然后将文本文件保存在该文件夹下,文本文件的目录结构如:“/bucketName/data/text
程有一个整体的认识。如果您希望通过具体案例直接实操,请参考《主流开源大模型基于DevServer适配PyTorch NPU训练指导》。该案例以ChatGLM-6B为例,介绍如何将模型迁移至昇腾设备上训练、模型精度对齐以及性能调优。 迁移环境准备 本文以弹性裸金属作为开发环境。弹性
数据集版本发布失败 出现此问题时,表示数据不满足数据管理模块的要求,导致数据集发布失败,无法执行自动学习的下一步流程。 请根据如下几个要求,检查您的数据,将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 ModelArts在跟O
false:不导入标签 否 bool import_samples 是否导入样本。可选值如下: true:导入样本(默认值) false:不导入样本 否 bool import_type 导入方式。可选值如下: dir:目录导入 manifest:按manifest文件导入 否 ImportTypeEnum
动态挂载OBS并行文件系统成功,但是在Notebook的JupyterLab中无法看到本地挂载点 问题现象 在Notebook中动态挂载OBS并行文件系统,本地挂载目录为/data/demo-yf/,实际在JupyterLab左侧导航看不到此目录。 图1 本地挂载目录 图2 Notebook的JupyterLab
构建一个新的推理镜像,并完成模型的创建,部署为在线服务。 权限清单 权限 表1 管理模型所需权限 业务场景 依赖的服务 依赖策略项 支持的功能 配置建议 管理模型 ModelArts modelarts:model:* 创建、删除、查看、导入AI模型。 建议配置。 仅在严格授权模式开启后,需要显式配置左侧权限。
Msprobe梯度监控 梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具,可以实现对训练过程模型每一层梯度信息进行监控,目前支持两种能力: 将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来,用以分析问题,例如检测确定性问题,使用训练状态监
此处输入的是具体的OBS文件路径,不是文件夹的路径,否则会导致上传失败。 方式二:打开OBS File Browser选择OBS文件路径,然后单击“上传”,开始上传文件。 图4 上传OBS文件 异常处理 提示文件上传失败,有以下三种常见场景。 异常场景1 图5 文件上传失败 可能原因: O
长训Loss比对结果 在单卡环境下,执行一个Epoch训练任务,GPU和NPU训练叠加效果如下: 上图中的红色曲线为GPU Loss折线图,蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下,Loss总体的绝对偏差大约为0.08181。 父主题: 精度对齐
创建训练作业 管理模型 编写推理代码和配置文件 针对您生成的模型,建议您按照ModelArts提供的模型包规范,编写推理代码和配置文件,并将推理代码和配置文件存储至训练输出位置。 模型包规范介绍 创建模型 将训练完成的模型导入至ModelArts创建为模型,方便将模型部署上线。 创建模型
训练作业失败,返回错误码139 问题现象 训练作业运行失败,返回错误码139,如下图所示: [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f