检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
context并行的参数设置:TP×PP×CP的值要被NPU数量(word_size)整除。 TP×CP的值要被模型参数中 num_attention_heads 整除。 MBS(micro-batch-size)、GBS(global-batch-size)的设置:需要遵循GBS/MBS的值能够被
context并行的参数设置:TP×PP×CP的值要被NPU数量(word_size)整除。 TP×CP的值要被模型参数中 num_attention_heads 整除。 MBS(micro-batch-size)、GBS(global-batch-size)的设置:需要遵循GBS/MBS的值能够被
ModelArts将存储在OBS中的模型部署上线为在线服务。 AI全流程开发 数据管理 数据集存储在OBS中。 数据集的标注信息存储在OBS中。 支持从OBS中导入数据。 开发环境 Notebook实例中的数据或代码文件存储在OBS中。 训练模型 训练作业使用的数据集存储在OBS中。 训练作业的运行脚本存储在OBS中。
针对不同的数据量和算法情况,推荐以下训练方案: 单机单卡:小数据量(1G训练数据)、低算力场景(1卡Vnt1),存储方案使用“OBS的并行文件系统(存放数据和代码)”。 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案使用“SFS(存放数据和代码)”。
导入任务管理 查询导入任务列表 创建导入任务 查询导入任务状态 父主题: 数据管理
在ModelArts控制台的AI应用管理模块中,将模型部署为一个AI应用。 登录ModelArts控制台,单击“AI应用管理 > AI应用 > 创建”,开始创建AI应用。 图2 创建AI应用 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。
ModelLink预训练数据集预处理参数说明 预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh 中的具体参数如下: --input:原始数据集的存放路径。 --output-prefix:处理后的数据集保存路径+数据集名称(例如:moss-003-sft-data)。
训练的数据集预处理说明 以llama2-13b举例,使用训练作业运行:obs_pipeline.sh 训练脚本后,脚本自动执行数据集预处理,并检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行训练任务。如果未进行数据集预处理,则会自动执行scripts/llama2/1_preprocess_data
批量删除样本 根据样本的ID列表批量删除数据集中的样本。 dataset.delete_samples(samples) 示例代码 批量删除数据集中的样本 from modelarts.session import Session from modelarts.dataset import
解析Manifest文件 解析Manifest文件,支持本地和OBS。如果是OBS,需要Session信息。 manifest.parse_manifest(manifest_path, encoding='utf-8') 示例代码 通过Manifest路径来解析获取Manifest的信息。
选择,示例如下。 输入数据集变量:是否使用已处理好数据集; 是,设置以下变量 USER_PROCESSED_DATA_DIR:已处理好数据路径目录 否,使用原始数据集,设置以下变量 ORIGINAL_TRAIN_DATA_PATH:训练时指定的输入原始数据集路径。 输入权重词表变
必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数,这可
必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数,这可
示例值需要根据数据集的不同,选择其一。 GeneralPretrainHandler:使用预训练的alpaca数据集。 GeneralInstructionHandler:使用微调的alpaca数据集。 MOSSMultiTurnHandler:使用微调的moss数据集。 MBS 4
提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。 可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务,可满足不同场景的业务需求。云硬盘就类似PC中的硬盘。 存储数据的逻辑 存放的是文件,会以文件和文件夹的层次结构来整理和呈现数据。 存放的是对象,
示例值需要根据数据集的不同,选择其一。 GeneralPretrainHandler:使用预训练的alpaca数据集。 GeneralInstructionHandler:使用微调的alpaca数据集。 MOSSInstructionHandler:使用微调的moss数据集。 Alp
专属资源池的费用请参考专属资源池计费项。 - - 存储资源 对象存储OBS 用于存储批量部署服务的输入和输出数据。 具体费用可参见对象存储价格详情。 注意: 存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除,则会按照OBS的计费规则进行持续计费。 按需计费 包年/包月 创
修改模型服务QPS 流量限制QPS是评估模型服务处理能力的关键指标,它指示系统在高并发场景下每秒能处理的请求量。这一指标直接关系到模型的响应速度和处理效率。不当的QPS配置可能导致用户等待时间延长,影响满意度。因此,能够灵活调整模型的QPS对于保障服务性能、优化用户体验、维持业务流畅及控制成本至关重要。
数据集因为是导入的整个文本文件,故删除一条样本不会对源文本有影响)。可选值如下: false:不删除源文件(默认值) true:删除源文件(注意:此操作可能影响已使用这些文件的数据集版本或其他数据集,导致页面展示异常或者训练/推理异常) samples 否 Array of strings
false:不导入标签 import_folder 否 String 导入后在数据集存储目录下子目录的名称。多次不同导入可以指定同一个子目录,避免相同样本重复导入。注:对表格数据集不可用。 import_origin 否 String 数据来源。可选值如下: obs:OBS桶(默认值) dws:GaussDB(DWS)服务