检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
是否必选 参数类型 描述 delete_policy 否 Integer 是否删除标签及包含标签的样本。可选值如下: 0:只删除标签 1:删除标签及包含标签的样本 2:删除标签和包含标签的样本及其源文件 请求参数 表3 请求Body参数 参数 是否必选 参数类型 描述 labels 否
1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令,并在Notebook环境中运行执行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 若用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本,可编辑参数以及详细介绍如下。以llama2-13b预训练为例:
分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3
训练启动脚本说明和参数配置 本代码包中集成了不同模型的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成,则执行脚本,自动完成数据预处理和权重转换的过程。 若用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data
自动学习生成的模型,存储在哪里?支持哪些其他操作? 模型统一管理 针对自动学习项目,当模型训练完成后,其生成的模型,将自动进入“模型管理”页面,如下图所示。模型名称由系统自动命名,前缀与自动学习项目的名称一致,方便辨识。 自动学习生成的模型,不支持下载使用。 图1 自动学习生成的模型 自动学习生成的模型,支持哪些其他操作
分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3
分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3
分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3
在ModelArts中训练好后的模型如何获取? 使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。 使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。 父主题: Standard模型训练
在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据? 参考下载OBS文件到Notebook中的指导,将OBS中的数据下载至Notebook本地处理。 参考pandas用户指南处理pandas数据。 父主题: Standard Notebook
用于指定训练过程中使用的最大样本数量。如果设置了这个参数,训练过程将只使用指定数量的样本,而忽略其他样本。这可以用于控制训练过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache",则在训练过程中覆盖缓存。这通常
用于指定训练过程中使用的最大样本数量。如果设置了这个参数,训练过程将只使用指定数量的样本,而忽略其他样本。这可以用于控制训练过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache",则在训练过程中覆盖缓存。这通常
用于指定训练过程中使用的最大样本数量。如果设置了这个参数,训练过程将只使用指定数量的样本,而忽略其他样本。这可以用于控制训练过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache",则在训练过程中覆盖缓存。这通常
1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令,并在Notebook环境中运行执行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 若用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本,可编辑参数以及详细介绍如下。以llama2-13b预训练为例:
表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。
表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。
batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 global-batch-size 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
选择模型及版本 “我的模型”。您可以根据实际需求选择您的模型。您需要在目标模型的左侧单击下拉三角标,选择合适的版本。您的模型导入参见创建模型。 “我的订阅”。您可以根据实际需求选择AI Gallery中已订阅的模型。您需要在目标模型的左侧单击下拉三角标,选择合适的版本。查找模型参见从Gallery订阅模型。
/场景,适合图中主体相对单一的场景,将下图识别为汽车的图片。 图1 图像分类 物体检测是计算机视觉中的经典问题之一,其任务是用框去标出图像中物体的位置,并给出物体的类别。通常在一张图包含多个物体的情况下,定制识别出每个物体的位置、数量、名称,适合图片中有多个主体的场景,针对下图检测出图片包含树和汽车。
1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令,并在Notebook环境中运行执行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 若用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本,可编辑参数以及详细介绍如下。以llama2-13b预训练为例: