检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
必须修改的训练超参配置 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/llm_train/AscendSpeed/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。
构建模型 自定义模型规范 自定义镜像规范 使用AI Gallery SDK构建自定义模型 父主题: 发布和管理AI Gallery模型
使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
获取训练作业日志的文件名 功能介绍 获取训练作业日志的文件名。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 参数说明如表1所示。 表1 参数说明 参数 是否必选
Notebook进行调试,数据和代码存放在并行文件系统。以下内容需使用管理账号进行配置。 权限清单 权限 表1 开发环境所需权限 业务场景 依赖的服务 依赖策略项 支持的功能 配置建议 开发环境实例生命周期管理 ModelArts modelarts:notebook:create
场景为授权子账号使用自定义镜像训练,数据和代码存放在OBS桶中。以下内容需使用管理账号进行配置。 权限清单 权限 表1 训练作业所需权限 业务场景 依赖的服务 依赖策略项 支持的功能 配置建议 训练管理 ModelArts modelarts:trainJob:* modelarts:trainJobLog:*
-awq/ --calib-data /home/ma-user/mit-han-lab/pile-val-backup 参数说明: --model-path:原始模型权重路径。 --quan-path:转换后权重保存路径。 --calib-data:数据集路径,推荐使用:https://huggingface
clone拉不下来代码,可能需要先设置下git的配置: git config --global core.compression -1 export GIT_SSL_NO_VERIFY=1 git config --global http.sslVerify false git config --global
labels: ring-controller.cce: ascend-1980 # 保持不动 data: #data内容保持不动,初始化完成,会被volcano插件自动修改 jobstart_hccl.json: |
对应的代码进行定位。 如果模型启动失败根本没有日志,则考虑使用推理模型调试功能,具体参见:在开发环境中构建并调试推理镜像。 父主题: 模型管理
查看训练作业详情 登录ModelArts管理控制台。 在左侧导航栏中,选择“模型训练 > 训练作业”,进入“训练作业”列表。 在作业列表,单击“导出”,可以将训练作业根据时间周期导出Excel表到本地。最多只支持导出前200行数据。 在“训练作业”列表中,单击作业名称,进入训练作业详情页。
被清除。 查看操作 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“事件”页签查看事件信息。 图1 查看事件信息 父主题: 管理模型训练作业
创建模型的过程中,关键事件支持手动/自动刷新。 查看操作 在ModelArts管理控制台的左侧导航栏中选择“模型管理”,在模型列表中,您可以单击模型名称,进入模型详情页面。 在模型详情页面,切换到“事件”页签,查看事件信息。 父主题: 管理ModelArts模型
登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备>数据处理”,进入“数据处理”页面。 在数据处理列表中,单击数据处理任务名称,进入数据处理任务的版本管理页面。您可以在该页面进行数据处理任务的“修改”与“删除”。 图1 数据处理版本管理页面 您可以在版本管理页面,通过切换页
tokenizer路径需要和推理服务启动时--model路径保持一致,比如--model /data/nfs/model/llama_7b, --tokenizer也需要为/data/nfs/model/llama_7b,两者要完全一致。 --min-input:输入tokens最小长度,可以根据实际需求设置。
等条件筛选的高级搜索。 操作三:单击作业列表右上角“刷新”图标,刷新作业列表。 操作四:自定义列功能设置。 图1 查找训练作业 父主题: 管理模型训练作业
必须修改的训练超参配置 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/llm_train/AscendSpeed/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。
删除训练作业参数 功能介绍 删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
的权限。 约束限制 相应region区域开放此功能。 新增委托授权操作SFS Turbo 登录ModelArts管理控制台,在左侧导航栏选择“权限管理”,进入“权限管理”页面。 单击“添加授权”,进入“访问授权”配置页面,根据参数说明进行配置。 “授权对象类型”:根据需要选择"I
际需求修改。 表1 必须修改的训练超参配置 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/train-00000-of-00001-a09b74b3ef9c3b56.parquet 必须