检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改为权重文件实际路径 DATA: 修改为数据集路径 --output_dir: 训练后的权重所在目录名称,默认为output_qwen --num_train_epochs: 训练轮数,默认为5 #配置修改完成后保存退出,执行训练脚本 bash finetune/finetune_ds
配置建议 管理AI应用 ModelArts modelarts:model:* 创建、删除、查看、导入AI模型。 建议配置。 仅在严格授权模式开启后,需要显式配置左侧权限。 SWR SWR Admin SWR Admin为SWR最大权限,用于: 从自定义镜像导入。 从OBS导入时使用自定义引擎。
ssh目录权限是否为755/750,不是该权限请修改。 连接时如果报错密钥无权限,排查密钥是否为自己的密钥(可能使用了重名密钥),请更换密钥后重新连接实例。 本地排查 检查配置是否正确。 打开config文件进行检查:Host必须放在每组配置的第一行,作为每组配置的唯一ID。 HOST
odelArts SDK安装;如果本地已安装,则无需再次安装。 进行Session鉴权。可参见(可选)Session鉴权完成鉴权。鉴权完成后,即可开始使用。 SDK版本说明 表1 ModelArts SDK版本说明 发布时间 版本号 说明 2023-04 1.4.18 1.4.1
置等操作,也可以批量对节点进行删除、退订、续费等操作。 扩缩容Lite Cluster资源池:当Cluster资源池创建完成,使用一段时间后,由于用户AI开发业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts提供了扩缩容功能,用户可以根据自己的需求动态调整。
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
907-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。
托选择选“新增委托”,权限配置选择“普通用户”,并勾选“我已经详细阅读并同意《ModelArts服务声明》”,然后单击“创建”。 完成配置后,在ModelArts控制台的权限管理列表,可查看到此账号的委托配置信息。 步骤二:创建OBS桶 登录OBS管理控制台,在桶列表页面右上角单
托选择选“新增委托”,权限配置选择“普通用户”,并勾选“我已经详细阅读并同意《ModelArts服务声明》”,然后单击“创建”。 完成配置后,在ModelArts控制台的权限管理列表,可查看到此账号的委托配置信息。 步骤二:创建OBS桶 登录OBS管理控制台,在桶列表页面右上角单
在页面右上角单击用户名,然后在下拉列表中单击“我的凭证”,进入“我的凭证”页面。 如果您登录的是华为云官网,而非管理控制台。在单击用户名后,选择下拉列表中的“帐号中心”,然后单击“管理我的凭证”进入“我的凭证”页面。 在“API凭证”页面的项目列表中查看项目ID和名称(即“项目”)。
由于OBS服务是全局级服务,无法指定区域项目进行授权,若需要根据项目进行权限管理,请在选择授权方案选择“指定企业项目资源”。 成功授权后,您可在“企业项目视图”中,看到权限及对应的授权范围。 图6 子用户添加权限 父主题: 模型管理
Hugging Face 官方提供的命令行工具,自带完善的下载功能。具体步骤可参考:HF-Mirror中的使用教程。完成依赖安装和环境变量配置后,以Llama2-70B为例: huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf
镜像环境中。 若用户希望修改源码,则需要使用新镜像创建容器,在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。 Notebook中构建新镜像方案:首先需要ECS将基础镜像上传至SWR中。随后在Notebook环境中,通过运行scripts/install
Hugging Face 官方提供的命令行工具,自带完善的下载功能。具体步骤可参考:HF-Mirror中的使用教程。完成依赖安装和环境变量配置后,以Llama2-70B为例: huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf
参数 参数类型 描述 key String 标签的key。 values Array of strings 相同key的标签value合并后的列表。 状态码: 400 表5 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg
在训练作业列表中,针对“创建中”、“等待中”、“运行中”的训练作业,您可以单击“操作”列的“终止”,停止正在运行中的训练作业。 训练作业停止后,ModelArts将停止计费。 运行结束的训练作业,如“已完成”、“运行失败”、“已终止”、“异常”的作业,不涉及“终止”操作。 删除训练作业
allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String 支持的服务,枚举值如下: NOTEBOOK:
false:数据集无法进行训练/验证集切分 grouped_label_stats Map<String,Array<LabelStats>> 按标注类型分组后的标签统计信息。 hard_detail_stats Map<String,PairOfintAndHardDetail> 难例原因详情统计信息。类型为Map<Integer
开发环境给用户提供了一组预置镜像,主要包括PyTorch、Tensorflow、MindSpore系列。用户可以直接使用预置镜像启动Notebook实例,在实例中开发完成后,直接提交到ModelArts训练作业进行训练,而不需要做适配。 开发环境提供的预置镜像版本是依据用户反馈和版本稳定性决定的。当用户的功能开
false:数据集无法进行训练/验证集切分 grouped_label_stats Map<String,Array<LabelStats>> 按标注类型分组后的标签统计信息。 hard_detail_stats Map<String,PairOfintAndHardDetail> 难例原因详情统计信息。类型为Map<Integer