检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
镜像过大Push任务一直在运行,或实例节点有问题。 解决方法 以对应租户的华为云账号登录SWR服务,查看镜像是否已经Push成功。 如果Push成功,请重新注册镜像。 如果未Push成功,联系SRE查看对应实例的节点是否有问题。 父主题: 自定义镜像故障
户组”,在用户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。 如果没有用户组,也可以创建一个新的用户组,并通过“用户组管理”功能添加用户,并配置授权。如果指定的子用户没有在用户组中,也可以通过“用户组管理”功能增加用户。
给用户配置ModelArts委托授权,允许ModelArts服务在运行时访问OBS等依赖服务。 使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。 在弹出的“添加授权”窗口中,选择: 授权对象类型:所有用户 委托选择:新增委托 权限配置:普通用户
在,则直接追加。 当被追加的源文件比较大时,例如“obs://bucket_name/obs_file.txt”文件大小超过5MB时,追加一个OBS文件的性能比较低。 如果以写入模式或追加模式打开文件,当调用write方法时,待写入内容只是暂时的被存在的缓冲区,直到关闭文件对象(
物理专属池对应的资源池id。 pool_name 物理专属池对应的资源池name。 logical_pool_id 逻辑子池的id。 logical_pool_name 逻辑子池的name。 gpu_uuid 容器使用的GPU的UUID。 gpu_index 容器使用的GPU的索引。 gpu_type
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
下载数据集(至ModelArts) 单击“确定”,跳转至“我的数据 > 我的下载”页面。 下载的数据集在AI Gallery“我的数据 > 我的下载”不会立即显示,需要刷新该页面才能看到新下载的数据集。 在Notebook中使用数据集 登录“AI Gallery”。 选择“资产集市 > 数
FINETUNING_TYPE,表示微调的策略,可以选择的参数包括:{full, lora} 删除 RUN_TYPE 所以当前的组合情况为: 项目 full lora pt(预训练) √ √ sft(指令微调) √ √ 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号
MindSpeed的版本升级到commitID=4ea42a23 ModelLink的版本升级到commitID=8f50777 transformers版本升级到4.45.0 peft版本升级到0.12.0 支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号
Standard运行的,需要购买并开通ModelArts专属资源池和OBS桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。 准备代码 准备AscendSpeed训练代码。 准备镜像 准备训练模型适用的容器镜像。 准备Notebook
Lite Cluster上的训练方案。训练框架使用的是ModelLink。 本方案目前仅适用于企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.911版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。
如何修改端口? 当模型配置文件中定义了具体的端口号,例如:8443,创建模型没有配置端口,或者配置了其他端口号,均会导致服务部署失败。您需要把模型中的端口号配置为8443,才能保证服务部署成功。 修改默认端口号,具体操作如下: 登录ModelArts控制台,左侧菜单选择“模型管理”;
户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的两条自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。 此时,该用户组下的所有用户均有权限查看该用户组内成员创建的所有Notebook实例。 如果没有用户组,也可以创建一个新的用户组,并通过“用
ss使用humaneval数据集时,需要执行模型生成的代码。请仔细阅读human_eval/execution.py文件第48-57行的注释,内容参考如下。了解执行模型生成代码可能存在的风险,如果接受这些风险,请取消第58行的注释,执行下面步骤5进行评测。 # WARNING #
ss使用humaneval数据集时,需要执行模型生成的代码。请仔细阅读human_eval/execution.py文件第48-57行的注释,内容参考如下。了解执行模型生成代码可能存在的风险,如果接受这些风险,请取消第58行的注释,执行下面步骤进行评测。 # WARNING # This
“access_key”和“secret_key”获取方式如下: 登录管理控制台,可单击控制台右上角的账户名,在菜单栏中单击“我的凭证”,进入“我的凭证”页面。 在“我的凭证 > 访问密钥”中,单击“新增访问密钥”。 在“新增访问密钥”弹窗中,填写该密钥的描述说明,单击“确定”。根据提示单击“立即下载
工具开展语言模型的推理精度测试,数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证,不适用于多模态模型的精度验证。多模态模型的精度验证,建议使用开源MME数据集和工具(GitHub
ss使用humaneval数据集时,需要执行模型生成的代码。请仔细阅读human_eval/execution.py文件第48-57行的注释,内容参考如下。了解执行模型生成代码可能存在的风险,如果接受这些风险,请取消第58行的注释,执行下面步骤5进行评测。 # WARNING #