检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从OBS中或者从容器镜像中导入模型时,开发者需要编写模型配置文件。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。配置文件为JSON格式。配置文件中的“dependencies”,表示配置模型推理代码需要的依赖包,需要提供依赖包名、安装方式和版本约束的
择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。 使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install
择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。 使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install
Lite Server在任务执行过程中需要访问用户的其他服务,典型的就是容器使用过程中需要到SWR服务拉取镜像。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前,均需要先获得用户的授权,而这个动作就是
登录ModelArts管理控制台,左侧菜单栏选择“数据管理>数据标注”,进入数据标注列表,单击需要删除图片的数据集,进入标注详情页。 在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的图片,或者“选择当前页”选中该页面所有图片,然后单击删除。在弹出的对话框中,根据实际情况
在复核页面,单击“按照标签过滤”,选择需要复核的标签类型图片。 在当前页面,您可以选择对当前的标签类型的图片,按照标注面积排序,或按照宽高比排序。 依次单击需要复核的图片,在标注页面拖动图片的标注框,即可重新完成标注。(修改后的图片会带有“已修改”的信息。) 您也可以选中需要删除标签的图片,单击右
将数据集下载至ModelArts “下载方式”:选择“ModelArts数据集”。 “目标区域”:选择您需要将该数据集下载到的区域位置,如“华北-北京四”。 “数据类型”:选择需要处理的文件类型。数据类型更多信息请参考数据集的类型。 “数据集输出位置”:数据集输出位置的OBS路径,
准备推理资源:根据实际情况选择部署服务所需要的资源类型。ModelArts为您提供公共资源池和专属资源池。如果使用专属计算资源,您需要先购买并创建专属资源池,详情请参见创建专属资源池。 训练模型:可以在ModelArts服务中进行,也可以在您的本地开发环境进行,本地开发的模型需要上传到华为云OBS服务。
本章节介绍预训练前的超参配置,可以根据实际需要修改。 预训练脚本baichuan2.sh,存放在“6.3.904-Ascend/llm_train/AscendSpeed/scripts/baichuan2”目录下。训练前,可以根据实际需要修改超参配置。 表1 超参配置 参数 值 参数说明
能力,保障用户训练作业的长稳运行 提供训练作业断点续训与增量训练能力,即使训练因某些原因中断,也可以基于checkpoint接续训练,保障需要长时间训练的模型的稳定性和可靠性,避免重新开始训练耗费的时间与计算成本 支持训练数据使用SFS Turbo文件系统进行数据挂载,训练作业产
Step2 基础权限开通 为子用户开通使用资源池所需要的权限。 Step3 在ModelArts上创建委托授权 第一次使用ModelArts时需要创建委托授权,授权允许ModelArts代表用户去访问其他云服务。 如果之前已经创建过委托授权,需要更新委托相应的权限。 Step4 申请扩大资源配额
络链路可以选择: 如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。 如果机器与容器镜像仓库不在同一区域,则上传镜像走公网链路,机器需要绑定弹性公网IP。 约束与限制 使用客户端上传镜像,镜像的每个layer大小不能大于10G。 上传镜像的容器引擎客户端版本必须为1.11.2及以上。
不能处于欠费或冻结状态。 配置委托访问授权 ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。 使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。
(可选)本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK,则需要在本地环境中安装ModelArts SDK,安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用,并将其部署为在线服务。
自定义镜像的使用流程 托管自定义镜像,操作步骤请参考托管模型到AI Gallery。 如果自定义镜像要支持训练,则需要满足自定义镜像规范(训练)。 如果自定义镜像要支持推理,则需要满足自定义镜像规范(推理)。 上架自定义镜像,操作步骤请参考发布模型到AI Gallery。 在AI Gal
rnet通信。在后续配置存储和软件环境时需要Server服务器能够访问网络,因此需要先完成网络配置。 2 配置Lite Server存储 Server资源需要挂载数据盘用于存储数据文件,当前支持SFS、OBS、EVS三种云存储服务,提供了多种场景下的存储解决方案。 3 配置Lite
print(mox_flags.get_help()) 通过如下方式控制载入模型时需要恢复的参数名。其中,“checkpoint_include_patterns”为需要恢复的参数,“checkpoint_exclude_patterns”为不需要恢复的参数。 checkpoint_include_patterns:
odel_name、tp_num、ascend_version组成 PD分离推理性能评测 PD分离参数基本同上,需要修改服务类型名称pd_scale,并且部分参数需要根据服务部署信息稍加修改,如host、port、served_model_name。 sh pd_benchmark_fixed_length
book实例产生卡顿甚至无法正常使用,需要查看新数据时单击右上角刷新按钮即可。 不建议使用New按钮创建多个TensorBoard实例,该操作可能会导致CPU/Memory占用过大,导致Notebook实例卡顿甚至无法正常使用等问题。当需要可视化新的目录时,可以先将当前Tenso
迁移评估 推理迁移包括模型迁移、业务迁移、精度性能调优等环节,是否能满足最终的迁移效果需要进行系统的评估。如果您仅需要了解迁移过程,可以先按照本文档的指导进行操作并熟悉迁移流程。如果您有实际的项目需要迁移,建议填写下方的推理业务迁移评估表,并将该调研表提供给华为云技术支持人员进行迁移评估,以确保迁移项目能顺利实施。