检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 输出数据预处理结果路径: 训练完成后,以 llama2-13b 为例,输出数据路径为:/home/ma-user/wo
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包和权重文件 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
准备代码 本教程中用到的训练、推理代码如下表所示,请提前准备好。 获取模型软件包和权重文件 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
--base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 具体参数解释如表4所示。 表4 训练后权重转换适配vllm阶段 py文件名称 配置项 取值类型 配置说明 convert_eagle_ckpt_to_vllm_compatible
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
Requests”时,表示请求超过流控,请稍后重新调用。 (可选)当免费Token额度用完后,还要继续使用该模型,可以付费部署为我的服务使用。 在“模型部署”页面,单击“我的服务”页签,在右上角单击的“部署模型服务”,进行相关配置。操作指导请参见使用MaaS部署模型服务。模型服务部署成功后,即可继续使用。
启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 输出数据预处理结果路径: 训练完成后,以 llama2-13b 为例,输出数据路径为:/home/ma-user/wo
样,搬移到NPU或者GPU设备上仍然一样。 固定随机性完成后,可以使用缩小的模型在单机环境进行问题复现。复现后使用msprobe工具进行问题定位。需要注意的是,部分模型算法本身存在固有的随机性,在使用上述方法固定随机性后,如果使用工具也未能找到出问题的API,需要分析是否由算法本身的随机性导致。
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包和权重文件 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
在完成上一章几类调优方式之后,在单卡场景下实测性能调优比对结果如下表所示: 设备 batch_size Steps/Sec 1p-GPU Ant8 16 3.17 1p-NPU snt9b 313T 16 2.17 1p-NPU snt9b 313T调优后 16 2.58 父主题: 性能调优
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
重复 是 str inputs 服务部署节点的输入列表 否 ServiceInput或者ServiceInput的列表 outputs 服务部署节点的输出列表 是 ServiceOutput或者ServiceOutput的列表 title title信息,主要用于前端的名称展示 否
Server存储 Server服务器支持SFS、OBS、EVS三种云存储服务,提供了多种场景下的存储解决方案,主要区别如下表所示。若需要对本地盘进行配置,请参考物理机环境配置。 表1 表1 SFS、OBS、EVS服务对比 对比维度 弹性文件服务SFS 对象存储服务OBS 云硬盘EVS 概念 提
_exit_barrier(self)方法中的barrier_timeout参数,修改后如图1所示。 #修改前 barrier_timeout=self._exit_barrier_timeout #修改后 barrier_timeout=3000 图1 修改后的barrier_timeout参数 问题5:训练完成使用vllm0
_exit_barrier(self)方法中的barrier_timeout参数,修改后如图1所示。 #修改前 barrier_timeout=self._exit_barrier_timeout #修改后 barrier_timeout=3000 图1 修改后的barrier_timeout参数 问题5:训练完成使用vllm0
BS)中的元模型和容器镜像中的元模型,可对所有迭代和调试的模型进行统一管理。 约束与限制 自动学习项目中,在完成模型部署后,其生成的模型也将自动上传至模型列表中。但是自动学习生成的模型无法下载,只能用于部署上线。 创建模型、管理模型版本等功能目前是免费开放给所有用户,使用此功能不会产生费用。
_exit_barrier(self)方法中的barrier_timeout参数,修改后如图1所示。 #修改前 barrier_timeout=self._exit_barrier_timeout #修改后 barrier_timeout=3000 图1 修改后的barrier_timeout参数 问题5:训练完成使用vllm0
XXXX类型的报错,表示请求在APIG(API网关)出现问题而被拦截。 常见问题请参见服务预测失败,报错APIG.XXXX。 其他被APIG(API网关)拦截的场景: Method Not Allowed 请求超时返回Timeout 出现ModelArts.XXXX类型的报错,表示请求在Dispatcher出现问题而被拦截。
储挂载功能,需要新建一个OBS挂载专属目录如“/obs-mount/”,避免选择存量目录覆盖已有文件。OBS挂载仅开放对挂载目录文件新增、查看、修改功能,如果需要删除文件请到OBS并行文件系统中手动删除。 健康检查接口示例如下。 URI GET /health 请求示例curl -X
的详细信息。如删除失败时,可通过该字段查看删除失败的原因。 grants Array of grants objects 授权用户列表。默认为空。需要与“auth_type”参数配合使用,且仅当授权类型为“INTERNAL”时才会生效。 表6 grants 参数 参数类型 描述 user_id