检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行训练任务 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件、自定义数据集,可以忽略此步骤。 未上传训练权重文件,具体参考上传代码和权重文件到工作环境。 使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info
执行训练任务 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件、自定义数据集,可以忽略此步骤。 未上传训练权重文件,具体参考上传代码和权重文件到工作环境。 使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info
demo.sh方式启动(历史版本) 本章节介绍历史版本的训练任务启动方式。6.3.912版本同时兼容历史版本的训练任务启动方式。 步骤一:上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件、自定义数据集,可以忽略此步骤。 未上传训练权重文件,具体参考上传代码和权重文件到工作环境。
3 打印如下信息,表示上传镜像成功。 图6 成功上传镜像 Step8 注册镜像 镜像上传至SWR成功后,在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。 图7 在ModelArts控制台注册镜像 在镜像源中,选择上一步中上传到SWR自有镜像仓中的镜像名,作为模型推
nci7。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/
Eagle投机小模型训练 什么是Eagle投机小模型训练 2013年12月滑铁卢大学、加拿大向量研究院、北京大学等机构联合发布Eagle,旨在提升大语言模型的推理速度,同时保证模型输出文本的分布一致。这种方法外推LLM的第二顶层特征向量,能够显著提升生成效率。 Eagle训练了一个单层模型,使用input
络(包含混合精度)再到NPU上排查精度问题。常见的精度调测手段,包含使用全精度FP32,或者关闭算子融合开关等,先进行排查。对于精度问题,系统工程人员需要对算法原理有较深入的理解,仅从工程角度分析有时候会非常受限,同时也可联系华为工程师进行诊断与优化。 父主题: GPU训练业务迁移至昇腾的通用指导
文件,OBS接口不支持直接调用,需要分多个线程分段复制,目前OBS侧服务端超时时间是30S,可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FILE_LARGE_FILE_TASK_NUM']=1 import moxing as mox # 复制文件
3 打印如下信息,表示上传镜像成功。 图5 成功上传镜像 Step8 注册镜像 镜像上传至SWR成功后,在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。 图6 在ModelArts控制台注册镜像 在镜像源中,选择上一步中上传到SWR自有镜像仓中的镜像名,作为模型推
在专属资源池到期前均可开通自动续费,到期前7日凌晨3:00首次尝试自动续费,如果扣款失败,每天凌晨3:00尝试一次,直至专属资源池到期或者续费成功。到期前7日自动续费扣款是系统默认配置,您也可以根据需要修改此扣款日。 父主题: 续费
在华为公有云平台申请的资源一般默认连通网络,如未连通网络或无法git clone下载代码时用户则需要找到已连通网络的机器(本章节以Linux系统机器为例)将下载完成的源码放置代码目录:AscendFactory/third-party下,命令如下: # 三方开源源码 git clone
当code-dir以file://为前缀时,当前字段不生效。 --pool-id String 否 训练作业选择的资源池ID。可在ModelArts管理控制台,单击左侧“专属资源池”,在专属资源池列表中查看资源池ID。 --train-instance-type String 否 训练作业选择的资源规格。
计费的最小单位为秒,话单上报后的每一小时对用户账号进行一次扣费。如果使用过程中暂停、终止了消耗资源的AI Gallery工具链服务,即服务不处于计费的状态中,则系统不会立即扣费,依然等到满1小时后再进行扣费,且基于当前1小时内的实际使用时长进行扣费。 实际计费规则 资源按时价扣费,真正计费的价格以实际账单为准。查看账单请参见账单介绍。
出现内存溢出的情况,用户可参考表2进行配置。 图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在Notebook中创建的“子目录挂载”
为准。 变更配置后对计费的影响 当前包年/包月计算资源的规格不满足您的业务需要时,您可以在ModelArts控制台发起变更规格操作,变更时系统将按照如下规则为您计算变更费用: 资源升配:新配置价格高于老配置价格,此时您需要支付新老配置的差价。 资源降配:新配置价格低于老配置价格,此时华为云会将新老配置的差价退给您。
出现内存溢出的情况,用户可参考表2进行配置。 图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在Notebook中创建的“子目录挂载”
出现内存溢出的情况,用户可参考表2进行配置。 图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在Notebook中创建的“子目录挂载”
若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资源,以实现离线安装。用户可遵循以下步骤: 步骤一:资源下载 Python依赖包下载:进入 scripts/install
X86上运行。 - 当前使用的操作系统及版本 当前推理业务的操作系统及版本,如:Ubuntu 22.04。 是否使用容器化运行业务,以及容器中OS版本,HostOS中是否有业务软件以及HostOS的类型和版本。 需要评估是否愿意迁移到华为云的通用OS。 - AI引擎及版本 当前引
del_path}同时使用。 --use-v2-block-manager:vllm启动时使用V2版本的BlockSpaceManger来管理KVCache索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 --served-model-name:vllm服务后台id。