检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Suppor
转包周期”。 在弹出的“转包周期”页面,确认无误后单击“确定”。 图1 转包周期 选择弹性集群的购买时长,判断是否勾选“自动续费”,确认预计到期时间和配置费用后单击“去支付”。 进入支付页面,选择支付方式,确认付款,支付订单后即可完成按需转包年/包月。
了解。 确定自定义镜像大小 自定义镜像的大小推荐15GB以内,最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为50G,专属资源池的容器引擎空间的默认为50G,支持在创建专属资源池时自定义容器引擎空间。
软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.910-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Suppor
nt量化或使用GPTQ量化章节对模型做量化处理。 参数定义和使用方式与vLLM0.5.0版本一致,此处介绍关键参数。详细参数解释请参见https://github.com/vllm-project/vllm/blob/main/vllm/engine/arg_utils.py。 Step7
nt量化或使用GPTQ量化章节对模型做量化处理。 参数定义和使用方式与vLLM0.5.0版本一致,此处介绍关键参数。详细参数解释请参见https://github.com/vllm-project/vllm/blob/main/vllm/engine/arg_utils.py。 步骤七
模型可以正常启动,但是因为镜像中启用的端口非8080,或者镜像启用的端口与创建模型时配置的端口不一致,导致部署服务时register-agent无法与模型通信,超过一定时间后(最长20分钟)认为模型启动失败。 需要检查两个地方:自定义镜像中的代码开放的端口和创建模型界面上配置的端口。确认两处端口保持一致。模型
rk目录下生成excel表格: 性能结果 LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx 表格样例如下: 父主题: 训练benchmark工具
模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 请联系您所在企业的华为方技术支持下载获取。
使用generate_datasets.py脚本生成和业务数据分布接近的数据集。 方法一:使用公开数据集 ShareGPT下载地址: https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
任务完成之后会在test-benchmark目录下生成excel表格: 性能结果LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx 表格样例如下: 父主题: 训练benchmark工具
使用generate_datasets.py脚本生成和业务数据分布接近的数据集。 方法一:使用公开数据集 ShareGPT下载地址: https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
环境变量后再进行训练。 图14 异常同步流分析 GC Analysis 下图展示了中优先级的GC问题,html中提示发现单步训练中存在200ms左右的空闲时间且在该时间窗内cpu侧没有进行训练算子下发,怀疑是GC导致,可以尝试加上`gc.disable()`关闭GC。 图15 python垃圾回收(GC)分析
annotated-by 否 默认为“human”,表示人工标注。 human creation-time 否 创建该标注的时间。是用户写入标注的时间,不是Manifest生成时间。 confidence 否 表示机器标注的置信度。范围为0~1。 图像分割 { "annotation":
参数类型 描述 name String 系统自动生成的pool名称,相当于pool ID。 creationTimestamp String 时间戳,例如"2021-11-01T03:49:41Z"。 labels PoolMetaLabels object 资源池的标签信息。 annotations
本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单,但是数据传输速度比较慢,费时间。方式二操作相对方式一复杂一些,但是数据传输速度较快。 方式一:将已下载的模型文件通过SSH直接上传至SFS Turbo中。具体步骤如下:
本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单,但是数据传输速度比较慢,费时间。方式二操作相对方式一复杂一些,但是数据传输速度较快。 方式一:将已下载的模型文件通过SSH直接上传至SFS Turbo中。具体步骤如下:
sh命令提前下载完整代码包和安装依赖包,然后使用保存镜像功能。后续训练作业使用新保存的镜像,无需每次启动训练作业时再次下载代码包以及安装依赖包,可节约训练作业启动时间。 由于训练启动命令也会执行sh scripts/install.sh安装依赖包,因此Notebook保存镜像为可选操作。 图3 安装依赖包
本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单,但是数据传输速度比较慢,费时间。方式二操作相对方式一复杂一些,但是数据传输速度较快。 方式一:将已下载的模型文件通过SSH直接上传至SFS Turbo中。具体步骤如下:
error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 删除节点池。 DELETE https://{endpoint}/v2/{project_id}/pools/{pool_name}/nodepools/{nodepool_name}