检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
根据样本所在目录搜索(目录需要以/结尾),只搜索指定目录下的样本,不支持目录递归搜索。 sample_name String 根据样本名称搜索(含后缀名)。 sample_time String 样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下:
练迭代的时长。 TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 1 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。对应训练参数 pipeline-model-parallel-size 。 CP 1 表示
GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。 CP 1 表示context并行,默认为1。应用于训练长序列文本的模型。若训练时SEQ_
练迭代的时长。 TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 1 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。对应训练参数 pipeline-model-parallel-size 。 CP 1 表示
dli-job get-log命令查询DLI Spark运行日志 执行ma-cli dli-job get-log命令查询DLI Spark作业后台的日志。 $ ma-cli dli-job get-log -h Usage: ma-cli dli-job get-log [OPTIONS]
String 内存单元数。 表50 Disk 参数 参数类型 描述 size String 磁盘大小。 unit String 磁盘大小单位,一般为GB。 表51 JobVolume 参数 参数类型 描述 nfs Nfs object nfs方式的挂载卷。 表52 Nfs 参数 参数类型
String 内存单元数。 表49 Disk 参数 参数类型 描述 size String 磁盘大小。 unit String 磁盘大小单位,一般为GB。 表50 JobVolume 参数 参数类型 描述 nfs Nfs object nfs方式的挂载卷。 表51 Nfs 参数 参数类型
Content-Type→text/plain 其中,加粗的斜体字段需要根据实际值填写: “task_id”为训练作业的任务名称,一般使用work-0。 Content-Type可以设置成不同方式。text/plain,返回OBS临时预览链接。application/oc
至model目录,AI引擎选择Custom,引擎包选择步骤3构建的镜像。 图3 创建模型 将创建的模型部署为在线服务,大模型加载启动的时间一般大于普通的模型创建的服务,请配置合理的“部署超时时间”,避免尚未启动完成被认为超时而导致部署失败。 图4 部署为在线服务 调用在线服务进行
he索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 --served-model-name:vllm服务后台id。 服务启动后,会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO:
he索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 --served-model-name:vllm服务后台id。 服务启动后,会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO:
数字、空格、下划线(_)和中划线(-),并且以中英文开头。 workflow_id String Workflow工作流ID。创建工作流时后台自动生成。 created_at String Workflow工作流的创建时间。 description String Workflow工作流的描述信息。
String 内存单元数。 表52 Disk 参数 参数类型 描述 size String 磁盘大小。 unit String 磁盘大小单位,一般为GB。 表53 JobVolume 参数 参数类型 描述 nfs Nfs object nfs方式的挂载卷。 表54 Nfs 参数 参数类型
是否使用昇腾 (CANN版本) URL 包含的依赖项 Tensorflow 1.15 是 (CANN 5.1) swr.{region-id}.{局点域名}/atelier/ tensorflow_1_15_ascend:tensorflow_1.15-cann_5.1.0-py_3.7-euler_2
e-model ${container_draft_model_path}同时使用。 --served-model-name:vllm服务后台id。 服务启动后,会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO:
创建分布式并行模型,每个进程都会有相同的模型和参数。 创建数据分发Sampler,使每个进程加载一个mini batch中不同部分的数据。 网络中相邻参数分桶,一般为神经网络模型中需要进行参数更新的每一层网络。 每个进程前向传播并各自计算梯度。 模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。
he索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 --served-model-name:vllm服务后台id。 可在run_vllm.sh增加如下环境变量开启高阶配置: 配置环境变量。 export USE_PFA_HIGH_PRECISION_MODE=1
e-model ${container_draft_model_path}同时使用。 --served-model-name:vllm服务后台id。 可在run_vllm.sh增加如下环境变量开启高阶配置: 配置环境变量。 export USE_PFA_HIGH_PRECISION_MODE=1
JobEngine(image_url="fake_image_url"), # 自定义镜像的url,格式为:组织名/镜像名称:版本号,不需要携带相应的域名地址;如果image_url需要设置为运行态可配置,则使用如下方式:image_url=wf.Placeholder(name="image_url"
ache索引,若不使用该功能,则无需配置。注意:若使用投机推理功能,必须开启此参数。 --served-model-name:vllm服务后台id。 服务启动后,会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO: