检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。 作业优先级取值为1~3,默认优先级为1,最高优先级为3。默认用户权限可选择优先级1和2,配置了“设置作业为高优先级权限”的用户可选择优先级1~3。 如何设置训练作业优先级 在创建训
在线体验”,进入“模型体验”页面。 在“模型体验”右上角,单击“参数设置”,拖动或直接输入数值配置推理参数。单击“恢复默认”可以将参数值调回默认值。 图1 设置推理参数 表1 参数设置 参数 说明 温度/Temperature 设置推理温度。 数值较高,输出结果更加随机。 数值较低,输出结果更加集中和确定。
模型({0})为订阅模型,无法创建新版本 订阅的模型无法创建新版本。 403 ModelArts.3555 Forbidden to access ECS. 无权访问ECS。 对ECS服务进行开通授权后重试。 403 ModelArts.3936 The app-auth API {id} does not
multi-step参数设置 启动推理服务时,使用multi-step调度需要配置的参数如下表所示。 表1 开启multi-step调度参数配置 服务启动方式 配置项 取值类型 配置说明 offline num_scheduler_steps int 连续运行模型的步数。 默认为1,推荐设置为8 offline
”页面。 在选择模型及配置中,单击“增加模型版本进行灰度发布”添加新版本。 图1 灰度发布 您可以设置两个版本的流量占比,服务调用请求根据该比例分配。其他设置可参考参数说明。完成设置后,单击下一步。 确认信息无误后,单击“提交”部署在线服务。 父主题: Standard推理部署
NoDiscount instance_num Integer 当前用户创建的该规格实例的数量。 duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”
默认无限制,支持设置1~60000。 分钟 推理服务GPU规格使用时长(单节点为统计基础单元) 默认无限制,支持设置1~60000。 分钟 训练作业CPU规格训练核数 默认无限制,支持设置1~10000。 核 训练作业GPU规格训练卡数 默认无限制,支持设置1~1000。 卡 训练作业RAM规格训练内存大小
不允许参数status设置成running(启动)或设置参数configs(服务配置)。 当前服务状态是waiting(排队中)时,不允许参数status设置成running(启动)。 当前服务状态是concerning(告警)时,不允许参数status设置成running(启动)。
不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr
不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr
)服务。 添加训练作业使用权限。在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 “策略名称”:设置自定义策略名称,例如:trainJob。 “策略配置方式”:选择JSON视图。 “策略内容”:填入如下内容。 { "Version":
修改/etc/docker/daemon.json配置文件default-shm-size字段 方式二: docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小 NPU:RoCE网卡down RoCELinkStatusDown 重要 NPU 卡 %d RoCE Link 状态Down
选择“对象存储服务OBS”或“并行文件系统PFS”作为存储位置。 选择“存储位置”:设置用于存储Notebook数据的OBS路径。如果想直接使用已有的文件或数据,可将数据提前上传至对应的OBS路径下。“存储位置”不能设置为OBS桶的根目录,需设置为对应OBS桶下的具体目录。 选择“凭据”:选择已有的凭据或
在目标服务右侧,单击操作列的“在线体验”,跳转到“模型体验”页面,在右上角单击“参数设置”,按需配置相关参数,即可开始问答体验。操作指导请参见在MaaS体验模型服务。 表1 参数设置 参数 说明 温度/Temperature 设置推理温度。 数值较高,输出结果更加随机。 数值较低,输出结果更加集中和确定。
动的NPU卡数保持一致,默认为1。 --block-size:kv-cache的block大小,推荐设置为128。 --num-scheduler-steps: 默认为1,推荐设置为8。用于multi-step调度。每次调度生成多个token,可以降低时延。开启投机推理后无需配置该参数,否则会导致投机推理启动报错。
16,32 # 设置动态分档的档位,根据实际情况设置,另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek
分页列表的起始页,默认为0。 process_parameter 否 String 图像缩略设置,同OBS缩略图设置,详见OBS缩略图设置。如:image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 sample_state 否 String 样本状态。可选样本状态如下:
在ModelArts管理控制台,使用创建好的模型部署为在线服务。 登录云监控服务CES管理控制台,设置ModelArts服务的告警规则并配置主题订阅方式发送通知。具体操作请参考设置告警规则。 当配置完成后,在左侧导航栏选择“云服务监控 > ModelArts”即可查看在线服务的请求情况和资源占用情况,如下图所示。
16,32 # 设置动态分档的档位,根据实际情况设置,另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek
添加部署上线使用权限。在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 添加部署上线使用权限。 “策略名称”:设置自定义策略名称,例如:service。 “策略配置方式”:选择JSON视图。 “策略内容”:填入如下内容。 {