检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
--num-speculative-tokens:投机推理小模型每次推理的token数。若未使用投机推理功能,则无需配置。
count Integer 指定可用区扩容时,指定可用区的节点数。 表18 Taint 参数 参数类型 描述 key String 键。 value String 值。 effect String 作用效果。
search推理场景,不支持n>1推理场景 不支持chunked prefill 无 算子,包名:AscendCloud-OPP Scatter、Gather算子性能提升,满足MoE训练场景 matmul、swiglu、rope等算子性能提升,支持vllm推理场景 新增random随机数算子
v2容器镜像,将ma-user的uid从1102改为1000,改变方式如下(如果需要sudo权限,可取消sudoers行的注释): v1训练作业环境变量迁移v2说明: v1的DLS_TASK_NUMBER环境变量,可以使用v2的MA_NUM_HOSTS环境变量替换,即选择的训练节点数。
多机多卡 按需购买 (普通OBS桶) 包月购买 (HPC型500G) 免费 免费 包月购买 免费 包月购买 (Ubuntu 18.04,建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) × 表2 开源数据集训练效率参考 算法及数据 资源规格 Epoch数
shared_count Number 订阅的服务数。 schedule Array of Schedule objects 服务调度配置,未配置则不返回。
VLLM调度层适配ATB、pybind 支持LLAMA7B/13B/65B 支持单机多卡推理 ATB模式支持w8a16量化,推理性能提升 配套CANN8.0.RC1镜像 无 算子,包名:AscendCloud-OPP Scatter、Gather算子性能提升,满足MoE场景 昇腾随机数生成算子与
集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。解决方法请参见申请扩大资源配额。 图3 报错信息(1) 图4 报错信息(2) 资源售罄或容量不足,导致创建失败?
关闭绑核表示关闭工作负载实例独占CPU的功能,优点是CPU共享池可分配的核数较多。也可关闭系统默认绑核后,在业务容器中用taskset等方式进行灵活绑核。 Dropcache:开启后表示启用Linux的缓存清理功能,是一种应用性能调优手段,在大部分场景下可以提升应用性能。
limit 否 String 分页单次查询返回数。 请求参数 无 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v2 kind String 资源类型。
limit 否 Integer 分页单次查询返回数。 请求参数 无 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v2 kind String 资源类型。
few_shot=3 \ --is_devserver=True \ --model_name=llama2 \ --deploy_method=vllm \ --vllm_model=${model_path} 参数说明: max_workers:请求的最大线程数,
}/v1/completions \ --few_shot=3 \ --is_devserver=False \ --vllm_model=${model_path} \ --deploy_method=vllm 参数说明: max_workers:请求的最大线程数,
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
TensorDataset, DataLoader from torch.utils.data.distributed import DistributedSampler from sklearn.metrics import accuracy_score 定义加载数据的方法和随机数,
--num-speculative-tokens:投机推理小模型每次推理的token数。如果未使用投机推理功能,则无需配置。
基于vLLM不同模型推理支持最小卡数和最大序列说明章节。
shared_count Number 订阅的服务数。 progress Integer 部署进度,当状态是deploying时,返回此参数。 表2 real-time config结构 参数 参数类型 描述 model_id String 模型ID。
/aoe_output/aoe_unet --configFile=unet.ini --fmk=ONNX --saveType=MINDIR --optimize=ascend_oriented > aoe_unet.log 启动AOE调优后,模型转换时长会延长到数小时,因为其中包含了
表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 返回的数据条目数。 offset 否 Integer 数据条目偏移量。