检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
k/tokenizer/chatglm3-6b/config.json 问题3:使用离线推理时,性能较差或精度异常。 解决方法:将block_size大小设置为128。 from vllm import LLM, SamplingParams llm = LLM(model="facebook/opt-125m"
可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称,
Administrator 裸金属服务器BMS BMS FullAccess 镜像服务IMS IMS FullAccess 数据加密服务DEW DEW KeypairReadOnlyAccess 虚拟私有云VPC VPC FullAccess 弹性云服务器ECS ECS FullAccess
打开”,打开Notebook实例。 ModelArts Lite DevServer 开通裸金属服务器资源请见DevServer资源开通,在裸金属服务器上搭建迁移环境请见裸金属服务器环境配置指导。 父主题: GPU推理业务迁移至昇腾的通用指导
图5 资源设置 表2 部署模型服务 参数 说明 取值样例 服务设置 服务名称 自定义模型服务的名称。 service-1122 描述 部署模型服务的简介。 - 模型设置 部署模型 当从“我的模型”进入部署模型服务页面时,此处默认呈现选择的模型。 Qwen2-7B 资源设置 资源池类型
协议: 使用WebSocket协议的方式访问在线服务:WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。 使用Server-Sent
/{algorithm_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 algorithm_id 是 String 算法ID。 请求参数 无 响应参数 无 请求示例 如下以修改uui
在ModelArts管理控制台,左侧菜单栏选择“Workflow”进入Workflow页面。 在服务部署节点启动之后会等待用户设置相关配置信息,选择模型及版本为异步推理模型,设置服务启动参数,配置完成后直接单击继续运行即可。 其中服务启动参数与您选择的异步推理模型相关,选择了需要的模型及版本后,系统会自动匹配响应的服务启动参数。
Cluster或Lite Server时,所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小等资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。具体配额项如下。 表1 ModelArts Lite涉及的资源配额 服务 资源类型 ECS资源类型 ECS实例数 CPU核心数 RAM容量(MB)
Server算力资源和镜像版本配套关系 Lite Server提供多种NPU、GPU镜像,您可在购买前了解当前支持的镜像及对应详情。 NPU Snt9裸金属服务器支持的镜像详情 镜像名称:ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情 软件类型 版本详情 操作系统
获取对应模型的权重文件,获取链接参考表1。 权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。 方法二:huggingface-cli:huggingface-cli是 Hugging
CAA1A71019C9D0 retry:0 原因分析 出现该问题的可能原因如下: OBS服务的权限出现问题,导致无法正常读取数据 处理方法 请检查OBS权限配置,如未解决问题可参考OBS文档的已配置OBS权限,仍然无法访问OBS(403 AccessDenied)。 建议与总结
基本配置 权限配置 创建网络 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutil安装和配置 (可选)工作空间配置 父主题: 专属资源池训练
配置ModelArts授权。若没有授权,ModelArts训练管理、开发环境、数据管理、在线服务等功能将不能正常使用。该API支持管理员给IAM子用户设置委托,支持设置当前用户的访问密钥。调用该API需要在IAM系统里配置Security Administrator权限。 调试 您可以在API Ex
CommonOperations权限只能二选一,不能同时选。 SFS弹性文件服务 弹性文件服务SFS Turbo的所有权限。使用SFS服务时需要配置。 ECS弹性云服务器 弹性云服务器所有权限。使用ECS服务时需要配置。 SWR容器镜像仓库 容器镜像仓库所有权限。使用SWR服务时需要配置。同时,还需开通SWR组织权限。
重,以提高推理效率。 压缩后模型名称 设置压缩后产生的新模型的名称。 支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、下划线(_)、中划线(-)和(.)。 参数设置 平滑系数/Migration Strength 设置SmoothQuant量化的迁移系数,仅
代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911版本。 说明: 如果上述软件获取路径打开后未显示相应
allocated memory try setting max_split_size_mb to avoid fragmentation. 解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数
#启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 确保Notebook内通网,已通网可以跳过这一步,未通网需要配置$config_proxy_str,$config_pip_str设置对应的代理和pip源,来确保当前代理和pip源可用。
py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 确保容器内通网,未通网需要配置$config_proxy_str,$config_pip_str设置对应的代理和pip源,来确保当前代理和pip源可用。