检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x
modelarts:image:create - √ √ 获取开发环境挂载的存储列表 GET /v1/{project_id}/notebooks/{id}/storage modelarts:notebook:listMountedStorages - √ √ 挂载开发环境存储 POST /v1/{project_
“结果处理方式”:“更新属性到当前样本中”,或者“保存到对象存储服务(OBS)”。 “属性名称”:当选择“更新属性到当前样本中”时,需输入一个属性名称。 “结果存储目录”:当选择“保存到对象存储服务(OBS)”时,需指定一个用于存储的OBS路径。 “高级特征选项”:启用此功能后,可选择
运行日志。如需了解LTS专业日志管理功能,请参见云日志服务。 说明: “运行日志输出”开启后,不支持关闭。 LTS服务提供的日志查询和日志存储功能涉及计费,详细请参见了解LTS的计费规则。 请勿打印无用的audio日志文件,这会导致系统日志卡死,无法正常显示日志,可能会出现“Failed
如何将在ModelArts中训练好的模型下载或迁移到其他账号? 通过训练作业训练好的模型可以下载,然后将下载的模型上传存储至其他账号对应区域的OBS中。 获取模型下载路径 登录ModelArts管理控制台,在左侧导航栏中选择“模型训练 > 训练作业”,进入“训练作业”列表。 在训
notebook定义数据结构说明 参数 是否必选 参数类型 说明 storage 是 Object 存储路径,如表4所示 extend_storage 否 Array<Storage> 扩展存储列表,如表4所示。扩展存储当前仅支持type为“obsfs”的类型,且仅对部分专属资源池开放。 auto_stop
upper_bound String 超参上界。 discrete_points_num String 连续型超参离散化取值个数。 discrete_values String 离散型超参的取值列表。 表18 algo_configs 参数 参数类型 描述 name String 搜索算法名称。
使用CV2包部署在线服务报错。 原因分析 使用OBS导入元模型,会用到服务侧的标准镜像,标准镜像里面没有CV2依赖的so的内容。所以ModelArts不支持从对象存储服务(OBS)导入CV2模型包。 处理方法 需要您把CV2包制作为自定义镜像,上传至容器镜像服务(SWR),选择从容器镜像中导入元模型,部
在使用MaaS服务时,需要先完成OBS桶、资源池等准备工作。 准备OBS桶 在ModelArts Studio大模型即服务平台创建自定义模型、调优或压缩模型时,需要在对象存储服务OBS中创建OBS桶,用于存放模型权重文件、训练数据集或者是存放永久保存的日志。 创建OBS桶和上传文件的操作指导请参见OBS控制台快速入门。
从OBS导入数据到数据集场景介绍 导入方式 OBS导入数据方式分为“OBS目录”和“Manifest文件”两种。 OBS目录:指需要导入的数据集已提前存储至OBS目录中。此时需选择用户具备权限的OBS路径,且OBS路径内的目录结构需满足规范,详细规范请参见从OBS目录导入数据规范说明。当前只
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
在Lite Cluster资源池上使用Snt9B完成推理任务 场景描述 本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务,随后登录至该Pod容器内部署在线服务,并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。