检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可以在Huggingface开源社区获取量化后的模型权重;或者获取FP16/BF16的模型权重之后,通过autoAWQ工具进行量化。 方式一:从开源社区下载发布的AWQ量化模型。 方式二:使用AutoAWQ量化工具进行量化。 AutoAWQ量化工具的适配代码存放在代码包AscendCloud-LLM-x
执行代码存放的OBS地址,名称固定为“customize_service.py”。 schema_doc String 模型schema文档的下载地址。 image_address String 模型的执行镜像地址,镜像未构建之前(即当前模型从未发布成服务),显示为空。 input_params
支持本地文件托管至AI Gallery仓库且支持多个文件同时上传。 单个仓库的容量上限为50GB。 支持管理托管的资产文件,例如在线预览、下载、删除文件。 只支持预览大小不超过10MB、格式为文本类或图片类的文件。 支持编辑资产介绍。每个资产介绍可分为基础设置和使用描述。 基础设
默认关闭,即无限制使用。如果打开路数限制,除了设置资产免费使用的路数,还可以设置到期后是否续订。 阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》。 单击“发布”。 发布使用容器镜像导入的资产时,后台会进行资产安全扫描,如果扫描发
给子账号配置"设置作业为高优先级"权限 默认用户权限可选择优先级1和2,配置了"设置作业为高优先级"权限的用户可选择优先级1~3。 使用主用户账号登录华为云的管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入统一身份认证(IAM)服务。 在统一身份认证服务页面的左侧导航选择“权限管理
实践中,通过容器镜像的方式将运行环境进行固化,以这种方式不仅能够进行依赖管理,而且可以方便的完成工作环境切换。配合ModelArts提供的云化容器资源使用,可以更加快速、高效地进行AI开发与模型实验的迭代等。 本章节会先介绍镜像相关概念,然后介绍预置镜像和自定义镜像使用场景,并且提供自定义镜像制作的相关指导。
[ascend_context] precision_mode=enforce_fp32 # 使用fp32。 其他方式 需要实际分析算子层面的差异,需要联系华为工程师进行具体分析。 父主题: 模型精度调优
原来已经建立的链接依然有效, 当链接关闭后失效;新打开建立的链接只允许当前设置的IP进行访问。 此处的IP地址,请填写外网IP地址。如果用户使用的访问机器和华为云ModelArts服务的网络有隔离,则访问机器的外网地址需要在主流搜索引擎中搜索“IP地址查询”获取,而不是使用ipconfig或ifconfig/ip命令在本地查询。
String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application/octet-stream,返回临时下载链接。 X-Auth-Token 是 String 用户token。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述
String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application/octet-stream,返回临时下载链接。 X-Auth-Token 是 String 用户token。 表3 请求Body参数 参数 是否必选 参数类型 描述 app_name
Message”信息时,表示是由于OBS权限导致的问题,请参考如下步骤排除故障。如果界面错误提示不包含此信息,则是因为后台服务故障导致,建议联系华为云技术支持。 检查当前账号是否具备OBS权限。 如果当前账号是个IAM用户(即子账号),需确认当前账号是否具备OBS服务操作权限。 请参考O
stop 否 None None/Str/List 用于停止生成的字符串列表。返回的输出将不包含停止字符串。 例如:["你","好"],生成文本时遇到"你"或者"好"将停止文本生成。 stream 否 False Bool 是否开启流式推理。默认为False,表示不开启流式推理。 n 否
源规格。 图2 报错信息 ECS、EVS配额不足,导致创建失败? 集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。解决方法请参见申请扩大资源配额。 图3 报错信息(1) 图4 报错信息(2) 资源售罄或容量不足,导致创建失败?
表格中,方便查阅。勾选节点名称,在节点列表上方单击“导出 > 导出全部数据到XLSX”或者“导出 > 导出部分数据到XLSX”,在浏览器的下载记录中查看导出的Excel表格。 在节点列表页面中,单击设置图标,支持对节点列表中显示的信息进行自定义。 查看资源池规格 在资源池详情页,
集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kuberne
集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kuberne
集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kuberne
port modelarts:workspace:getQuotas(如果开通了工作空间功能,则需要配置此权限。) 从本地VSCode连接云上的Notebook实例、提交训练作业等。 按需配置。 OBS obs:bucket:ListAllMybuckets obs:bucket:HeadBucket
集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kuberne
--host:服务部署的IP --port:服务部署的端口,注意如果不同实例部署在一台机器上,不同实例需要使用不同端口号 --model:HuggingFace下载的官方权重 --max-num-seqs:同时处理的最大句子数量 --max-model-len:模型能处理的请求输入+输出的token长度