检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
{预测地址}。如返回Timeout则需排查本地防火墙,代理和网络配置。 检查模型是否启动成功或者模型处理单个消息的时长。因APIG(API网关)的限制,模型单次预测的时间不能超过40S,超过后系统会默认返回Timeout错误。 父主题: 服务预测
实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小。 blocksize越小,文件数量的上限越小。(
enterprise_project_id String 企业项目ID。 update_time Integer 最后修改时间,UTC。 create_time Integer 创建时间,UTC。 enterprise_project_name String 企业项目名称。 name String
您未被授权执行该操作。 订阅已过期。执行同步操作时报错:ModelArts.5055: 订阅已过期。 处理方法 在权限管理页面进行依赖服务的授权。完成委托授权请参考了解ModelArts权限配置。 检查是否有OBS权限或者接口操作权限。 订阅已过期,可以在AI Gallery确认可以续订后,重新订阅。
_vllm.sh及SSL证书。此处以chatglm3-6b为例。 ascend_vllm代码包在Step9 构建推理代码已生成。 模型权重文件获取地址请参见表1。 推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。 SSL证书制作包含cert.pem和key
是否使用推理与Token解码并行;默认值为1表示开启并行,取值为0表示关闭并行。开启该功能会略微增加首Token时间,但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间,默认值为10,单位为ms。将Token解码延迟进行的毫秒数,使得本次Token解码能与下一次模型
-e . 开启图模式后,服务第一次响应请求时会有一个较长时间的图编译过程,并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理
-e . 开启图模式后,服务第一次响应请求时会有一个较长时间的图编译过程,并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理
是否使用推理与Token解码并行;默认值为1表示开启并行,取值为0表示关闭并行。开启该功能会略微增加首Token时间,但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间,默认值为10,单位为ms。将Token解码延迟进行的毫秒数,使得当次Token解码能与下一次模型
是否使用推理与Token解码并行;默认值为1表示开启并行,取值为0表示关闭并行。开启该功能会略微增加首Token时间,但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间,默认值为10,单位为ms。将Token解码延迟进行的毫秒数,使得本次Token解码能与下一次模型
是否使用推理与Token解码并行;默认值为1表示开启并行,取值为0表示关闭并行。开启该功能会略微增加首Token时间,但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间,默认值为10,单位为ms。将Token解码延迟进行的毫秒数,使得当次Token解码能与下一次模型
“包年/包月”,在页面左下角查看所需费用。 计费周期 包年/包月资源的计费周期是根据您购买的时长来确定的(以北京时间为准)。一个计费周期的起点是您开通或续费资源的时间(精确到秒),终点则是到期日的23:59:59。 例如,如果您在2023/03/08 15:50:04购买了一个时
续费概述 续费简介 包年/包月专属资源池到期后会影响ModelArts正常使用。如果您想继续使用,需要在指定的时间内为资源池续费,否则资源会自动释放,数据丢失且不可恢复。 续费操作仅适用于包年/包月专属资源池,按需计费专属资源池不需要续费,只需要保证账户余额充足即可。 专属资源池
同,选择好规格后,配置费用处会显示相应的费用。 是否自动停止:为了避免资源浪费,建议您打开该开关,根据您的需求,选择自动停止时间,也可以自定义自动停止的时间。 图2 选择计算节点规格 图3 设置自动停止 参数填写完毕之后,单击运行状况右边的“继续运行”,单击确认弹窗中的“确定”即可继续完成工作流的运行。
同,选择好规格后,配置费用处会显示相应的费用。 是否自动停止:为了避免资源浪费,建议您打开该开关,根据您的需求,选择自动停止时间,也可以自定义自动停止的时间。 图2 选择计算节点规格 图3 设置自动停止 参数填写完毕之后,单击运行状况右边的“继续运行”,单击确认弹窗中的“确定”即可继续完成工作流的运行。
max_quota Integer 配额允许设置的最大值。 update_time Integer 最后修改时间,UTC。如用户未修改过该资源配额,则该值默认为该工作空间的创建时间。 resource String 资源的唯一标识。 quota Integer 当前配额值。配额值为-1代表不限制配额。
907-xxx.zip软件包中的AscendCloud-AIGC-6.3.907-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
擎选择Custom,引擎包选择步骤3构建的镜像。 图3 创建模型 将创建的模型部署为在线服务,大模型加载启动的时间一般大于普通的模型创建的服务,请配置合理的“部署超时时间”,避免尚未启动完成被认为超时而导致部署失败。 图4 部署为在线服务 调用在线服务进行大模型推理,请求路径填写
提供训练作业断点续训与增量训练能力,即使训练因某些原因中断,也可以基于checkpoint接续训练,保障需要长时间训练的模型的稳定性和可靠性,避免重新开始训练耗费的时间与计算成本 支持训练数据使用SFS Turbo文件系统进行数据挂载,训练作业产生的中间和结果等数据可以直接高速写入到SFS
emUsage”“npuMemUsage”、“npuUtil”,可以添加或取消对应参数的使用情况图。 操作三:鼠标悬浮在图片上的时间节点,可查看对应时间节点的占用率情况。 图1 资源占用情况 表1 参数说明 参数 说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。