检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
USE_OPENAI:仅在服务入口实例生效,用于配置api-server服务是否使用openai服务,默认为1。当配置为1时,启动服务为openai服务;当配置为0时,启动服务为vllm服务。 其中常见的参数如下: --host:服务部署的IP --port:服务部署的端口,注意如果不
本文详细介绍如何在ModelArts的开发环境Notebook中使用基础镜像构建一个新的推理镜像,并完成AI应用的创建,部署为在线服务。本案例仅适用于华为云北京四和上海一站点。 操作流程如下: Step1 在Notebook中构建一个新镜像:在ModelArts的开发环境Notebook中制
heckpoint文件下载到训练容器的本地目录。 图1 训练输出设置 PyTorch版reload ckpt PyTorch模型保存有两种方式。 仅保存模型参数 state_dict = model.state_dict() torch.save(state_dict, path)
网络结构变化。 AI框架版本升级,使用了新版本算子。 例如:每半年对模型进行一次变更,变更的内容包含模型结构,并升级AI框架。 - 是否使用华为MDC产品 如果使用华为MDC产品,请填写MDC版本号,如果没有可以不填。 例如:使用了C83版本。 - 性能指标与预期 例1: 模型:YOLOv5 运行环境:Vnt1
示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id更新。 from modelarts.session import Session from modelarts
deploy_method:部署方法,不同的部署方式api参数输入、输出解析方式不同,目前支持tgi、ma_standard、vllm等方式。 vllm_model:deploy_method为vllm时,服务以openai的方式启动,vllm_model为启动服务时传入的model_path。 Step2
服务部署、启动、升级和修改时,镜像不断重启如何处理? 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建AI应用,部署服务。 父主题: 服务部署
io/disk-pressure: }" / "No space") 解决方法 在遇到资源不足的情况时,ModelArts会进行三次重试,在服务重试期间,如果有资源释放出来,则服务可以正常部署成功。 如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决: 如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。
功能介绍 创建训练作业标签,支持批量添加,当添加的标签key已存在,则覆盖该标签的value。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{pr
易导致部分进程完成训练退出,而部分训练进程因未收到其他进程反馈卡死,如下图同一时间有的进程在epoch48,而有的进程在epoch49。 解决方案 对齐数据。 父主题: 训练作业卡死
照如下规则为您计算变更费用: 资源升配:新配置价格高于老配置价格,此时您需要支付新老配置的差价。 资源降配:新配置价格低于老配置价格,此时华为云会将新老配置的差价退给您。 资源降配会影响ModelArts性能,通常不建议您这样操作。这里以资源升配且无任何优惠的场景为例,假设您在2
删除资源标签 功能介绍 删除指定Notebook资源的标签,支持批量删除。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/{project_i
Notebook时长续约 功能介绍 该接口用于延长运行中的Notebook实例的运行时间。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PATCH /v1/{p
2推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。 AscendCloud-OPP-6.3.905-xxx.zip 推理依赖的算子包。 模型软件包结构说明 本教程需要使
通过openssl创建SSL pem证书 在ECS中执行如下命令,会在当前目录生成cert.pem和key.pem,并将生成的pem证书上传至OBS。证书用于后续在推理生产环境中部署HTTPS推理服务。 openssl genrsa -out key.pem 2048 openssl
通过openssl创建SSL pem证书 在ECS中执行如下命令,会在当前目录生成cert.pem和key.pem,并将生成的pem证书上传至OBS。证书用于后续在推理生产环境中部署HTTPS推理服务。 openssl genrsa -out key.pem 2048 openssl
在Notebook实例中,使用pip install时,提示“ReadTimeoutError...”或者“Read timed out...”的错误。 解决办法 建议先尝试使用pip install --upgrade pip,再使用pip install。 父主题: Notebook实例常见错误
Shell登录训练容器,且训练作业必须处于“运行中”状态。 前提条件:给子账号配置允许使用Cloud Shell的权限 使用主用户账号登录华为云的管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入统一身份认证(IAM)服务。 在统一身份认证服务页面的左侧导航选择“权限管理
--logdir ./命令,报错[Errno 13] Permission denied……。 原因分析 当前目录下包含没有权限的文件。 解决方法 建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然
name)和帐号ID(domain_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的查看“帐号名”和“帐号ID”。 图1 获取帐号名和ID 父主题: 公共参数