检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图1 复制登录指令 Step2 修改并上传镜像 在ECS服务器中输入登录指令后,使用下列示例命令将Standard镜像上传至SWR: docker tag ${dockerfile_image_name}
未操作自动断开,此时可单击“重新连接”重新登录实例容器。 图5 CloudShell界面 部分用户登录Cloud Shell界面时,可能会出现路径显示异常情况,此时在Cloud Shell中单击回车键即可恢复正常。 图6 路径异常 父主题: 将模型部署为实时推理作业
置完成后,单击“确认”提交扩缩容任务。 在“扩缩容服务”对话框,单击“确定”。 在“我的服务”页签,单击服务名称,进入服务详情页,可以查看修改后的实例数是否生效。 父主题: 管理我的服务
{image_url}参见表2。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。训练默认使用单机8卡。 docker run -itd --net=host \ --device=/dev/davinci0
"workflow_name" : "wf-test-service-xiahou", "execution_id" : "837f989e-ff44-4089-90f5-ec6d790d339d", "step_name" : "service_step", "step_title"
理残留目录导致,即: 镜像里面“/var/lib/cloud/instances”残留了制作镜像机器(后面称模板机)的实例ID信息,如果制作镜像不清理“/var/lib/cloud/*”就会导致用该镜像再重装模板机时,cloud-init根据残留目录(含实例ID)判断已经执行过一
表31 advanced_config 参数 参数类型 描述 auto_search auto_search object 超参搜索策略。 表32 auto_search 参数 参数类型 描述 skip_search_params String 需要排除的超参组合。 reward_attrs
ceval_validation或mmlu_test results.log results.json 目前只支持以上超参,客户修改其他参数则需手动修改yaml文件内容 执行精度比较脚本 进入test-benchmark目录目录执行命令。 ascendfactory-cli accuracy
建议您按以下步骤排查处理: 确认部署在线服务时是否选择了GPU规格。 在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本(customize_service.py编写指导请见模型推理代码编写说明)。 确认该cuda版本与您安装的mmcv版本是否匹配。
parquet 必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/ws/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 SHELL_FOLDER
Query参数 参数 是否必选 参数类型 描述 service_id 否 String 服务ID,在创建服务时即可在返回体中获取,也可通过查询服务列表接口获取当前用户拥有的服务,其中service_id字段即为服务ID。默认不过滤服务ID。 service_name 否 String 服务名
tensorflow包含所有的接口,对TensorFlow做了优化,里面的实际接口还是TensorFlow的原生接口。 当非MoXing代码中没有Adam名称范围时,需要修改非MoXing代码,在其中增加如下内容: with tf.variable_scope("Adam"): 在增加代码时不建议使用自定义“global_step”,推荐使用tf
当使用推理的镜像并且出现MR.XXXX类型的错误时,表示已进入模型服务,一般是模型推理代码编写有问题。 请根据构建日志报错信息,定位服务预测失败原因,修改模型推理代码后,重新导入模型进行预测。 经典案例:在线服务预测报错MR.0105 出现其他情况,优先检查客户端和外部网络是否有问题。 以上方法均未解决问题,请联系系统管理员。
# 安装模型运行环境 │ └── qwen-vl.patch # 使用git apply修改模型相关代码 │ └── models └── Qwen-VL-Chat 父主题: 准备工作
在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图1 复制登录指令 Step2 修改并上传镜像 在ECS服务器中输入登录指令后,使用下列示例命令将Standard镜像上传至SWR: docker tag ${dockerfile_image_name}
返回多条正常结果。 约束与限制: 不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。 使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。
2-cudnn7-ubuntu18.04", "resource_categories": [ "CPU", "GPU" ], "service_type": "COMMON", "status": "ACTIVE", "swr_path": "swr.cn-north-4
返回多条正常结果。 约束与限制: 不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。 使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。
查询工作空间列表,响应消息体中包含详细信息。 创建工作空间 创建工作空间。 查询工作空间详情 查询工作空间详情。 修改工作空间 修改工作空间。 删除工作空间 删除工作空间。 查询工作空间配额 查看工作空间配额。 修改工作空间配额 修改工作空间配额。
hmark的请求频率(request-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导