检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务预测地址,示例:http://${docker_ip}:8080/generate。此处的${docker_ip}替换为宿主机实际的IP地址,端口号8080来自前面配置的服务端口。 few_shot:开启少量样本测试后添加示例样本的个数。默认为3,取值范围为0~5整数。 is_devserver:
参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String
参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String
准备代码 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码
tion)是否使用高精度模式;默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1 # IFA
EndpointsReq 参数 是否必选 参数类型 描述 allowed_access_ips 否 Array of strings 允许远程接入的公网IP地址列表,最多5个。 service 否 String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。
json文件,其中xx表示当前实例的IP地址,yy表示当前实例使用的device_id信息;当实例类型为服务入口实例,local rank_table配置local_ranktable_xx_host.json文件,其中xx表示当前实例的IP地址。 NODE_PORTS:仅在服务入
参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String
equest-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导致调用失败,可提交工单设置请求超时时间。
tion)是否使用高精度模式;默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1 # IFA
准备代码 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码
参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String
json文件,其中xx表示当前实例的IP地址,yy表示当前实例使用的device_id信息;当实例类型为服务入口实例,local rank_table配置local_ranktable_xx_host.json文件,其中xx表示当前实例的IP地址。 NODE_PORTS:仅在服务入
json文件,其中xx表示当前实例的IP地址,yy表示当前实例使用的device_id信息;当实例类型为服务入口实例,local rank_table配置local_ranktable_xx_host.json文件,其中xx表示当前实例的IP地址。 NODE_PORTS:仅在服务入
json文件,其中xx表示当前实例的IP地址,yy表示当前实例使用的device_id信息;当实例类型为服务入口实例,local rank_table配置local_ranktable_xx_host.json文件,其中xx表示当前实例的IP地址。 NODE_PORTS:仅在服务入
ripts/install.sh文件。具体为删除install.sh的第43行 "git cherrypick 171ba0b3"。该问题会导致代码安装失败,会在后续版本修复。 代码上传至OBS 将AscendSpeed代码包AscendCloud-3rdLLM-905-xxx.
扩缩容Lite Cluster资源池 场景介绍 当Lite Cluster资源池创建完成,使用一段时间后,由于用户业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts Lite Cluster资源池提供了扩缩容功能,用户可以根据需求动态调整资源。 缩容操作可能影响
tion)是否使用高精度模式;默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1 # IFA
扩缩容Standard专属资源池 场景介绍 当专属资源池创建完成,使用一段时间后,由于用户AI开发业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts Standard专属资源池提供了扩缩容功能,用户可以根据自己的需求动态调整。 使用扩容功能时,可以增加资源池已有规格的实例数量。
Auth”,单击“Browse”,选择“.ppk文件”(由Step2密钥对.pem文件生成)。 单击“Open”。如果首次登录,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“Accept”将证书保存到本地注册表中。 图6 询问是否接受服务器的安全证书 成功连接到云上Notebook实例。