检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
公共参数 状态码 错误码 获取项目ID和名称 获取帐号名和帐号ID 获取用户名和用户ID
性。本章主要阐述ModelArts服务受入侵的检测响应能力、防抖动的能力、域名合理使用、内容安全检测等能力。 安全防护套件覆盖和使用堡垒机,增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件。及时检测主机层、应用层、网络层和数据层的安全入侵行为。
查询作业引擎规格 功能介绍 查看指定作业的引擎类型和版本。 创建训练作业和预测作业需要指定引擎规格。 URI GET /v1/{project_id}/job/ai-engines 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
为什么需要云上AI开发 视频介绍 06:30 为什么需要云上AI开发 云上AI开发-调试代码 操作指导 23:43 云上AI开发-Notebook调试代码 云上AI开发-运行训练作业 操作指导 16:08 云上AI开发-运行训练作业 云上AI开发总结 操作指导 02:29 云上AI开发总结
如何保证训练和调试时文件路径保持一致 云上挂载路径 Notebook中挂载SFS后,SFS默认在“/home/ma-user/work”路径下。在创建训练作业时,设置SFS Turbo的“云上挂载路径”为“/home/ma-user/work”,使得训练环境下SFS也在“/home/ma-user/work”路径下。
如何使用API接口获取订阅算法的订阅id和版本id? 调用API接口使用“我的订阅”方式创建训练作业时,请求参数需要填写算法的订阅id(algorithm.subscription_id)和版本id(algorithm.item_version_id)。可调用如下接口获取相关信息,如下以北京四为例:
服务部署、启动、升级和修改时,资源不足如何处理? 问题现象 启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources
【下线公告】华为云ModelArts算法套件下线公告 华为云ModelArts服务算法套件将在2024年6月30日00:00(北京时间)正式退市。 下线范围 下线Region:华为云全部Region。 下线影响 正式下线后,ModelArts Notebook中将不会预置算法套件
调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。 父主题: 资源和引擎规格接口
服务部署、启动、升级和修改时,镜像不断重启如何处理? 问题现象 服务部署、启动、升级和修改时,镜像不断重启。 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建模型,部署服务。 父主题: 服务部署
调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。 父主题: 资源和引擎规格接口
是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 查询检索参数说明 参数 是否为必选 参数类型 说明 job_type 否 String 指定作业的类型,可选的有“train”和“inference”。查询自动学习资源规格无需此参数。 engine_id 否
系统设置的默认值为3,表示使用RoCE v2协议。 NCCL_IB_TC 系统设置的默认值为128,表示数据包走交换机的队列4,队列4使用PFC流控机制来保证网络是无损的。 如果训练时,需要提升通信稳定性,可以增加配置其他NCCL环境变量,如表2所示。 表2 建议增加的环境变量 环境变量
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 问题现象 服务部署、启动、升级和修改时,拉取镜像失败。 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
构建模型 自定义模型规范 自定义镜像规范 使用AI Gallery SDK构建自定义模型 父主题: 发布和管理AI Gallery模型
“更多 > 调用”,在调用弹窗中获取API地址和调用示例,在业务环境中调用API进行体验。操作指导请参见调用MaaS部署的模型服务。 当调用模型服务的API,返回状态码“429 Too Many Requests”时,表示请求超过流控,请稍后重新调用。 (可选)当免费Token额
服务部署、启动、升级和修改时,容器健康检查失败如何处理? 问题现象 服务部署、启动、升级和修改时,容器健康检查失败。 原因分析 容器提供的健康检查接口调用失败。容器健康检查接口调用失败,原因可能有两种: 镜像健康检查配置问题 模型健康检查配置问题 解决方法 根据容器日志进行排查,查看健康检查接口失败的具体原因。
附录:基于vLLM不同模型推理支持最小卡数和最大序列说明 基于vLLM(v0.5.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服
附录:基于vLLM不同模型推理支持最小卡数和最大序列说明 基于vLLM(v0.6.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服
附录:基于vLLM不同模型推理支持最小卡数和最大序列说明 基于vLLM(v0.6.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服