检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Lite Server高危操作一览表 ModelArts Lite Server在日常操作与维护过程中涉及的高危操作,需要严格按照操作指导进行,否则可能会影响业务的正常运行。 高危操作风险等级说明: 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。
安装Gallery CLI配置工具 场景描述 Gallery CLI配置工具支持将AI Gallery仓库的资产下载到云服务端,便于在云服务本地进行训练、部署推理。 Gallery CLI配置工具支持将单个超过5GB的文件从本地上传至AI Gallery仓库中。 约束限制 Gallery
如果您的元模型是自定义的,即推理代码和配置文件是自行编写的(配置文件编写说明),“调用指南”只是将您编写的配置文件进行了可视化展示。调用指南的输入参数与配置文件对应关系如下所示。 图2 配置文件与调用指南的对应关系 不同输入请求的预测方式如下: JSON文本预测 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署
资源池创建失败的原因与解决方法? 本文主要介绍在ModelArts资源池创建失败时,如何查找失败原因,并解决问题。 问题定位 您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题: 登录ModelArts控制台,单击弹性集群,单击资源池列表上方的“操作记录”查看创建失败的资源池。
从而通过身份认证。 AK(Access Key ID):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。 SK(Secret Access Key):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。
AK/SK签名认证方式,仅支持Body体12M以内,12M以上的请求,需使用Token认证。 客户端须注意本地时间与时钟服务器的同步,避免请求消息头X-Sdk-Date的值出现较大误差。因为API网关除了校验时间格式外,还会校验该时间值与网关收到请求的时间差,如果时间差超过15分钟,API网关将拒绝请求。 约束限制
删除节点池 功能介绍 删除节点池。包周期资源池不支持。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/pools/{
查询指定节点池详情 功能介绍 查询指定节点池详情。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_
可选择“ModelArts”、“对象存储服务(OBS)”、“本地上传”。 ModelArts区域 选择当前控制台所在的区域。 OBS区域 选择与当前控制台一致的区域。 存储位置 用来存储发布的资产。 数据类型 当前数据集的数据类型。 选择数据集 选择需要发布的数据集。 许可证类型 根
TensorFlow导出ONNX模型,操作指导请见此处。 如何导出PTH模型 PyTorch模型导出时需要包含模型的结构信息,需要利用jit.trace方式完成模型的导出与保存。 # If you are instantiating the model with *from_pretrained* you can
train_url = args_opt.train_url # 初始定义的网络、损失函数及优化器,详细请参见MindSpore保存与加载。 # 1.初始定义的网络,以“ResNet50”为例。详细请参见ResNet50。 net = resnet50(args_opt.batch_size
查询节点池列表 功能介绍 查询节点池列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/nodepools
据传输。 前提条件 在线服务部署时需选择“升级为WebSocket”。 在线服务中的模型导入选择的镜像需支持WebSocket协议。 约束与限制 WebSocket协议只支持部署在线服务。 只支持自定义镜像导入模型部署的在线服务。 调用API访问在线服务时,对预测请求体大小和预测时间有限制:
ModelArts支持云审计的关键操作 公有云平台提供了云审计服务。通过云审计服务,您可以记录与ModelArts相关的操作事件,便于日后的查询、审计和回溯。 前提条件 已开通云审计服务。 数据管理支持审计的关键操作列表 表1 数据管理支持审计的关键操作列表 操作名称 资源类型 事件名称
train_url = args_opt.train_url # 初始定义的网络、损失函数及优化器,详细请参见MindSpore保存与加载。 # 1.初始定义的网络,以“ResNet50”为例。详细请参见ResNet50。 net = resnet50(args_opt.batch_size
在线服务ID。 model_id 模型负载ID。 设置告警规则 通过设置ModelArts在线服务和模型负载告警规则,用户可自定义监控目标与通知策略,及时了解ModelArts在线服务和模型负载状况,从而起到预警作用。 设置ModelArts服务和模型的告警规则包括设置告警规则名
败场景。针对硬件故障场景,ModelArts提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。 容错检查包括两个检查项:环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时,隔离故障硬件并重新下发训练作业。针对于分布式场景,容错检查会检查本次训练作业的全部计算节点。
每个节点的需求卡数,key保持不变。与MA_NUM_GPUS一致 limits: huawei.com/ascend-1980: "8" # 每个节点的限制卡数,key保持不变。与MA_NUM_GPUS一致
AppKey/AppSecret认证:通过AppKey与AppSecret对请求进行加密签名,可标识发送方并防止请求被修改。使用AppKey/AppSecret认证时,您需要使用专门的签名SDK对请求进行签名。 AppKey:APP访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和
HCCL通信相关环境变量,通常无需设置该环境变量,建议unset该环境变量。具体参考拥塞控制与纠错配置策略 HCCL_RDMA_SL HCCL通信相关环境变量,通常无需设置该环境变量,建议unset该环境变量。具体参考拥塞控制与纠错配置策略 ACLNN_CACHE_LIMIT 用于缓存cann侧的a