检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
动,会立即切换使用新域名。为保障持续提供推理服务,请您及时更新业务中的预测API的域名。 如果您使用的是VPC内部节点访问ModelArts推理的在线服务,预测API切换域名后,由于内网VPC无法识别公网域名,请提交工单联系华为云技术支持打通网络。 父主题: 产品变更公告
产品变更公告 网络调整公告 预测API的域名停用公告
A系列裸金属服务器如何更换NVIDIA和CUDA? 场景描述 当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作。 云监控可以帮助用户更好地了解服务和模型的各项性能指标。 详细内容请参见ModelArts支持的监控指标。 父主题: 安全
i.com不通过公网代理,huaweicloud.com域名在no_proxy/NO_PROXY中包含,就访问不了。 解决方式 执行以下命令查看在no_proxy/NO_PROXY中是否包含huaweicloud.com域名。 env | grep -i no_proxy 如果包
复业务的能力。 云服务域名使用安全及租户内容安全策略 ModelArts服务使用的租户可见域名、租户不可见域名均满足如下安全相关要求,避免了域名使用过程中的合规和钓鱼风险。其中: 租户可见域名:指租户可访问的域名,需要格外重视安全性和合规性。 租户不可见域名:指华为云服务在内网相
告警条件设置 设置告警通知,单击“立即创建”。 “告警方式”:选择“直接告警” “行动规则”:开启开关,选择已创建的行动规则。如果现有列表中的告警行动规则无法满足需要,可单击“新建告警行动规则”添加,详细操作请参考创建告警行动规则。 “告警恢复通知”:开启开关 图4 设置告警通知 先在SMN
<密钥相对路径> -p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用,排查3。 在VS Code Terminal里执行如下检查网络。如果网络异常,请执行命令检查端口。 curl -kv telnet://<域名/ip>:<port> 端口有问题,请联系技术支持。
通过设置ModelArts在线服务和模型负载告警规则,用户可自定义监控目标与通知策略,及时了解ModelArts在线服务和模型负载状况,从而起到预警作用。 设置ModelArts服务和模型的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍了设置ModelArts服务和模型告警规则的具体方法。
type) >=1 图2 告警规则设置 告警级别:选择重要告警。 告警条件:持续时间选择“1分钟”。 设置告警通知(可选)。 如果需要将告警通过邮件、手机方式通知您,可在告警通知处,为此告警规则配置“行动规则”。若此处无行动规则,请新建告警行动规则。 父主题: Lite Cluster
com。内网VPC无法解析modelarts-infer.com域名,需要用户参考当前步骤和“步骤4 VPC访问在线服务”增加内网域名解析。 登录云解析服务DNS管理控制台,左侧导航栏选择“内网域名”。 单击“创建内网域名”,打开创建内网域名弹出框。填写以下参数配置: 域名:遵循命名规范“infer-modelarts-<regionId>
<密钥相对路径> -p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用,排查3。 在VS Code Terminal里执行如下检查网络。如果网络异常,请执行命令检查端口。 curl -kv telnet://<域名/ip>:<port> 端口有问题,请联系技术支持。
完成在线服务部署且服务处于“运行中”状态后,已经通过调用指南页面的信息获取到调用的server端地址,但是调用发起方的客户端访问该地址不通,出现无法连接、域名无法解析的现象。 原因分析 在调用指南页签中显示的调用地址都是华为云APIG(API网关服务)的地址。调用发起方的客户端和华为云网络不通。
卡死检测无需额外配置,作业运行中会自动执行检测。检测到作业卡死后会在训练作业详情页提示作业疑似卡死。如需检测到卡死后发送通知(短信、邮件等)请在作业创建页面配置事件通知。 常见案例:复制数据卡死 问题现象 调用mox.file.copy_parallel复制数据时卡死。 解决方案 复制文件和文件夹均可采用:
阅方式发送通知。具体操作请参考设置告警规则。 当配置完成后,在左侧导航栏选择“云服务监控 > ModelArts”即可查看在线服务的请求情况和资源占用情况,如下图所示。 图4 查看服务的监控指标 当监控信息触发告警时,主题订阅对象将会收到消息通知。 图5 告警消息通知 父主题: Standard推理部署
时长收费 事件通知(不开启则不计费) 订阅消息使用消息通知服务,在事件列表中选择特定事件,在事件发生时发送消息通知。 如果想使用消息通知,需要在创建训练作业时开启“事件通知”功能。 具体计费可见消息通知服务价格详情。 按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量
NotebookUnhealthy 实例处于不健康状态 紧急 OutOfMemory 实例被OOM掉了 紧急 JupyterProcessKilled jupyter进程被killed掉了 紧急 CacheVolumeExceedQuota /cache目录文件大小超过最大限制 紧急 NotebookHealthy
存储空间费用=每GB费率*存储容量*使用时长 事件通知(不开启则不计费) 订阅消息使用消息通知服务,在事件列表中选择特定事件,在事件发生时发送消息通知。 如果想使用消息通知,需要在创建训练作业时开启“事件通知”功能。 具体计费可见消息通知服务价格详情。 按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量
录的读写权限。 事件通知 选择是否打开“事件通知”开关。 开关关闭(默认关闭):表示不启用消息通知服务。 开关打开:表示订阅消息通知服务,当训练作业发生特定事件(如作业状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”和“事件”。 “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。