检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前提条件 您需要规划环境所在的区域信息,并根据区域确定调用API的Endpoint,详细信息请参见地区和终端节点。 操作步骤 创建环境。
表1 打通集群间网络 集群间网络 检查方法 打通方法 节点网络互通 在集群A中ping集群B的节点IP,ping通则说明网络互通。 设置集群网络类型 将集群网络类型设置为underlay,以支持集群间Pod通信。具体操作请参见参考设置集群网络类型。
Region对应的值请参见地区和终端节点。
单击实体节点,右侧弹出模型实例列表对话框。 单击模型实例名称,查看模型实例详情。 详情页面展示模型的基本信息、特征信息、关联实体架构图、关联实体等信息。 父主题: 实体元模型管理
各区域对应的域名可以从这里的终端节点查看。
由于集群继续按小时计费或包年/包月计费,如果节点故障/系统升级仅导致集群短暂中断(例如15分钟),则您将看不到任何差异。如果此类事件导致系统中断(非常罕见),则不会向您收取停机时间的费用。
操作命令中的AK/SK要换成用户实际获取的AK/SK,Endpoint可以参考终端节点(Endpoint)和访问域名获取。 父主题: 基本配置
${node-path}:节点自定义目录,该目录下包含pod配置文件config.yaml。 ${model-path}:Step1 上传权重文件中上传的模型权重路径。
--address:头节点IP+端口号,头节点创建成功后,会有打印。 正常启服务即可。 推理服务基础参数说明如下: --model ${container_model_path}:模型地址,模型格式是HuggingFace的目录格式。
/scripts/obs_pipeline.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。
调用接口前,您需要提前获取到地区和终端节点,即下文中的Endpoint值。 接口约束 最多查询最近一个月的任务列表。 调试 您可以在API Explorer中调试该接口。
表6 CreateLimitTaskNodeResult 参数 参数类型 描述 node_id String 节点ID。 sql_id String 该节点执行的SQL语句ID。 请求示例 创建限流范围是SQL级别,限流类型是SQL_ID的限流任务。
对系统的影响 节点的操作系统熵值不足,可能导致该节点上加解密等命令执行慢,进而引起各实例业务处理性能下降,甚至业务进程无法正常执行。 可能原因 haveged或者rng-tools工具未安装或未启动。 系统熵值连续多次检测低于100。
可能原因 该节点Oozie实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Oozie进程垃圾回收(GC)时间超过阈值”,检查该告警的“定位信息”。
NodeManager重启过程中,提交到该节点的Container可能会重试到其他节点。
可能原因 该节点Loader实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Loader直接内存使用率超过阈值”,检查该告警的“定位信息”。
可能原因 该节点RangerAdmin实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。
可能原因 节点TagSync实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。
可能原因 该节点TagSync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。
可能原因 该节点IoTDB进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。