检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在网络拥塞的情况下,您还可以设置客户端与JDBCServer连接的超时时间,可以避免客户端由于无限等待服务端的返回而挂起。
用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络状态 > TCP临时端口使用率”修改阈值。 平滑次数为1,TCP临时端口使用率小于或等于阈值时,告警恢复;平滑次数大于1,TCP临时端口使用率小于或等于阈值的90%时,告警恢复。
调优方法: Worker节点本身故障: 若不同时间报错统一出现在同一个Worker上,优先排查该节点本身问题,例如网络是否正常,是否存在其它进程占用节点内存资源。
由于是远程调用,则存在发生网络故障的可能性。当发生网络故障时,ApplicationMaster会使用Yarn客户端的重试机制进行重试。在达到最大重试次数之前网络恢复正常,则ApplicationMaster会正常退出。
检查客户端节点网络连接。
检查主备集群RegionServer之间的网络连接。 执行ping命令,查看故障RegionServer节点和备集群RegionServer所在主机的网络连接是否正常。 是,执行5 否,执行3 联系网络管理员恢复网络。 网络恢复后,在告警列表中,查看本告警是否清除。
确保集群网络环境安全。 已创建用户flume_hdfs并授权验证日志时操作的HDFS目录和数据。
缓冲区超时设置 由于task在执行过程中存在数据通过网络进行交换,数据在不同服务器之间传递的缓冲区超时时间可以通过setBufferTimeout进行设置。
本地和集群业务平面网络互通时,您可以直接在本地进行调测。 MapReduce应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 在IntelliJ IDEA中查看应用程序运行情况。 通过MapReduce日志获取应用程序运行情况。
可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。
可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。
前提条件 Doris集群与OBS网络互通,相关操作具体请参考初始化配置。 创建OBS并行文件系统并获取AK/SK和DomainID 创建OBS并行文件系统。 登录OBS管理控制台。 选择“并行文件系统 > 创建并行文件系统”。 填写文件系统名称,例如“doris-obs”。
此外,偶尔也会发生因为网络闪断等导致连接和查询失败的情况。 MRS提供了ClickHouse的样例代码工程,旨在提供连接重试机制和规范化用户连接和查询的方法,从而减少业务失败的风险,提升系统的稳定性和可靠性。
联系网络管理员检查网络配置,确保NTP服务器与主OMS节点网络正常,然后检查告警是否恢复。 是,处理完毕。 否,执行4。 检查与NTP服务器认证是否失败。 以root用户登录主OMS节点,用户密码为安装前用户自定义,请咨询系统管理员。
检查主备集群RegionServer之间的网络连接。 执行ping命令,查看故障RegionServer节点和备集群RegionServer所在主机的网络连接是否正常。 是,执行5 否,执行3 联系网络管理员恢复网络。 网络恢复后,在告警列表中,查看本告警是否清除。
MRS集群创建限制 表1 MRS集群创建约束说明 限制项 说明 网络要求 MRS集群必须创建在VPC子网内。 创建MRS集群时,支持自动创建安全组,也可选择已有的安全组。 MRS集群使用的安全组请勿随意放开权限,避免被恶意访问。 浏览器 建议使用推荐的浏览器登录MRS管理界面。
联系网络管理员查看是否为网络故障。 是,执行5。 否,执行6。 修复网络故障,然后查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行6。 检查备OMS数据库状态是否正常。 以root用户登录备OMS数据库节点。 执行su - omm命令切换到omm用户。
该参数基于集群的EIP访问集群中的YARN WebUI页面,用户如果在VPC界面解绑EIP,MRS服务侧数据会因为未更新导致该参数引用旧EIP导致访问失败,可通过对集群重新进行EIP的绑定来修复该问题。
网络 确保客户端与Alluxio服务主机在网络上互通。 父主题: 准备Alluxio应用开发环境
由于是远程调用,则存在发生网络故障的可能性。当发生网络故障时,ApplicationMaster会使用Yarn客户端的重试机制进行重试。在达到最大重试次数之前网络恢复正常,则ApplicationMaster会正常退出。