云服务器内容精选

  • 检查云服务器CPU利用率 云服务器的带宽和CPU利用率过高可能导致网站无法访问。如果您已经通过 云监控服务 创建过告警任务,当CPU或带宽利用率高时,系统会自动发送告警给您。 定位影响云服务器带宽和CPU利用率高的进程。 Windows操作系统本身提供了较多工具可以定位问题,包括任务管理器、性能监视器(Performance Monitor)、资源监视器(Resource Monitor)、Process Explorer、Xperf (Windows server 2008 以后)和抓取系统Full Memory Dump检查。 Linux操作系统执行top命令查看当前系统的运行状态。 问题处理:排查进程是否正常,并分类进行处理。 正常进程:优化程序,或参考变更规格通用操作变更 云服务器配置 。 异常进程:建议您手动关闭进程,您也可以借助第三方工具关闭进程。
  • 检查备案与 域名 解析是否正常(使用域名无法访问时适用) 完成上述的排查后,请使用弹性公网IP进行访问。如果使用IP地址可以访问,但是域名访问失败,则可能是域名备案或者解析相关问题造成网站无法访问。 网站的访问与域名的状态、域名实名认证状态、网站备案状态、解析是否生效、网站网络环境等多个环节有关系。在这些环节中,任意一个环节出现问题,都会导致网站无法访问。 关于域名与备案解析的排查思路请参考网站无法访问排查思路(排查域名与备案解析)。 检查域名备案。 备案是中国大陆的一项法规,网站的域名和服务器IP需要进行备案,备案成功后您的域名才可以指向服务器开通访问。 如果您使用中国大陆节点服务器提供互联网信息服务,需要先在服务器提供商处提交备案申请,备案成功后域名才可以指向服务器开通访问。如何备案? 如果您使用的是中国大陆地区以外的服务器(包括中国港澳台及其他国家、地区)提供互联网信息服务,无需备案。 如果您的域名已在其他接入商办理过备案并取得备案号,现在更换到华为云服务器进行域名解析(或者二级域名指向华为云),因接入商有变更,需要您在华为云做接入备案。 请确保网站内容与备案信息一致,且备案信息真实有效。 如果您的网站已备案成功仍无法访问,请等待一个工作日。由于信息同步延迟,备案通过一个工作日后网页会自动开放。 检查域名解析。 如果域名已备案,但未正确配置域名解析也可能会导致域名无法Ping通。 您可以DNS服务控制台查看域名解析详情。 检查DNS服务器配置。 如果ping 域名显示找不到主机可能是DNS服务器速度慢,导致的访问卡顿,建议您参考案例:弹性云服务器访问中国大陆外网站时加载缓慢怎么办?进行优化。
  • 检查云服务器路由配置 Linux操作系统云服务器 使用route命令查看路由策略,确保0.0.0.0的默认路由指向网关,使用的IP和网关在相同网段,如下图第1行和第3行所示。 使用ifconfig或者ip addr命令查看实例的IP地址。 图4 ifconfig命令查看IP地址 图5 ip addr命令查看IP地址 使用route -n命令通过路由表查看网关。 图6为示例,具体以云服务器网关实际地址为准。 图6 route -n命令查看网关
  • 排查思路 如果打开网站有报错提示信息,首先应该根据报错提示信息,排查可能的原因。 您可以参考通用请求返回值中错误码说明排查可能原因。 如果报错提示信息无法帮助您准确定位问题,请记录资源信息和问题时间,然后单击提交工单,填写工单信息,获取技术支持。 您还可以根据以下排查思路进行问题定位,排查思路根据可能原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 图1 网站无法访问排查思路 表1 网站无法访问排查思路 可能原因 处理措施 检查端口通信 检查Web端口是否正常监听,详细操作请参考检查端口通信问题。 检查安全组规则 检查安全组是否放通Web端口,详细操作请参考检查安全组规则。 检查防火墙配置 测试防火墙关闭后是否可以正常访问,详细操作请参考检查防火墙配置。 检查云服务器路由配置 查看云服务器路由表中网关信息配置是否正确,详细操作请参考检查云服务器路由配置。 检查本地网络 更换手机热点或其他网络测试是否可以正常访问,详细操作请参考检查本地网络。 检查云服务器CPU利用率 定位影响云服务器CPU利用率高的进程并优化进程,详细操作请参考检查云服务器CPU利用率。 检查域名解析(适用于域名访问的场景) 域名解析配置是否配置正确,详细操作请参考检查备案与域名解析是否正常(使用域名无法访问时适用)。 检查域名备案(适用于域名访问的场景) 网站的域名和服务器IP是否备案成功,详细操作请参考检查备案与域名解析是否正常(使用域名无法访问时适用)。
  • 检查端口通信问题 确保服务进程和端口正常工作,处于LISTEN状态。表2为常见TCP状态。 Linux操作系统云服务器端口通信问题排查 使用netstat -antpu命令检查服务的状态,确认端口是否正常监听。 例如:netstat -antpu |grep sshd 图2 查看端口监听状态_linux 如果端口被正常监听,请执行检查安全组规则。 如果端口没有被正常监听,请检查Web服务进程是否启动或者正常配置。 Windows操作系统云服务器端口通信问题排查 使用远程端口检测命令: 打开CMD命令行窗口。 执行netstat -ano | findstr “端口”命令查看进程使用的端口号。 例如:netstat -ano | findstr “80” 图3 查看端口监听状态_windows 如果端口被正常监听,请执行检查安全组规则。 如果端口没有被正常监听,请检查Web服务进程是否启动或者正常配置。 表2 常见TCP状态 TCP状态 说明 对应场景 LISTEN 侦听来自远方的TCP端口的连接请求 正常TCP服务端 ESTABLISHED 代表一个打开的连接 正常TCP连接 TIME-WAIT 等待足够的时间以确保远程TCP接收到连接中断请求的确认 已关闭的TCP连接,一般1分钟后清除。 CLOSE-WAIT 等待从本地用户发来的连接中断请求 应用程序BUG,没有关闭socket。出现在网络中断后。一般是进程死循环或等待其他条件。可以重启对应进程。 FIN-WAIT-2 从远程TCP等待连接中断请求 网络中断过,需要12分钟左右自行恢复。 SYN-SENT 再发送连接请求后等待匹配的连接请求 TCP连接请求失败。一般是服务端CPU占用率过高,处理不及时导致。DDos攻击也会出现此情况。 FIN-WAIT-1 等待远程TCP连接中断请求,或先前的连接中断请求的确认 网络中断过,此状态可能不会自行修复(等15分钟以上确认),如果长期占用端口需要重启OS恢复。
  • 解决方案 规划网段时控制子网可容纳的主机数量小于default.gc_thresh3值。 调整内核参数,修改ARP缓存条目数,使gc_thresh3的值远大于VPC同一网段内实例数量。并确保gc_thresh3的值大于gc_thresh2的值,gc_thresh2的值大于gc_thresh1的值。 假设子网为20位掩码,则网络内可容纳的主机数最大为4096,则default.gc_thresh3的数值不能小于4096。 临时生效: # sysctl -w net.ipv4.neigh.default.gc_thresh1=2048 # sysctl -w net.ipv4.neigh.default.gc_thresh2=4096 # sysctl -w net.ipv4.neigh.default.gc_thresh3=8192 永久生效: 编辑/etc/sysctl.conf添加内容如下: net.ipv4.neigh.default.gc_thresh1 = 2048 net.ipv4.neigh.default.gc_thresh2 = 4096 net.ipv4.neigh.default.gc_thresh3 = 8192 如果系统环境需要使用到IPV6,则还需要添加IPV6的配置项: net.ipv6.neigh.default.gc_thresh1 = 2048 net.ipv6.neigh.default.gc_thresh2 = 4096 net.ipv6.neigh.default.gc_thresh3 = 8192
  • 问题原因 Neighbour表引用ARP缓存,Neighbour表溢出说明ARP表满了,新的连接会因为ARP表满而被拒绝,导致连接问题。 可以通过以下命令来检查最大ARP缓存表大小: # cat /proc/sys/net/ipv4/neigh/default/gc_thresh3 ARP缓存表有三个参数,分别如下: /proc/sys/net/ipv4/neigh/default/gc_thresh1 /proc/sys/net/ipv4/neigh/default/gc_thresh2 /proc/sys/net/ipv4/neigh/default/gc_thresh3 gc_thresh1,最小条目数。如果缓存中的条目数少于此数目,则垃圾回收器将不会运行。 gc_thresh2,软最大条目数。如果实际条目数超过该值超过5秒,垃圾收集器将运行。 gc_thresh3,硬最大条目数。如果缓存中的条目数超过此数目,则垃圾回收器将始终运行。 要验证IPv4的ARP条目的实际数量,可以运行以下命令: # ip -4 neigh show nud all | wc -l
  • 问题现象 用户Linux云服务器向同子网服务器发起请求时,服务端已经收到包,但是没有回包。在服务器端对客户端进行ping操作时返回“sendmsg: Invalid argument”。 64 bytes from 192.168.0.54: icmp_seq=120 ttl=64 time=0.064 ms 64 bytes from 192.168.0.54: icmp_seq=122 ttl=64 time=0.071 ms ping: sendmsg: Invalid argument ping: sendmsg: Invalid argument ping: sendmsg: Invalid argument 用户在Linux云服务器日志文件/var/log/messages中查询到或运行dmesg命令输出neighbour table overflow异常信息。 [21208.317370] neighbour: ndisc_cache: neighbor table overflow! [21208.317425] neighbour: ndisc_cache: neighbor table overflow! [21208.317473] neighbour: ndisc_cache: neighbor table overflow! [21208.317501] neighbour: ndisc_cache: neighbor table overflow!