云服务器内容精选

  • 可能原因 Windows云服务器的动态端口耗尽。 由于Windows操作系统中TCP默认的TIME_WAIT时间为4分钟,因此,当Windows操作系统云服务器在长时间使用后,可能会存在处于TIME_WAIT状态并占用大量端口的连接,从而导致Windows云服务器访问外部网站或应用出现异常。 您可以在Windows云服务器的CMD命令提示符中,执行以下命令查看处于TIME_WAIT状态的连接。 netstat -an |find "TIME_WAIT" /c 执行结果如下: 图1 查看TIME_WAIT状态的连接数量
  • 处理方法 登录Windows云服务器。 以管理员身份运行CMD。 执行以下命令,查看当前的动态端口数量。 netsh int ipv4 show dynamicport tcp 图2 查看当前动态端口 执行以下命令,增大动态端口数量并再次查看当前动态端口数量。 netsh int ipv4 set dynamicport tcp start=1025 num=60000 netsh int ipv4 show dynamicport tcp 图3 设置动态端口 重新访问外部网站或应用。
  • 处理方法 如果出现分区未对齐的情况,则磁盘分区无法自动扩容,需选择手动扩容或者重新分区。 本文介绍手动扩容的方法。 重新分区会导致磁盘数据丢失,请谨慎选择。 手动扩容可能存在风险,请在操作前对进行数据备份,详细内容,请参见创建快照或备份磁盘 。 登录Linux云服务器。 停止与挂载目录相关的进程。 执行以下命令,执行卸载操作(以sdb1为例)。 umount /dev/sdb1 执行以下命令,进行手动扩容。 parted /dev/sdb 执行p,检查当前分区。 执行以下命令,在命令中需要选取一个分区进行扩容。 由于只有最后一个分区可以扩容,因此,必须选择最后一个分区。 resizepart 1(分区号,该命令以分区1为例) 100% 执行p,确认分区是否扩容成功。 图4 扩容分区结果 执行q,退出parted交互,手动扩容分区成功。
  • 如何收集NVIDIA日志 收集NVIDIA日志方法如下: 登录弹性云服务器。 在任意目录下执行以下命令。(如果是CCE场景,进入到/opt/cloud/cce/nvidia/bin目录后执行) sh nvidia-bug-report.sh 或 ./nvidia-bug-report.sh 执行完成后会在当前执行目录下生成nvidia-bug-report.log.gz,转储该日志。 父主题: 故障信息收集
  • GPU实例故障处理流程 GPU实例故障处理流程如图1所示,对应的操作方法如下: CES 监控事件通知:配置GPU的CES监控后会产生故障事件通知。 故障信息收集:可使用GPU故障信息收集脚本一键收集,也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表:根据错误信息在故障分类列表中识别故障类型。 非硬件故障自恢复处理方法:这类问题可以根据指导自行排查恢复。 显卡故障诊断及处理方法:这类问题可以根据指导确认后联系技术支持。 联系技术支持人员:无法自恢复请提交工单联系技术支持人员获取帮助。 图1 GPU实例故障处理流程 父主题: GPU实例故障自诊断
  • 判断方式 确认用户业务使用场景。 用户使用的镜像是否带驱动、是否已经自行安装驱动、驱动是否与使用场景匹配。 如果用户使用的是异构发布的公共镜像,可通过镜像名称区分驱动类型与驱动版本。镜像名称中如带有with tesla字样,则选择该镜像会安装tesla驱动;如带有with grid字样,则选择该镜像会安装GRID驱动(不包括License)。 如果用户使用的是私有镜像或其他镜像,可通过nvidia-smi命令查询是否安装了驱动以及确认驱动类型、驱动版本。 如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系,可参考Tesla驱动及CUDA工具包获取方式。
  • 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature Level 11.0,Shader Model 5.0) is required to run the engine”。 用户业务是做渲染(推理)的,但用户选择了不带驱动的公共镜像,且未单独安装驱动,导致GPU能力不可用,执行nvidia-smi命令报错“command not found”。
  • 问题原因 常见的可能导致系统启动失败或者无法进入系统的系统配置错误如表1所示。 表1 常见系统配置错误 问题类型 典型问题 配置错误 /etc/fstab文件缺失或者配置错误 SELinux配置错误 /etc/security/limits.conf配置错误 /etc/passwd配置格式错误 /etc/shadow配置格式错误 /etc/ssh/sshd_config配置格式错误 文件或目录缺失 /etc/ssh目录被误删 /etc/security目录被误删 /etc/passwd文件被误删 /etc/shadow文件被误删 /etc/ssh/sshd_config文件被误删 文件权限错误 SSH依赖的私钥权限配置过大 SSH依赖的公钥权限配置过大 内核参数配置错误 vm.nr_hugepages配置过大
  • 检查访问网站的请求是否得到响应 优化访问速度后,请在浏览器中重试打开需要访问的网站地址,如果网站可以正常打开,但仍然存在加载慢的情况,也可能是访问目标服务器存在丢包的情况,可以进一步通过执行ping -t 网站地址确认丢包情况。请参考ping不通或丢包时如何进行链路测试?。 例如:ping -t www.example.com Windows操作系统也可自行下载安装curl客户端,请单击下载curl客户端,解压后,打开bin文件夹拷贝路径,配置环境变量即可。 如果有响应状态码说明请求已经发送并得到响应,那么推断加载缓慢可能是访问目标服务器丢包等因素导致。 你可以联系客服帮助您检查丢包问题。同时推荐您使用我们云连接服务,访问效果可以有效的改善。详细操作请参考基于云连接服务实现跨区域多VPC互通。
  • 方法二:使用Ping检测工具和PingInfoView工具查找访问速度最快的服务器IP地址 您也可以通过修改hosts文件来优化访问速度,具体步骤如下: 使用管理员角色(Administrator)登录您的弹性云服务器。 通过浏览器访问Ping检测工具。我们以http://ping.chinaz.com为例。 输入想要访问的网站,进行Ping检测。我们以访问www.example.com为例,记录检测结果列表中响应时间最低的IP 。 下载PingInfoView,无需安装,解压后运行PingInfoView.exe即可使用。 打开PingInfoView,将通过步骤3获取到的IP地址复制到对应的输入框中,并单击OK。 复制搜索结果中延迟最低的IP地址。 打开C:\Windows\System32\drivers\etc\,将之前复制的IP地址以如下方式写入hosts文件末行。 hosts文件是操作系统的核心文件之一,请根据需要谨慎修改。 建议您备份hosts文件,您可以直接复制粘贴hosts文件生成一个副本。也可以复制hosts文件,将内容备份。 如果hosts文件里写明了DNS解析IP,那么只能使用这个IP解析网站地址。 修改hosts文件后如果再次出现卡顿想要重新替换IP,请先去掉hosts文件里关于网站的配置,然后重复执行本节的操作选取新的IP地址。 例如复制的ip地址为99.84.178.238,则将99.84.178.238 www.example.com写入到hosts文件的末行,保存后关闭。 重新访问中国大陆外网站,则卡顿或无法访问的问题会有所好转。 若问题仍未解决,我们建议您更换中国大陆外区域的弹性云服务器。
  • 处理方法 重新购买中国大陆外的弹性云服务器,例如“中国-香港”区域的云服务器 从物理距离与网络基础设施等因素考虑方面,如果您有访问中国大陆外网站的需求,我们建议您购买中国大陆外的弹性云服务器。 例如您可以在购买弹性云服务器时选择“中国-香港”区域的弹性云服务器。 图1 选择“中国-香港”区域 优化访问速度 您还可以按照本节的操作步骤优化访问速度。 修改DNS配置 修改hosts文件来优化访问速度 优化访问速度后,您可以进一步通过执行ping -t 网站地址确认丢包情况,详细操作请参考检查访问网站的请求是否得到响应。
  • 修改hosts文件来优化访问速度 选择访问速度最快的服务器,并将其IP地址和 域名 写入hosts文件来优化访问速度。 我们有以下两种方法来判断访问速度最快的服务器IP地址: 使用ping命令判断访问速度最快的服务器IP地址。 具体操作请参考方法一:使用ping命令判断访问速度最快的服务器IP地址。 使用Ping检测工具和PingInfoView工具查找访问速度最快的服务器IP地址。 具体操作请参考方法二:使用Ping检测工具和PingInfoView工具查找访问速度最快的服务器IP地址。
  • 方法一:使用ping命令判断访问速度最快的服务器IP地址 以下演示了Windows 2012操作系统、访问www.example.com为例、使用ping命令选择IP地址的示例。 图7 修改hosts文件来优化访问速度 详细的操作步骤如下: 以访问www.example.com为例,在命令行 ping www.example.com,查询ping结果。 图8 回显信息 重复执行多次 ping www.example.com,记录下一条TTL值最小、且稳定的IP地址。 请在ping的过程中执行ipconfig /flushdns刷新DNS解析缓存,否则会持续ping到同一个IP地址。 例如本例中选择的IP地址是93.184.216.34。 修改hosts文件。 打开C:\Windows\System32\drivers\etc\,将之前复制的IP地址以如下方式写入hosts文件末行。 例如复制的IP地址为93.184.216.34,则将93.184.216.34 www.example.com写入到hosts文件的末行,保存后关闭。 hosts文件是操作系统的核心文件之一,请根据需要谨慎修改。 建议您备份hosts文件,您可以直接复制粘贴hosts文件生成一个副本。也可以复制hosts文件,将内容备份。 如果hosts文件里写明了DNS解析IP,那么只能使用这个IP解析网站地址。 修改hosts文件后如果再次出现卡顿想要重新替换IP,请先去掉hosts文件里关于网站的配置,然后重复执行本节的操作选取新的IP地址。 重新访问中国大陆外网站,则卡顿或无法访问的问题会有所好转。 修改hosts文件只能优化访问速度,如果重试后问题仍未解决,我们建议您购买“中国-香港”区域的服务器。
  • 处理方法 登录管理控制台。 通过E CS 的主机监控功能的“内存使用率”指标,查看云服务器内存使用情况确认云服务器内存情况,详细操作,请参见查看监控指标 。 如果内存不足,建议扩容内存或者优化内存的使用,扩容内存可参考变更规格通用操作。 否则,执行步骤3。 以root用户登录云服务器,执行以下命令,排查message和dmesg日志。 dmesg -T cat /var/log/messages 如果出现如图1所示的cgroup相关报错打印,执行步骤8。 否则,执行步骤4。 图1 日志报错 执行以下命令,查看当前系统线程总数。 ps -efL | wc -l 执行以下命令,将得到的两个值与步骤4查到的当前系统线程总数进行对比。 sysctl -a | grep pid_max sysctl -a | grep threads-max 如果当前系统线程总数接近这两个值其中一个,那么就需要对这pid_max、threads-max这两个参数进行调优。调优步骤请参考调优pid_max、threads-max参数。 否则,执行步骤6。 执行以下命令,确定报错进程的pid。 ps -ef | grep 报错进程名 执行以下命令,根据得到的pid检查该进程的limits配置: cat /proc/pid/limits 图2 确定进程limits配置 查看Max processes行,如果当前用户创建的所有线程数接近该值,那么需要对limits参数进行调优,调优步骤请参考调优limits参数。 否则,执行步骤8。 执行以下命令,根据日志的cgroup报错可以得到pid_max、pids.current参数值。 cat /sys/fs/cgroup/pids/拼接日志中报错目录/pids.max cat /sys/fs/cgroup/pids/拼接日志中报错目录/pids.current 图3 cgroup目录 示例如下: 执行以下命令,根据进程的pid查找对应的cgroup目录。 cat /proc/pid/cgroup 图4 根据pid查找对应的cgroup目录 返回结果中的pids行为“/user.slice/user-0.slice/session-5.scope/”,与/sys/fs/cgroup/pids/拼接,可得进程对应的cgroup目录为“/sys/fs/cgroup/pids/user.slice/user-0.slice/session-5.scope/”。 执行以下命令,根据得到的cgroup目录获取pid_max、pids.current参数值。 cat /sys/fs/cgroup/pids/user.slice/user-0.slice/session-5.scope/pids.max cat /sys/fs/cgroup/pids/user.slice/user-0.slice/session-5.scope/pids.current 如果pids.current接近pids.max,那么需要对cgroup参数进行调优,调优步骤请参考调优cgroup参数。 否则,请提交工单联系技术支持处理。
  • 问题描述 Linux操作系统的ECS,在执行命令或者日志打印时,出现如下报错信息: 错误信息1: root@localhost:~# free -g total used free shared buffers cached Mem: 94 43 51 0 0 0 Swap: 19 0 19 root@localhost:~# uname -a -bash: fork: Cannot allocate memory 错误信息2: xxxxsshd2[23985]: fatal: setresuid 20054: Resource temporarily unavailable xxxxsshd2[28377]: Disconnecting: fork failed: Resource temporarily unavailable xxxxsshd2[4484]: Disconnecting: fork failed: Resource temporarily unavailable 错误信息3: [root@ecs-xxxx ~]$ sudo docker info runtime/cgo: pthread_create failed: Resource temporarily unavailable SIGABRT: abort