我想知道手动关闭工作节点是否是模拟节点故障的可靠(甚至正确)方法?正常关闭(据我所知)不会触发 K8s 进入任何类型的恢复或重新分配模式并将节点设置为NotReady。我认为故障会触发非正常关闭,然后 K8s 会做出反应并尝试恢复。

我的理解有误吗?

1

  • 那么不要优雅地关闭它;只需拔掉电源线。


    – 


最佳答案
1

硬件和软件出现故障的方式有多种:

  • 没有电源
  • 某个部件发生故障,机器不再响应
  • 其中一个存储卷发生故障,一些进程卡住,但其他进程没有
  • 系统超载
  • 系统遭受 DoS/DDoS 攻击
  • 软件没有在整个“集群”中统一部署
  • 挂载点已满
  • 有人拔掉服务器电源插头,或者摆弄电源线
  • 有人停止了某个节点上的某项服务,但不是全部
  • 网络问题:可用性、数据包丢失、拥塞、静默数据包损坏、MTU 问题、高延迟
  • X509 SSL/TLS 证书问题(过期、不受信任、不符合标准)
  • 缺少备份、缺少监控,或者更糟的是,监控不起作用。

这只是一份简短的清单。如果它能发生,它就会在某个时刻发生。