-
記一次靠譜的 K8S 排錯實戰(zhàn)過程,硬核!
一 背景 收到測試環(huán)境集群告警,登陸 K8s 集群進行排查。 二 故障定位 2.1 查看 Pod 查看 kube-system node2 節(jié)點 calico pod 異常。 查看詳細信息,查看node2節(jié)點沒有存儲空間,cgroup泄露。 2.2 查看存儲 登陸 node2 查看服務器存儲信息,目前空間還很充足。 集群使用到的分布式存儲為ceph,因此查看ceph集群狀態(tài)。 三 操作 3.1 ceph修復 目前查看到 ceph 集群異常,可能導致 node2 節(jié)點 cgroup 泄露異常,進行…