blog/index.md at 85dfe24d948cc2ba048702145e72851f60902a2f

author

draft

tags

keywords

title

relpermalink

url

decription

usbharu

false

技術

2025-07-10T01:08:10+09:00

k3s

Proxmox

k3s

Proxmox

k3sのクラスタが大崩壊を起こしたときの復旧メモ

posts/2025-07-10/

k3sのクラスタが大崩壊を起こしたときの復旧メモ

先日k3sのクラスタが暴走(?)し、VMがハング、なぜか同時にホストマシンのProxmoxの管理画面もフリーズし、無事クラスタの大崩壊が発生しました。監視基板ごと死んだのかアラート等が一切出ずメトリクス等も消えたため、原因は不明です。

それはさておき、こんな構成のk3sクラスタがあります。

今回はRyzen機に乗っている2つのk3sノードが死にました。残っている一つのクラスタからetcdとかをいい感じにする必要があります。

k3sのetcdスナップショットからの復元

基本的におせっかい機能しかないk3sやmicrok8sですが、今回はそれに救われました。

生きているノードで以下を実行します。

k3s server --cluster-reset --cluster-reset-restore-path=/var/lib/rancher/k3s/server/db/snapshots/<スナップショットファイル>

とりあえずこれでk3sのetcdに関するエラーは直ると思います。

これは普通にk3sのHA構成のときの新しいノード追加方法と同じで、serverを指定して追加していくだけです。