忘れないようにメモ。
ここに書かれているが、glusterfs のボリュームのタイムアウトは
network.ping-timeout
で設定する。デフォルトは42秒。
で、GlusterFSでのボリュームのタイムアウトは、「最後の送信から ping-timeout を経過し、かつ、最後の受信から ping-timeout 経過した場合」(そのほかにNetworkやらなにやらのタイムアウトもあるが)である。
ということでGlusterFSのクライアントがサーバのノード障害から復旧するには、最悪、ping-timeout の倍以上かかる。
ping-timeout を下げればずいぶん改善。あとは、bonding の設定ね。
# gluster volume set rVol network.ping-timeout 2
Set volume successful
どうでもいいことだが、set で設定できるのであれば、get で設定値を取れるようにしてくれよーー。こんな感じ。
# gluster volume info all
Volume Name: rVol
Type: Replicate
途中省略
Options Reconfigured:
network.ping-timeout: 2
こういう分散アーキテクチャやると、名前解決の設定がめんどいよなぁ。こういうところを Jini っぽい何かのファブリックネームサービスで解決してほしいのう。