イーサリアムのメインネットの2度の障害に関する事後分析
2023年5月11日と5月12日、イーサリアムのメインネットネットワークは2度の重大な中断に見舞われました。その結果、それぞれ4エポックと9エポックのブロック生成が遅延しました。2回目のインシデントでは、非アクティブペナルティが発動しました。
- 公開: Nov 20, 2023 at 12:31
2023年5月11日と5月12日、Ethereum'のメインネットネットワークは2度の重大な中断に見舞われました。その結果、それぞれ4エポックと9エポックのブロック生成が遅延しました。2回目のインシデントでは、非アクティブのペナルティが発動しました。
影響
1回目の停止では約47個のブロックが失われ、2回目では約149個のブロックが失われました。遅延と欠落したブロックにより、影響を受けたブロック生産者は約5ETHの収益を失いました。

バリデータの65%が8エポック間オフラインになり、非アクティブリークにつながったと推定され、その結果、約28ETHの損失と、認証漏れによる約50ETHの収益損失が推定されます。
しかし、これらのインシデントに起因するバリデーターのスラッシングがなかったことは注目に値します。
これは、問題が個人的なものよりもシステム的なものであったことを示しています。
根本的な原因
停止の根本的な原因は、Prysmを含む一部のコンセンサスクライアントが、古いターゲットチェックポイントで有効な認証を最適に処理するのに苦労したことにあります。
きっかけ
古いビーコンブロック(エポックN中のエポックN-2からのブロック)に投票する一連の古い認証がブロードキャストされ、PrysmとTekuで問題が発生しました。
検出
この問題は、エポック200,551と200,750でネットワーク参加者が大幅に減少した後に検出され、チェーンのファイナライズが一時的に停止しました。

Summary
主な問題は、ブロックと認証の欠落によりネットワークがファイナライズできなかったことです。さらに、最大入金額の処理が増加したため、ネットワークはストレスに直面しました。
これらの問題にもかかわらず、インシデントの期間は比較的短く、大規模なスラッシングは報告されていません。ネットワークのクライアントの多様性と、いくつかのクライアントがブロックを提案し、証明書を作成する能力によって、チェーンは回復することができました。
このインシデントは、メインネット環境を代表するものではないテストネットの限界を浮き彫りにし、より強固なストレステストとコンティンジェンシープランニングの必要性を強調しました。
このような問題の再発を防ぐために、いくつかの修正が導入されました。これらには、ターゲットルートとして最近の正規ブロックに対する証明書を検証するためにヘッド状態を使用すること、前のエポックにおける境界スロットに対する証明書を検証するために次のスロットキャッシュを使用すること、および前の2つのルールによって検証されなかった証明書を破棄することが含まれます。
メインネットの停止は重大な課題をもたらしましたが、迅速な復旧と貴重な教訓は、よりレジリエントなイーサリアムのネットワークへの道を開くものです
。