cNotes 検索 一覧 カテゴリ

AS47868関連のlong as-pathの経路配信による経路障害

Published: 2009/02/19

2/17の早朝(JST)の1時間程度の間、AS47868 (SuproNet)が通常では考えられない250個ほど(正確には251らしい)prependされた経路が配信されたため世界中にある脆弱な古いOSで動いているルータ(Ciscoのとか)がBGPのフラップやセッションの切断を起こしてルーティング障害を起こしました。

 *  94.125.216.0/21 x.x.x.x  0    100      0 3356 29113
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868

prependは普通に行われるオペレーションではありますが、異常ですね。原因は何だったのでしょう。ミスオペ?バグ?

実際は2/13日にも同様事象が発生していたようです。

結局被害を受けたルータでこの経路をブロックするとか、このASを含むas-pathをブロックするとか対策することで収束したようです。

今回の事象で一番の問題はlog as-pathの直接的な被害ではなく、フラップやBGPセッションの張りなおしが多発したせいで秒間数万から数十万のupdateであふれかえってこの事象と関係ない他の弱いルータにも処理能力上の悪影響をおよぼすという二次被害が増幅したことかなと思います。

えっと、公開可能なグラフがないので他所をみてください。すいません。

ただ、この問題って古くから認知されている問題であって、確か5,6年前にも同じような事象が発生して問題になりそこでOSのバージョンアップなり、max aspathなどのコマンドで対応するなどの対策がなされたのではないかと思っていたのですが、国内、海外含めて、まるで初めて経験する問題かのような議論と情報が流れている始末です。時代は変わって行っているのに、どんなに長くてもブロックすべきではないというような自由なインターネット的な古い意見がでるのにも飽きましたね、、、

で、技術の話というよりももっと多面的にいろいろな問題があるんじゃないかと考えてしまいます。

  • BGPのプロトコルあいまいさ、欠陥の放置
  • BGPの運用の指標のあいまいさ、というか決まりがあんまりない状況
  • 問題が発生した瞬間は盛り上がるが、一過性であることが多いため、対策も検討も実施されていない。
  • これらの問題の検討が研究者のテリトリーもしくは「ネタ」に過ぎず、ルーティングの実運用と直結していない。
  • 人事異動、転職が多い職種なのか、5年前の事象すら経験した人、知識がある人がわずかしかいない
  • そのうえナレッジが継承されていない

まぁ、セキュリティ対策というかインターネット関連のすべての分野にありがちな典型的状況ってことですかね。もっといえばインターネットに関係なくダメな仕事のやり方の例として挙げられる典型的パターンって感じでしょうか。

しかし、インターネットの根幹をなす部分がこれだけ未開拓、未整備ってことはビジネス的な介入とそれによる改善効果やメリットが大きいと思うんですけど、コミュニティは結束がかたいというか、仲良しクラブ的成り立ちなので、この世界ってビジネス要素の介入の余地がないんですよね。。。

こういったインターネットの障害って台風とか大雨とか自然災害と同等に考えると納得できるのかなぁ...

でも災害対策はもうちょっとちゃんとしてますよね。

[カテゴリ:routing system security]

by jyake