パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

NTTドコモ、14日17時頃からネットワーク障害。2時間以上にわたり全国に影響」記事へのコメント

  • 原因はIoT機器 (スコア:5, 参考になる)

    by Anonymous Coward on 2021年10月15日 15時03分 (#4132832)

    原因となったネットワーク工事というのが多分これ↓

    サービス・ソリューションのお知らせ : docomo IoT回線管理プラットフォームがご利用しづらい事象について [nttdocomo.co.jp]

    docomo IoT回線管理プラットフォームにおきまして、
    2021年10月14日(木曜)未明よりメンテナンス工事を実施しておりました。

    明け方からメンテしてたのに完了せず計画時間超過、昼過ぎにメンテ失敗と判断しシステムを切り戻すも一斉に在圏登録が殺到し輻輳発生、夕方にIoT回線以外にも影響が波及という流れと想像。
    # そもそもメンテ成功時はどのようにメンテ解放する想定だったのだろう?

    制御信号(C-Plane)の輻輳という点ではスマートフォン黎明期の2012~2013年にdocomoやauで発生した障害と似ている。
    https://www.nttdocomo.co.jp/info/notice/page/120126.html [nttdocomo.co.jp]
    https://www.kddi.com/corporate/news_release/2013/0610a/pdf/sanko.pdf [kddi.com]
    この時は地域ごとに置かれたMMEの障害に留まっていたものの、今回は全国規模で発生していたのでPCRFが死亡していたものと思われ。

    ドコモネットワーク接続ガイドライン (IoT機器編) [nttdocomo.co.jp][PDF]

    ①同時に大量のIoT機器から接続・発信などを行なわない

    <注意すべき理由>

    接続・発信の際に、IoT機器から通信ネットワークに対して制御信号が送信されます。この制御信号を処理するために通信ネットワークリソースが使われます。つまり、同時に大量のIoT機器が接続・発信を実施すると、それだけ通信ネットワークリソースも占有されることになります。

    通信ネットワークリソースは有限ですので、占有されることにより他のお客様のデバイスが通信ネットワークへ接続を行えなくなるなどの影響が発生します。また、このような状況に陥った場合、弊社通信ネットワークの保護を目的として通信規制等の対処を実施させていただく可能性があります。

    【分散方法】

    各IoT機器の接続・発信の開始タイミングのスケジューリングを行い、開始タイミングをずらすことを推奨します。また、秒単位で制御できることを推奨します。

    当時の反省から今回のようなことを想定していなかったわけじゃないけど、ちょっと想定が甘かった感じですかね。

    • by Anonymous Coward on 2021年10月15日 15時36分 (#4132857)
      最近こういうの多くないですかねえ
      みずほ銀行のトラブル(は最早年中行事か)、JRの変電所の火災ももしかしたら適切な運用が成されていなかった、若しくは力不足で想定出来なかった‥?とか考えちゃいます
      親コメント
      • by Anonymous Coward

        コロナ禍で現場作業員減&リモートワークで作業の質が落ちているとか?
        東京五輪が終わって&緊急事態宣言解除で気が緩んでいるとか?
        JR変電所とドコモだけじゃ、ただの偶然レベルですね。

        • by Anonymous Coward on 2021年10月15日 20時42分 (#4133083)

          私の周囲の話だけですが、現場の技術者を束ねてたマネージャ職が年齢制限やコストカット、
          家庭の事情(介護や育児)や労働意欲の低下(ある程度収入のアテがあって働く必要が無くなった)などで
          続々と退職してしまっていて、現場の技術者と経営者がほぼダイレクトに話をする環境になってしまい、
          コミュニケーション不全で現場が回らない、という事例が多いです。

          まだまだ偶然で片付けられるレベルではありますが、そのうちこういうのがあちこちで起こってくるでしょう。

          親コメント
          • by Anonymous Coward

            現場の技術者と経営者がほぼダイレクトに話をする環境になってしまい、

            前職でコンサルが「会社の組織階層を廃して、マネージャーと担当だけにしろ」と吠えていたことを回想しています。

            • by Anonymous Coward on 2021年10月16日 10時28分 (#4133386)

              今のうちがそうだな。

              全事業部をマージして業務内容ごとにグルーピングした上で、部とか課の枠をなくてして
              各プロジェクトへ社内人材派遣をやっているような感じ。
              横並びのための連絡網をぶっ壊しておきながら代替手段を用意する気がないみたいで、
              構造改革の目的の一つに技術の属人化を防ぐというのがあったのに担当者にしか技術が蓄えられない
              という末期的な状況。

              複数のプロジェクトに属している人を介して細々と他プロジェクトのノウハウ(落とし穴の情報とか)が
              やりとりされている。

              親コメント
              • by Anonymous Coward

                情報を集めて整理体系化する予算が消えちゃってますし元々評価低いし…

                一子相伝すらされなくなったという。

              • by Anonymous Coward

                10年以上の中堅は経験があるからまだいいんだけど、2,3年の若手は情報が入ってこなくて可哀相。
                以前は業務中の雑談や課内会議なんかでいろいろな情報が入ってきたんだけど。
                もう人材育成なんかやる気がなく、必要なら能力のある人を中途採用すればいいと考えているんじゃなかろうかと思っている。

              • by Anonymous Coward

                良くて「畑で採れる」程度にしか考えてないから「必要な時だけ」の派遣じゃないですかね多分。

          • by Anonymous Coward

            > 私の周囲の話だけですが
            > 現場の技術者と経営者がほぼダイレクトに話をする環境になってしまい、
            > コミュニケーション不全

            (Slack関係者: ちょっと営業かけたいので詳しく [yahoo.co.jp])

            ※ 関係者じゃないのでAC

        • by Anonymous Coward on 2021年10月16日 1時03分 (#4133244)

          ここ数年の政府介入によるコストカットで品質が下がった。ただそれだけのこと。
          会社の収入が減れば支出も下げなければならない。

          現用装置は減らせないから検証装置の数を減らす。検証の質は下がる。
          今回のような更新作業に投入できる人も減る。
          10人で分担して一人当たりの業務を減らし、心身ともに余裕のある状態であれば気づけた計画ミス、考慮漏れも、
          人を減らして複数案件マルチスレッドで準備させてたら気づけない。

          数年前、ケータイが安くなる前、高い月額払ってるんだから品質高いのは当たり前だという声があった。
          月額が、ARPUが減れば、会社の収入は減る。会社の収入が減れば現場に投下されるコストは減る。
          かけるコストが下がれば品質も下がる。当たり前のこと。

          親コメント
          • by Anonymous Coward

            カットしちゃいけないコストとカットしていいコストの認識がおかしいだけ。
            品質と関係ないところでは相変わらずジャブジャブ使ってるからな。値下げと関係ない。

            • by Anonymous Coward

              3日もすればみんな忘れるよ。
              喉元過ぎれば熱さ忘れるのが日本人。営業に影響がでるわけでもない。つまりカットして正解のコストってこと。

      • by Anonymous Coward

        みずほのトラブルはトップから「システムを使いこなせなかった」とかいう発言が出たり
        組織を設計するどころかパソコンはただの電卓で業務と関係ないって発想が透けて見えるのがなぁ…

    • 実際、耳にしてみるIOT云々ではなくネットワーク機器の設定変更に瑕疵があったそうな。

      で切り戻した途端 途絶えて滞留していた虎トラヒックと通信がつながるようになったので
      一気に回線使用率があがり輻輳したんだそうな。

    • by Anonymous Coward

      色々情報が出てきたけど予想と違ってたのはPCRFじゃなくてHSSが死んでたって部分かな

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

処理中...