RSSおすすめ記事です

スポンサーリンク

Oracle DBの「非公開バグ」が表面化、大阪市基幹システム障害の真相

ニュースオラクル

スポンサーリンク

Oracle DBの「非公開バグ」が表面化、大阪市基幹システム障害の真相

1 : 名無しのシステムエンジニアさん 2019/07/05(金) 21:19:01.46 ID:CAP_USER.net

大阪市で住民票などの証明書発行業務を担う基幹システムが停止。復旧まで21時間を要し、8000件近い証明書発行業務に影響が及んだ。原因はOracle Databaseのクラスタ機能に潜むバグだった。ネットワークの不調をきっかけにシステムが停止し、再起動もできなくなった。米オラクルはバグの存在を把握しながら対外開示をしていなかったとみられる。

 2019年6月7日午後0時5分頃。大阪市内の24の区役所や出張所、梅田・難波・天王寺のサービスカウンターで、住民票の写しや記載事項証明書、国民健康保険や税務関連の証明書などが印刷できなくなった。金曜日の昼休みということもあり、週内に書類を発行してもらおうと区役所など窓口に来ていた住民からは悲鳴と怒号が上がった。

同じ頃、大阪市西区の阿波座にある大阪市ICT戦略室も騒然としていた。システム障害を知らせる警報が鳴り、各区役所からトラブル発生を知らせる電話が相次いだ。「統合基盤システムが停止しました。確認してもらえますか」。ICT戦略室の担当者はシステムの開発元で保守契約も交わしているNTTデータ関西の担当者を呼び寄せた。同社はNTTデータの地域子会社だ。

 統合基盤システムは大阪市の基幹システムだ。住民基本台帳、税務、福祉、国民健康保険、介護保険という住民情報系の5システムと連携し、各システムへのログイン時のユーザー(職員)認証や各システムから受け取った証明書データなどの印刷をつかさどる。2015年1月に運用を始めた。「住民情報系5システムに共通して必要となる機能を統合基盤システムに切り出すことでコスト削減を図った」(ICT戦略室)。システムはアプリケーションサーバーと、職員の認証情報や印刷用データなどを管理するデータベースサーバー、それらのデータを蓄積する共有ストレージなどから成る。

 データベース管理システム(DBMS)は米オラクルの「Oracle Database」を採用している。バージョンは「システム構成に関わるので明らかにできない」(大阪市ICT戦略室)。負荷分散と障害回避を目的に同製品のクラスタ機能「Oracle Real Application Clusters(Oracle RAC)を使い、2ノードをActive/Active構成で並行稼働させている。片方が止まってもサービスを継続できるようにしていたが、今回は「2ノードがほぼ同時に停止した」(同)。アプリケーションサーバーは稼働していたものの、ユーザー認証や印刷データの格納に不可欠なDBMSが停止した。これによって「統合基盤システムのほぼ全てが使えなくなった」(同)。

 NTTデータ関西の保守担当者はDBMSが停止している事態を把握し再起動を試みた。しかし2ノードとも再起動できない状態が続いた。このためNTTデータ関西は日本オラクルなどと連絡を取りつつ原因究明を開始。その結果、午後3時30分頃にDBMSのシステムファイルが破損している事実を特定した。

 破損していたシステムファイルはOracle RACを構成する各ノードがそれぞれの死活状況を共有ストレージに書き込む「投票ディスク」である。この内容が異常なデータになっていたという。「投票ディスクを参照した2つのノードが共に異常を検知して、それぞれ自身でDBMSとしての機能を停止させた」(大阪市ICT戦略室)。保守担当者が再起動を試みてもできなかったのは、各ノードが再起動の過程で投票ディスクの内容を参照するようになっていたからだ。投票ディスクの異常値を検知して停止してしまった。
https://tech.nikkeibp.co.jp/atcl/nxt/mag/nc/18/020600011/070200035/


スポンサーリンク

ネットの反応

2 : 名無しのシステムエンジニアさん 2019/07/05(金) 21:29:21.24 ID:i1TcPnT9.net
Left Caption

oracleならバージョン1から使ってる私に頼めばこんなことにはならなかったのに

64 : 名無しのシステムエンジニアさん 2019/07/06(土) 00:58:51.61 ID:NVPgTLer.net
Left Caption

>>2
化石すぎて使えないゴミ

3 : 名無しのシステムエンジニアさん 2019/07/05(金) 21:31:57.84 ID:JauBs8qQ.net
Left Caption

DB2ならこんなことにならなかった

4 : 名無しのシステムエンジニアさん 2019/07/05(金) 21:32:43.47 ID:rmwvWf21.net
Left Caption

システムが止まると怒号が飛ぶのはどこの国ですか?

30 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:40:58.94 ID:IpBMy/qF.net
Left Caption

>>4
逆に飛ばない国を挙げてみ、無いから

7 : 名無しのシステムエンジニアさん 2019/07/05(金) 21:40:18.58 ID:kXGvnl9m.net
Left Caption

バグフィックスが欲しければ100万円払いなさい

10 : 名無しのシステムエンジニアさん 2019/07/05(金) 21:50:37.31 ID:j48Wydih.net
Left Caption

>>7
100万円出直すなら喜んで頼むわw

11 : 名無しのシステムエンジニアさん 2019/07/05(金) 21:52:30.04 ID:dM0FEAvT.net
Left Caption

オラクルの名の通り、神のご信託が出るまで待つしかないな

13 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:01:55.13 ID:7kvpd2iB.net
Left Caption

やっぱりバグだったか

14 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:04:45.65 ID:e0/EZFaK.net
Left Caption

これ担当者クビとんでたかもな。
必死だろ、自分のせいじゃないって説明するの。
オラクル知らんぷり。アホかと。

18 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:14:01.88 ID:nE7xAemt.net
Left Caption

マイクロソフトが大手なのは大手なりの理由があるんだよな

21 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:14:51.36 ID:5+eIs+Q0.net
Left Caption

大阪がNTT西を訴えて、NTT西がOracleを訴える訴訟連鎖来る?

40 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:10:13.25 ID:AQzcoqPg.net
Left Caption

>>21
訴えることはできるだろうけど
免責事項あるからOracleにはまず勝てない。

22 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:15:09.32 ID:p5bBKIY9.net
Left Caption

オラクルのRACで2ノード等と構成を言っておきながらDBバージョンは言えないとは妙だな。
セキュリティーの面から見ても一貫性がない。

23 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:16:56.74 ID:oSA+08h/.net
Left Caption

quorum が壊れてたのか
いくらなんでも、そりゃ、致命傷だわ
ってか、RACならみんな使ってる部分だから、潜在バグがあったとは信じられん
ま、Oracleは真相明かさないから、闇の中だね

26 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:29:25.96 ID:p5bBKIY9.net
Left Caption

しかも4年も稼動してて突然のクラッシュなんて、恐らくはモニタリングに不備があって
DBがパンクするまでアプリのサーバーをコントロール無しで走らせてたくさいな。

27 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:29:32.32 ID:shDablfY.net
Left Caption

特許だけでオラクルは使えないと認識できたのはいいことだ
あそこは特許だけ

29 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:39:00.02 ID:wvuVf8MW.net
Left Caption

これ別に非公開じゃ無いぞ、聞かれたら答えるだけw

31 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:46:17.82 ID:s42rCeyv.net
Left Caption

再起動できないのがバグなんじゃない?

35 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:54:46.94 ID:56ywAqcX.net
Left Caption

>>31
確かに2系統のうち片方だけ起動させるのに故障した共有ディスクの内容を参照する必要は無いかもな。

39 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:09:00.81 ID:ENMNo3L/.net
Left Caption

>>35
本文に書いてあるがクォーラム(投票データ)が壊れてて動かない状態。
何度再起動してもどちらも自分に優先権がとれずアーカイブログ(変更履歴)か何かに書き込みが
できず表領域(原本)の書き換えフェーズに移れないって状態だったんじゃないかと。

34 : 名無しのシステムエンジニアさん 2019/07/05(金) 22:51:36.85 ID:p5bBKIY9.net
Left Caption

オラクルに限らず大規模なシステムはどこかにバグがあるのは前提みたいなもんで、
DBがクラッシュしてもいいようにしっかりとBCPやIRPを組んでおけばだいたい大丈夫なものだ。
MTTRを最小限に抑えるのはそれなりのシステム構成と投資が必要だが多分そうなっていなかったのだろう。
たとえば大阪市の基幹システムのDRにおけるRPO/RTOはどういう設定になっているか聞きたいものだ。

58 : 名無しのシステムエンジニアさん 2019/07/06(土) 00:09:53.94 ID:lVXTCcPc.net
Left Caption

>>34
まったく同意

36 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:00:22.25 ID:ENMNo3L/.net
Left Caption

Oracle は非公開バグだらけだよ。
金払わない限り知り得ないし詳しくも教えてもらえない、エラーコードも常に ORA-00600 で、
この番号でググっても何の事かわからないような仕組みになってる。

一部から評判は悪いがDB(とストレージ)は100点満点以外は0点見たいな評価をされがちで、
でもぼったくりだと分かってても結局それに行き着く因果な商売よ。

43 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:14:49.68 ID:6YPIkgAs.net
Left Caption

>>36
Oracleじゃないとダメな環境ってあるの?
うちは基幹システム全部DB2だけど別に困ってない

48 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:24:50.55 ID:ENMNo3L/.net
Left Caption

>>43
ごめん、比較対象は MariaDB とか PostgreSQL ね。
DB2 と Oracle は同じ感じじゃない?
フリーより高品質だけど、馬鹿らしくなるような価格設定。
初心者 SIer に身近な分 Oracle の採用が圧倒的に多いんだと思う。

46 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:22:51.60 ID:7fML4RN1.net
Left Caption

Oracleは、くせはあるけど結構いいよ
ただ、慣れないと
なんだ、そのエラーはったおすぞ
と思う事が多々々ある

49 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:32:55.46 ID:tVPj258/.net
Left Caption

フリーのDBで構成してて同じ様にクラッシュしてたら、果して一日でリカバリー出来ていたか?

52 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:48:31.76 ID:ENMNo3L/.net
Left Caption

>>49
ホントこれ。 21時間で復旧だと超早いって感覚。
でも客は「高い金払って冗長化したのに意味ねーじゃねーか」ってキレる。
止めたくなかったら二桁金額足りねぇってわかってない。
一度でいいから Non-Stop サーバ的な奴は触ってみたいが、まぁ機会はないよね。

50 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:33:22.03 ID:ljIuplys.net
Left Caption

オラクルは昔は飛び抜けて検索が速かったからな
その頃からのユーザーが今もだらだら使ってるだけ

いつの間にかSQLServerに追い越されてるし

53 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:49:19.72 ID:p5bBKIY9.net
Left Caption

最終的には市の責任だけどオラクルのせいにしたい訳だ。

54 : 名無しのシステムエンジニアさん 2019/07/05(金) 23:51:49.22 ID:VvpTla/W.net
Left Caption

Oracleは嫌いだけど、これは違う気がする。
採用してるシステムなんて山ほどあるし。

57 : 名無しのシステムエンジニアさん 2019/07/06(土) 00:06:27.38 ID:3pC+n7hI.net
Left Caption

記事の内容はほんと言い訳っぽい。
システムがクラッシュした時の想定復旧時間がどれだけなのかをまず言わなければ。
それともRACはクラッシュしないとでも思っていたのか?

59 : 名無しのシステムエンジニアさん 2019/07/06(土) 00:14:58.67 ID:GArs1s/i.net
Left Caption

NTTデータが悪いんじゃないかと・・・そんな気がする
まあ、私も自治体のシステムを開発していたので、このトラブルが大変な問題だということはわかる
この前の汎用機とそのシステムを継続してつかっていればこんなことはなかったハズ
COBOLだろうけどな

60 : 名無しのシステムエンジニアさん 2019/07/06(土) 00:24:38.09 ID:sFh/6klI.net
Left Caption

コスト削減を決めたのは役所だから信頼性が低くなるのも仕方なく受容すべきだろうね

Posted by flac