1: 田杉山脈 ★ 2019/07/05(金) 21:19:01.46 _USER
topm
大阪市で住民票などの証明書発行業務を担う基幹システムが停止。復旧まで21時間を要し、8000件近い証明書発行業務に影響が及んだ。原因はOracle Databaseのクラスタ機能に潜むバグだった。ネットワークの不調をきっかけにシステムが停止し、再起動もできなくなった。米オラクルはバグの存在を把握しながら対外開示をしていなかったとみられる。

 2019年6月7日午後0時5分頃。大阪市内の24の区役所や出張所、梅田・難波・天王寺のサービスカウンターで、住民票の写しや記載事項証明書、国民健康保険や税務関連の証明書などが印刷できなくなった。金曜日の昼休みということもあり、週内に書類を発行してもらおうと区役所など窓口に来ていた住民からは悲鳴と怒号が上がった。

同じ頃、大阪市西区の阿波座にある大阪市ICT戦略室も騒然としていた。システム障害を知らせる警報が鳴り、各区役所からトラブル発生を知らせる電話が相次いだ。「統合基盤システムが停止しました。確認してもらえますか」。ICT戦略室の担当者はシステムの開発元で保守契約も交わしているNTTデータ関西の担当者を呼び寄せた。同社はNTTデータの地域子会社だ。

 統合基盤システムは大阪市の基幹システムだ。住民基本台帳、税務、福祉、国民健康保険、介護保険という住民情報系の5システムと連携し、各システムへのログイン時のユーザー(職員)認証や各システムから受け取った証明書データなどの印刷をつかさどる。2015年1月に運用を始めた。「住民情報系5システムに共通して必要となる機能を統合基盤システムに切り出すことでコスト削減を図った」(ICT戦略室)。システムはアプリケーションサーバーと、職員の認証情報や印刷用データなどを管理するデータベースサーバー、それらのデータを蓄積する共有ストレージなどから成る。

 データベース管理システム(DBMS)は米オラクルの「Oracle Database」を採用している。バージョンは「システム構成に関わるので明らかにできない」(大阪市ICT戦略室)。負荷分散と障害回避を目的に同製品のクラスタ機能「Oracle Real Application Clusters(Oracle RAC)を使い、2ノードをActive/Active構成で並行稼働させている。片方が止まってもサービスを継続できるようにしていたが、今回は「2ノードがほぼ同時に停止した」(同)。アプリケーションサーバーは稼働していたものの、ユーザー認証や印刷データの格納に不可欠なDBMSが停止した。これによって「統合基盤システムのほぼ全てが使えなくなった」(同)。

 NTTデータ関西の保守担当者はDBMSが停止している事態を把握し再起動を試みた。しかし2ノードとも再起動できない状態が続いた。このためNTTデータ関西は日本オラクルなどと連絡を取りつつ原因究明を開始。その結果、午後3時30分頃にDBMSのシステムファイルが破損している事実を特定した。

 破損していたシステムファイルはOracle RACを構成する各ノードがそれぞれの死活状況を共有ストレージに書き込む「投票ディスク」である。この内容が異常なデータになっていたという。「投票ディスクを参照した2つのノードが共に異常を検知して、それぞれ自身でDBMSとしての機能を停止させた」(大阪市ICT戦略室)。保守担当者が再起動を試みてもできなかったのは、各ノードが再起動の過程で投票ディスクの内容を参照するようになっていたからだ。投票ディスクの異常値を検知して停止してしまった。
https://tech.nikkeibp.co.jp/atcl/nxt/mag/nc/18/020600011/070200035/
引用元: http://egg.5ch.net/test/read.cgi/bizplus/1562329141/


2: 名刺は切らしておりまして 2019/07/05(金) 21:29:21.24
oracleならバージョン1から使ってる私に頼めばこんなことにはならなかったのに

3: 名刺は切らしておりまして 2019/07/05(金) 21:31:57.84
DB2ならこんなことにならなかった

5: 名刺は切らしておりまして 2019/07/05(金) 21:36:34.85
これはボラクルを訴えるべきだね

7: 名刺は切らしておりまして 2019/07/05(金) 21:40:18.58
バグフィックスが欲しければ100万円払いなさい

9: 名刺は切らしておりまして 2019/07/05(金) 21:42:50.41
>>7
クラスタ構成を組むオラクルの値段みてきてみ

10: 名刺は切らしておりまして 2019/07/05(金) 21:50:37.31
>>7
100万円出直すなら喜んで頼むわw

8: 名刺は切らしておりまして 2019/07/05(金) 21:42:15.22
ボラクルwww

11: 名刺は切らしておりまして 2019/07/05(金) 21:52:30.04
オラクルの名の通り、神のご信託が出るまで待つしかないな

14: 名刺は切らしておりまして 2019/07/05(金) 22:04:45.65
これ担当者クビとんでたかもな。
必死だろ、自分のせいじゃないって説明するの。
オラクル知らんぷり。アホかと。

15: 名刺は切らしておりまして 2019/07/05(金) 22:06:59.09
インフォミックスならこんな事にはならなかった

19: 名刺は切らしておりまして 2019/07/05(金) 22:14:17.30
桐使っとけば良かったのに

22: 名刺は切らしておりまして 2019/07/05(金) 22:15:09.32
オラクルのRACで2ノード等と構成を言っておきながらDBバージョンは言えないとは妙だな。
セキュリティーの面から見ても一貫性がない。

23: 名刺は切らしておりまして 2019/07/05(金) 22:16:56.74
quorum が壊れてたのか
いくらなんでも、そりゃ、致命傷だわ
ってか、RACならみんな使ってる部分だから、潜在バグがあったとは信じられん
ま、Oracleは真相明かさないから、闇の中だね

24: 名刺は切らしておりまして 2019/07/05(金) 22:18:29.04
Oracleはクソだといった人が訴えられた。
一つは名誉毀損、もう一つは守秘義務違反で

26: 名刺は切らしておりまして 2019/07/05(金) 22:29:25.96
しかも4年も稼動してて突然のクラッシュなんて、恐らくはモニタリングに不備があって
DBがパンクするまでアプリのサーバーをコントロール無しで走らせてたくさいな。

27: 名刺は切らしておりまして 2019/07/05(金) 22:29:32.32
特許だけでオラクルは使えないと認識できたのはいいことだ
あそこは特許だけ

28: 名刺は切らしておりまして 2019/07/05(金) 22:37:41.01
ネットワーク絡みで
同時に2つ落ちないシステムが落ちたのか
各システムファイルが更新されたと...

テストは、当然終了
2015から稼動
ネットワークも冗長化してたんだろ?

いや〜、ちょっと普通じゃないと思うわ

31: 名刺は切らしておりまして 2019/07/05(金) 22:46:17.82
再起動できないのがバグなんじゃない?

35: 名刺は切らしておりまして 2019/07/05(金) 22:54:46.94
>>31
確かに2系統のうち片方だけ起動させるのに故障した共有ディスクの内容を参照する必要は無いかもな。

39: 名刺は切らしておりまして 2019/07/05(金) 23:09:00.81
>>35
本文に書いてあるがクォーラム(投票データ)が壊れてて動かない状態。
何度再起動してもどちらも自分に優先権がとれずアーカイブログ(変更履歴)か何かに書き込みが
できず表領域(原本)の書き換えフェーズに移れないって状態だったんじゃないかと。

34: 名刺は切らしておりまして 2019/07/05(金) 22:51:36.85
オラクルに限らず大規模なシステムはどこかにバグがあるのは前提みたいなもんで、
DBがクラッシュしてもいいようにしっかりとBCPやIRPを組んでおけばだいたい大丈夫なものだ。
MTTRを最小限に抑えるのはそれなりのシステム構成と投資が必要だが多分そうなっていなかったのだろう。
たとえば大阪市の基幹システムのDRにおけるRPO/RTOはどういう設定になっているか聞きたいものだ。

58: 名刺は切らしておりまして 2019/07/06(土) 00:09:53.94
>>34
まったく同意

36: 名刺は切らしておりまして 2019/07/05(金) 23:00:22.25
Oracle は非公開バグだらけだよ。
金払わない限り知り得ないし詳しくも教えてもらえない、エラーコードも常に ORA-00600 で、
この番号でググっても何の事かわからないような仕組みになってる。

一部から評判は悪いがDB(とストレージ)は100点満点以外は0点見たいな評価をされがちで、
でもぼったくりだと分かってても結局それに行き着く因果な商売よ。

43: 名刺は切らしておりまして 2019/07/05(金) 23:14:49.68
>>36
Oracleじゃないとダメな環境ってあるの?
うちは基幹システム全部DB2だけど別に困ってない

48: 名刺は切らしておりまして 2019/07/05(金) 23:24:50.55
>>43
ごめん、比較対象は MariaDB とか PostgreSQL ね。
DB2 と Oracle は同じ感じじゃない?
フリーより高品質だけど、馬鹿らしくなるような価格設定。
初心者 SIer に身近な分 Oracle の採用が圧倒的に多いんだと思う。

37: 名刺は切らしておりまして 2019/07/05(金) 23:04:28.45
ボラクルになっちまったからな。

42: 名刺は切らしておりまして 2019/07/05(金) 23:11:06.32
超ボッタクリのくそ高い保守費を取るくせに舐めてんな

47: 名刺は切らしておりまして 2019/07/05(金) 23:22:55.47
どんなDBでもシステムでも最終的にはガバナンスが悪けりゃ問題が起きるもの。

50: 名刺は切らしておりまして 2019/07/05(金) 23:33:22.03
オラクルは昔は飛び抜けて検索が速かったからな
その頃からのユーザーが今もだらだら使ってるだけ

いつの間にかSQLServerに追い越されてるし

55: 名刺は切らしておりまして 2019/07/05(金) 23:52:33.61
安定のボラクル

59: 名刺は切らしておりまして 2019/07/06(土) 00:14:58.67
NTTデータが悪いんじゃないかと・・・そんな気がする
まあ、私も自治体のシステムを開発していたので、このトラブルが大変な問題だということはわかる
この前の汎用機とそのシステムを継続してつかっていればこんなことはなかったハズ
COBOLだろうけどな

61: 名刺は切らしておりまして 2019/07/06(土) 00:38:01.21
この程度のシステムは途上国も含めて世界中で稼働してそうだけど
なんでこんなことが起きるのかが分からん
本質的な原因を教えて

66: 名刺は切らしておりまして 2019/07/06(土) 01:22:25.58
投票ディスクはRAC構築時にバックアップすると思いますが…

69: 名刺は切らしておりまして 2019/07/06(土) 01:34:25.25
>>66
投票ディスクに何が書かれているか知らんが、インカーネーションとか含まれてたら、
投票ディスクだけ戻しても使えないんじゃ?

70: 名刺は切らしておりまして 2019/07/06(土) 02:33:51.08
高い金払ってこれじゃOSSの方がよっぽどマシだな

73: 名刺は切らしておりまして 2019/07/06(土) 03:14:52.04
しかもオラクルってユーザからバグを通知されてもまず直さないからね
すごい会社だと思うわユーザが

74: 名刺は切らしておりまして 2019/07/06(土) 03:23:58.60
>アプリケーションサーバーは稼働していたものの、
>ユーザー認証や印刷データの格納に不可欠なDBMSが停止した。

意味わかんない。
クラウド糞やん

77: 名刺は切らしておりまして 2019/07/06(土) 04:12:01.89
クラスタ機能ねえ…
バグなんて甘い言い方してないで、はっきり欠陥と言えよ

スポンサード リンク