Editor of IMC: 第92回　愛し野塾　マシーン・ラーニングが担う医療改革

ビッグデータとは、市販のデータベースソフトウエアでは扱えないほど大規模、かつ多種多様な、価値のあるデータを指し、過去から現在に至るデータを処理することによって未来を予測したり、異変を検出したうえでの、意思決定を可能とすると考えられています。ビジネス分野でのビッグデータの活用の広がりは、医学界にも及び、医療情報分野では、こうしたデータを自在に操る「アルゴリズム」の構築が盛んとなり、迅速かつ正確な、診断及び治療を可能とする、医学のパラダイムシフトもいよいよ現実味を帯びてきました。まさに、「マシーン・ラーニング」という概念が医学界においても試行錯誤の真っ只中なのです(文献１)。

現在、医学分野で汎用されている「アルゴリズム」は、「エクスパートシステム」で作動しています。ある「課題」について、専門家やユーザーから得た情報をもとに規則性を見出し、その規則性の集合体をもとに、解決法を探索するシステムです。たとえば、「特定の患者の診断」という課題について、画像診断の適応の有無、処方薬の相互作用の妥当性などの検証をするわけです。いうなれば、「優秀な医学生」というところでしょうか。医学テキストや授業から知識を得て、その知識をもとに、担当患者に生じた問題を解決する、という役割を担うのです。

しかし、実臨床では、「規則」に則っていない症例に出会うことは多く、正しい診断と治療にいきつくには、この方法は不十分であることは言うまでもありません。

一方、「マシーンラーニング」は、「研修医」のような役割を演じます。医師は、患者を診察し、胸部XP、採血結果、CT、MRIなど患者データを閲覧し、多数の情報を獲得します。こうした情報を「変数」と捉え、その「変数」のうち診断に重要たるものを選択し、その組み合わせから、診断を推定します。「マシーンラーニング」では、医者による診察等からえられる情報量を凌駕するデータを相互に関連付け、しかも同時に処理できる点に優位性があり、診断は正確になる確率が格段に上がるといわれています。

一例として、胸部X線検査（胸部XP）を挙げてみましょう。医師であれば、胸部XPから得られる情報として、「正常、無気肺、浸潤影、胸水」などの「変数」となるデータを得て、総合的な結果として、「癌、肺炎、結核」といった「診断」を導きます。「マシーンラーニング」では、胸部XP画像を構成する、すべてのピクセルを一つ残らず「変数」として読み取ることが可能です。

そして、全ピクセルの相互関連性を見出し、集合体として分類し、線、形状などに整理しなおします。その結果、見落とされがちな小さな骨折線、心陰影の裏に隠れた異常影、さらに肉眼では確認しにくい、極小の癌の結節を瞬時に間違いなく見つけ出すことが可能となります。すでに「マシーンラーニング」は、宇宙工学の分野　で用いられ、星雲解析によって超新星を発見することに成功しています。科学研究では、遺伝子配列から、蛋白構造、機能予測を可能にしました。2016年には、読み取られた脳の活動電位から、麻痺した手の動きを予測し、神経電気生理学の手法を用いて手を意志に従い動かすことに成功しました（文献２）。

さて、この急成長しつつある「マシーンラーニング」は、今後、医学界では、以下の３つの分野で、活躍が期待されています。

第一は、「予後」の分野です。主に救命救急の現場で用いられている呼吸・循環・血液検査値などの項目によって病態の重症度を推定する「アパッチ・スコア」は、わずか12個の変数をマニュアル操作で打ち込むもので、決して信頼性が高いとはいえないと議論されているところです。しかし、個々の臓器の状態、感染症の有無、治療困難な症状の程度、移動は、車いすか、杖歩行か、などを含む何千倍ものデータを一気に処理することで得られる予測法が「マシーンラーニング」で可能となりつつあります。予後の推定が正確にできれば、医師が重症患者に向き合った時の治療法決定に至る様々な苦悩は、軽減されるでしょう。医師は実際の予後よりも長く予想する傾向があるとも言われています。しかし、予後が１週間と１年では、おのずと選ばれる治療法は異なり、患者に対して苦痛を伴う治療計画をやみくもに与えるべきでは、ないでしょう。人工呼吸器をつけるかどうか、透析をするべきか、手術をするべきか、など、医療の現場は、決断を要する苦悩の連続です。今後5年でこのマシーンラーニングに十分なアルゴリズムは完成し、その後、数年で検証され、10年以内には臨床の現場で使用可能となると考えられています。

今年、冠動脈CTの結果を含む69個のパラメーターを用い、冠動脈疾患が疑われる10030人を対象に５年間経過観察した研究が、発表になり注目されました。従来、用いられてきた信頼性が高いとされるフラミンガム・リスク・スコアや、冠動脈CT重症度スコアよりも、マシーンラーニングのほうが、５年生存率を正確に予測したことが分かりました（P＜0.001）（文献３）。

第二は、「放射線科医」と「病理医」という専門分野へのマシーンラーニングの介入です。すでに、胸部XP、MRI、病理画像などは、デジタルイメージによって処理されているものばかりです。「ロボットの目」によって供給された解析結果は、ビッグデータをもとに処理された質の高いものとなり「マシーンラーニング」が医師の力量を抜き去る日は、遠くないと予測されています。乳癌検診に使われる「マンモグラフィー」解析には、２人の医師による読影が義務づけられています。すでに調査によって、２人目を「マシーンラーニング」にさせても、「専門家」が行っても、同じ正診率を得ており、医師の力量と同じレベルにまで読影力が成長していることが分かります（文献４）。さらにひとである医師と違い、「マシーンラーニング」は時間、天候、疲労度、スケジュールに左右されることなく、同じ正確性で仕事をし続けるのですから、「ヒューマンエラー」の不安から患者は解放されることになるでしょう。また、術中やICU患者における、血圧、脈、体温、心電図などの常時モニターを要するデータは、「マシーンラーニング」による管理が可能となると言われています。こうした分野の「マシーンラーニング」の代替までには、年のオーダーで十分可能であるとまで論じられ、いずれ麻酔科医、救急医の煩雑で人為的エラーがもたらされる部分については、人工知能が仕事を代替してくれる日が近いだろうと医療情報分野では期待されているところです。

第三が、「診断」の分野です。「鑑別診断」「検査の手順」について、正確性が期されるようになり、誤診のリスクや不要な検査が格段に減ることが期待されています。しかし、この分野は、（１）診断に至る道筋が標準化されていないため、「アルゴリズム」の構築が困難であること、（２）構造化が未熟な電子カルテやデータを、「アルゴリズム」に適応させるためのキュレーションが必要であること、（３）個々の診断についてモデル構築、検証プロセスを要すること、から、まだまだ時間を要するようです。

今後の課題も浮き彫りになってまいりました。システム構築のプロセスでは、誤った関連付けによって、間違った予測が生じたり、予測そのものが不安定になったりするケースがあり得ることから、「アルゴリズム」が正確性を確認するために、構築過程で使用しなかったデータ群を用いて検証することが必要であることが分かっています。また、より正確な予測を実現するために、収集データの質を上げ、量を増やすことが、重要視されるようになりました。データは、数百万単位が必要とされ、主たるデータソースとなる「電子カルテ」は、注意深い「キュレーション（情報収集と選択）」を行い、「アルゴリズム」に適正な質を維持することが求められます。また、人間のレベルにまで優秀な判断ができるようになるまでには、様々な種類のデータを層別して大量に集める必要があり、例えば、病理の標本の場合（文献５）、（１）診断に使用する代表例のみでなく、診断に迷うケースもデータベース化するにあたっては、手法的困難さがあること、（２）ヘマトキシリン・エオジン染色のサンプルが、今のところ主立ったデータソースですが、免疫染色などのサンプルのデータベースを作成する必要があること、（３）どの程度の拡大倍率をデータとして採用するのか標準化しなければならないこと、（４）定量化できない所見、例えば、肺腺癌の所見で「腺房腺癌」と「乳頭腺癌」をどのようにデータベース化するのか、も考慮すれば、かなり気の遠くなるような時間と手間、手法上の克服しなければならない多数の問題点があると考えられ、果たして年のオーダーで確立するという楽観的な予測が正しいのかどうか、疑問に思わざるをえません。

適切な患者ケアのためには、医師は現状でさえ大量のデータを処理する必要に迫られていますが、近未来には、遺伝子情報、iPS情報など、より多くの革新的な分野を網羅していることが要求されるのは言うまでもありませんし、様々な分野で応用されている「マシーンラーニング」が医療情報分野で汎用されるのも間違いないでしょう。しかし、電子カルテのキュレーション作業ひとつとっても、マニュアル作業に伴うエラーが生じる可能性がありますし、データ加工に伴うバイアスが生じうる危険性も忘れてはなりません。マシーンラーニングに供するデータを作るのは、あくまでも「人」であることを忘れてはならないのです。確かに比較的単純な判断や機械が得意な分野である「予後」や「放射線診断」の分野は、機械任せにある程度できるかもしれないが、複雑な判断となると、重層的な大規模なデータベースの整備が必要になることもわすれてはなりません。

ある程度のところで手を打って作成したデータベースを用いて、「アルゴリズム」を完成させてはならない、ということを肝に銘じる必要があります。「マシーンラーニング」という魅力ある言葉に幻惑されることなく、それによって得られた結果も、多数ある選択肢の一つであり、参照程度にとどめるべきであることを、日常臨床をしている我々は、わすれてはならないのだと考えます。

文献１　Obermeyer, Z. and Emanuel, E.J., 2016. Predicting the Future―Big Data, Machine Learning, and Clinical Medicine. New England Journal of Medicine, 375(13), pp.1216-1219.

文献２　Bouton, C.E., Shaikhouni, A., Annetta, N.V., Bockbrader, M.A., Friedenberg, D.A., Nielson, D.M., Sharma, G., Sederberg, P.B., Glenn, B.C., Mysiw, W.J. and Morgan, A.G., 2016. Restoring cortical control of functional movement in a human with quadriplegia. Nature, 533(7602), pp.247-250.

文献３　Motwani, M., Dey, D., Berman, D.S., Germano, G., Achenbach, S., Al-Mallah, M.H., Andreini, D., Budoff, M.J., Cademartiri, F., Callister, T.Q. and Chang, H.J., 2016. Machine learning for prediction of all-cause mortality in patients with suspected coronary artery disease: a 5-year multicentre prospective registry analysis. European heart journal, p.ehw188.

文献４　Gilbert, F.J., Astley, S.M., Gillan, M.G., Agbaje, O.F., Wallis, M.G., James, J., Boggis, C.R. and Duffy, S.W., 2008. Single reading with computer-aided detection for screening mammography. New England Journal of Medicine, 359(16), pp.1675-1684.

文献５　Yu, K.H., Zhang, C., Berry, G.J., Altman, R.B., Ré, C., Rubin, D.L. and Snyder, M., 2016. Predicting non-small cell lung cancer prognosis by fully automated microscopic pathology image features. Nature Communications, 7.

愛し野内科クリニック　愛し野だより編集部

2016/10/12

第92回 愛し野塾 マシーン・ラーニングが担う医療改革

第92回　愛し野塾　マシーン・ラーニングが担う医療改革