関連記事:
この賛否討論は、2019年のStoelting Conferenceのなかで「患者の容態悪化: 早期の認識と迅速な介入で救命失敗をなくそう」という題目で開催された。2人の著者は、容態が悪化している院内患者の管理に人工知能を取り入れる領域の専門家である。 |
人工知能(artificial intelligence: AI)は、重篤合併症率と死亡率の予測や、医師をしのぐ診断などのように、医療が直面している多くの問題を解決する見込みがあると考えられている。ところが実際は、研究が増えているにもかかわらず、臨床で検証されたAIアルゴリズムの数は限られる。米国食品医薬品局が承認したAIアプリケーションの数は増えていても、実装と普及は難しいという状況が続いている。コンピューター科学者のRodney Brooksは、AIを用いた予測の課題について述べており、ソリューションの過大評価や過小評価、魔法のアルゴリズムをイメージしてしまうこと、展開の規模、パフォーマンスの限界などを挙げた。1,2
パフォーマンスの限界は、診断AIソリューションでは特に重要である。胸部X線写真で認められる疾患を診断する場合に、AIが診断を向上させて臨床医をしのぐという研究結果は多い。3 実際に、これらの研究で用いられた自己限定的で狭域なアルゴリズムは、多くの場合で胸部X線写真の無気肺や浸潤影といった病変を検出することができる。しかしながらこれらのアプリケーションは、高精度と謳われていたのに複製や一般化が困難だった。4 機械学習以外のアプローチでは、臨床医がラベル付けしたデータをコンピューターが学習することによってアルゴリズムが構築される。これらのアルゴリズムを支えている胸部X線写真データセットが多く公開されているが、そこでは放射線科医が病変に浸潤影、腫瘤影、無気肺といったラベル付けをしているのである。このように臨床医が読影することが「ゴールドスタンダード」と見なされているものの、読影者によって明らかに違いがでることが指摘されているので、5 データセットに誤ったラベル付けがされるという懸念がある。そして、このように誤ったラベル付けがされたデータセットから作成したアルゴリズムの結果にもまた重大なエラーが含まれる恐れがあり、それによって臨床医の意思決定は混乱させられる可能性がある。
AIに基づく疾患予測にも、同様の問題が存在する。急性腎障害の予測に関するTomasevらの研究では、prediction bias (訳注: モデルの予測値に対するバイアス)がデータセットを通じて加わってしまった。この研究で用いられた米国退役軍人のデータセットには、女性患者が6.4%しか含まれておらず、モデルのパフォーマンスはこれら女性患者で他の患者よりも低かった。6 病院経営陣や保険会社が使用するために開発されたような管理データセットやソリューションにおいてさえも、バイアスは課題として残っている。バイアスはObermeyerらが実証したように、アルゴリズムを開発する段階で加わることもあるが、使用するデータセットそのものによって、あるいはアルゴリズムを実装するやり方によっても加わることがある。7 このようなバイアスを含むアルゴリズムでは、患者に不適切で危険な治療を提供することになりかねない。
また実際のところ、予測値が不正確だと、よく研究されたAIアルゴリズムであっても取り入れにくいということになる。統計学的に「モデルの適合度」を反映している「曲線下面積」による評価が、アルゴリズムの精度を報告するのによく用いられている。しかしながら、感度や陽性的中率など、他のさまざまなパラメーターも考慮する必要がある。正確な予測値と再現性がなければ、臨床医がAIアルゴリズムを取り入れる可能性は低くなる。8
AIアルゴリズムの拡張可能性と一般化可能性は、医療におけるもう1つの大きな課題である。アルゴリズムを展開する主な手段は電子カルテなのだが、貧弱なインタフェース、ITチームへの限定的な支援体制、統合ソリューションの欠如のため依然としてアルゴリズムを取り入れにくい。
一部の組織によって行われたマーケティングや誇大広告もまた負の影響を与えており、多くの医療者の間でAIの信頼性が失われることになった。よく研究されたソリューションの中にも、現在のAI関連の市場価値を利用しようと大いに誇張されているものがある。ロンドンの投資会社であるMarsh & McLennan Companies社による、欧州でのAIを使用した新規事業に関する調査では、その40%が実際は製品のどこにもAIを用いていなかった。9
AIは、増量の一途をたどるデータを効率的かつ再現性ある方法で使用して、医療向けに潜在的により安全なソリューションを提供できる可能性がある。しかしそれを実現させるには、AIアルゴリズムの開発および展開にあたって臨床医のリーダーシップと厳密な臨床的検証が必要である(表1)。
表1:医療におけるAIを効果的に展開するためのソリューション
患者(および医療者)が中心—まず、害を与えてはならない |
臨床医のリーダーシップ |
厳格なモデル開発と試験 |
説明可能または解釈可能であること ― ブラックボックスの回避 |
一般化可能性と拡張可能性のための臨床的な検証 |
高い費用対効果 |
医療向けAIアルゴリズムの研究と開発は未だ初期段階にある。AIは明らかに急成長しており、近い将来もこのペースで成長を続けるだろう。優れたアルゴリズムを効果的に利用できるようにするために、診療、情報技術、金銭の資源を投入する準備をしておかなければならない。臨床医のなかでも特に放射線科医と腫瘍内科医は既に、作業現場に不適切なソリューションが混在することを避けるために多くのAIアルゴリズム開発を牽引している。テクノロジーを早期に取り入れるのが得意であり、データが豊富な環境にいる麻酔専門家と周術期臨床医もまた、より安全なケアを患者に提供するために、持続可能なAIアルゴリズムの研究、開発、展開を牽引する必要がある。
Dr. Mathurは、オハイオ州クリーブランド市のクリーブランドクリニック麻酔科学研究所の、総合麻酔科の麻酔科医/集中治療医であり、医療の質改善担当官である。
著者は、この記事に関する利益相反はない。
参考文献
- Brooks R. https://www.technologyreview.com/s/609048/the-seven-deadly-sins-of-ai-predictions/. MIT technology review. 2017. Accessed December 9, 2019.
- Panetta K. https://www.gartner.com/smarterwithgartner/5-trends-appear-on-the-gartner-hype-cycle-for-emerging-technologies-2019/. Accessed August 29, 2019.
- Rajpurkar P, Irvin J, Ball RL, et al. Deep learning for chest radiograph diagnosis: a retrospective comparison of the CheXNeXt algorithm to practicing radiologists. PLoS Med. 2018;15:e1002686.
- Zech JR, Badgeley MA, Liu M, et al. Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study. PLoS Med. 2018;15:e1002683.
- Oakden-Rayner L. Exploring large-scale public medical image datasets. Acad Radiol. 2019.
- Tomasev N, Glorot X, Rae JW, et al. A clinically applicable approach to continuous prediction of future acute kidney injury. Nature. 2019;572:116–119.
- Obermeyer Z, Powers B, Vogeli C, et al. Dissecting racial bias in an algorithm used to manage the health of populations. Science. 2019;366:447–453.
- Ginestra JC, Giannini HM, Schweickert WD, et al. Clinician perception of a machine learning-based early warning system designed to predict severe sepsis and septic shock. Crit Care Med. 2019;47:1477–1484.
- Olson P. https://www.forbes.com/sites/parmyolson/2019/03/04/nearly-half-of-all-ai-startups-are-cashing-in-on-hype/#454f99e7d022. Forbes. Accessed March 4, 2019.