AIシステムによる乳がん画像診断は放射線科医を超えられるのか？

1
AIシステムはテスト前に集中学習、テスト本番で2652枚を診断
2
AIシステムの診断成績は放射線科医集団平均と同等も、ベテランには及ばず
3
AI活用の中身と実用化に向けた課題の明確化が必要

この記事の3つのポイント ・AIシステムを用い、乳がん画像診断装置の検査画像を学習
・診断成績は放射線科医集団平均と同等だったが、ベテランには及ばなかった
・人間を上回るAIシステム構築には、人間が築いた信頼に基づかない学習や訓練が必要

深層学習に基づくアルゴリズムの開発が急速に進んでおり、医療現場での画像診断は人間とコンピューターの差がますます縮まっている。マンモグラフィーによる乳がんスクリーニングのデータセットを人工知能（AI）システムに学習させ、放射線科医集団101人の診断成績と比較した結果、同等の精度で乳がんを検出したことが、オランダ・Radboud大学メディカルセンターのIoannis Sechopoulos氏らによる報告で明らかになった。2019年3月5日のJournal of the National Cancer Institute（JNCI）オンライン版に掲載された。

AIシステムはテスト前に集中学習、テスト本番で2652枚を診断

研究グループは、畳み込みニューラルネットワークで深層学習するAIシステムを用い、乳がん画像診断装置のデジタルマンモグラフィー（DM）、並びにデジタルトモシンセシスの検査画像を学習させ、訓練、検証、試験を繰り返した。学習させた画像は、9000枚を超える乳がん画像と18万枚の正常乳房の画像であった。

放射線科医による診断成績と比較するためのデータセットは上記とは別に用意した。AI研究とは別の目的で行われた乳がんスクリーニング研究の一部として2012年から2018年に報告されていた9個のデータセットで、診断が実際に行われたのはオランダやスウェーデン、イタリア、米国など7ヶ国、使われたDM装置は4種類、検査画像は計2652枚、診断に携わった放射線科医は101人（診断経験は1年から44年）であった。

AIシステムは画像診断の結果を、がんの疑いの度合いに応じて1から10でスコア化した（スコアが高いほど悪性の疑いが強い）。一方、放射線科医は1から5でスコア化する「Breast Imaging Reporting and Data System（BI-RADS）」、1から100でスコア化する「probability of malignancy （PoM）」と呼ばれる乳がん診断尺度の一方または両方を用いて診断していた。

AIシステムの診断成績は放射線科医集団平均と同等も、ベテランには及ばず

診断結果の真偽を判定する指標である受信者動作特性曲線（ROC）の曲線下面積（AUC）を用い、AIと放射線科医集団（101人）との成績を比較した。なお、ROCは横軸を偽陽性率、縦軸を陽性率としてプロットする曲線で、その曲線下面積（AUC）が1に近いほど診断性能が高いことを示す。

その結果、AIシステムのROC AUCは0.840、放射線科医集団のROC AUCは0.814で、AIシステムは主要評価項目である放射線科医集団との統計学的な非劣性基準を達成し、AUC値の比較ではAIシステムの方がわずかに（その差0.026）高かった。また、AIシステムのAUCは放射線科医101人中の62人のAUCより高く、感度を表す陽性率は95人中の55人より高かった。

AI活用の中身と実用化に向けた課題の明確化が必要

Sechopoulos氏らの今回の研究では、大規模で多様なデータセットをテスト問題としてAIシステムの成績を出した。そして、乳がんマンモグラフィーの画像診断では、AIアルゴリズムが人間とコンピューターの溝を埋めるのにかなり貢献することが証明された。しかしながら、AIシステムの診断性能はベテラン放射線科医を一貫して超えることができないことも分かった。診断成績の高い放射線科医のグループと比較して、AIシステムは9個のいずれのデータセットでもAUCが下回ったのである。その理由として研究グループは、AIシステムがその時その画像のみを診断するのと異なり、人間である放射線科医は診断対象者の過去の検査結果やもう片方の乳房の状態など周辺の情報を持っていることを挙げている。AIシステムは、がんでないものをがんと判定してしまうこと、すなわち偽陽性を最小限にとどめることはできるが、画像に隠れているがんを発見することはできないのである。がん発見（陽性）と偽陽性との間で、リスクと矛盾を解消するようなトレードオフを強いられる人間だからこその現象だと研究グループは考察している。その上で、人間の診断性能を安定して上回るAIシステムを構築するためには、人間が築いた信頼に基づかずに学習、訓練させることが必要としている。

実用化までには様々な検証評価が必要であるが、今後さらにAI研究が進化し、乳がん放射線科医のベテランレベルと同等の性能を持つAIシステムが登場すれば、集団検診でも個別の臨床診断でもその役割に大きな期待がかかるだろう。集団検診では、例えば乳がん放射線科医が少ない地域などでは第1、第2の独立した診断担当として活用される可能性がある。また、放射線科医と相互的な意思決定にかかわる支援ツールとしての役割を担えば、がんの見落としや誤診のリスクを減らすことができるだろう。

Stand-Alone Artificial Intelligence for Breast Cancer Detection in Mammography: Comparison With 101 Radiologists(JNCI, Published: 05 March 2019)

AIシステムによる乳がん画像診断は放射線科医を超えられるのか？

AIシステムはテスト前に集中学習、テスト本番で2652枚を診断

AIシステムの診断成績は放射線科医集団平均と同等も、ベテランには及ばず

AI活用の中身と実用化に向けた課題の明確化が必要

治験・臨床試験

リサーチ・調査

ニュース

イベント

患者会