昨今、人工知能(AI)を用いたヘルスケア応用が数多く試みられている。
日本においては、2016年初夏、東京大学医科学研究所がIBM社の開発したAI、『Watoson for Genomics』を利用し、抗がん剤治療により改善がみられなかった白血病患者のゲノム情報を分析したところ、わずか10分の解析で特殊な遺伝子変異の白血病であることがわかり、治療法を変えた結果、60代女性患者の命が救われたことは、「人工知能が人の命を救った」としてメディアでも多く取り上げられた。
このように、AIは『診断』としては非常に優れたパフォーマンスを発揮する可能性がある。
この中、乳がんの病理診断にてAIの性能を競う大会「CAMELYON16」が開催され、32のAIが正確度を競った。さらには、同じ検体を11人の病理医が判定し、その正確度をAIと比較した。
上記の結果は、オランダRadboud大学のBabak Ehteshami Bejnordi氏らが解析データされ、2017年12月12日に著名な医学誌のJAMA誌(318巻22号2199ページ)に掲載された。
AI vs. 病理医、制限時間あり条件ではAIに軍配
ディープラーニング(深層学習)の技術を駆使したAIの性能を競う大会「CAMELYON16」で上位にランクインしたAIは、乳がんリンパ節転移の鑑別診断の正確度が11人の病理医による判定成績を上回った。その際、制限時間およそ2時間で、病理医は組織染色したスライドガラス129枚を顕微鏡で観察した。一方、制限時間を設けない条件では、病理医は129枚を判定するのに30時間を要したが判定成績はAIと同等であった。
※今回、文献の内容を易しく記載できていませんでした。一般の方がわかりやすい内容は以下となります。オンコロは以下をお読みいただき、更に詳しく知りたい方向けのとなります。
AIが医師に「圧勝」の衝撃 医療は変わる?医師の見解は(huffingtonpost)
270名のデータを学習したAI vs. 実務年齢平均16.4年の病理医試験、129枚の組織切片を診断
2015年11月から2016年11月に行われたCAMELYON16で、Bejnordi氏らは乳がんのリンパ節転移の検出における精度と効率性の向上に自動化したAIが活用できるかどうかを評価するため、判定結果を病理医11人による判定と比較した。
試験サンプルは、オランダのRadboud大学メディカルセンター(RUMC)、およびUtrecht大学メディカルセンター(UMCU)から提供された。いずれも病理組織診断の基本的な染色法であるヘマトキシリン・エオジン(HE)染色を施した組織切片である。
AIには事前に、110名のリンパ節転移あり組織切片、160名のリンパ節転移なし組織切片を用いて学習させた。一方、病理医11人の平均年齢は47.7歳(31歳から61歳)で、うち10人は実務経験平均16.4年、1人は研修期間5年を終了したばかりの研修医であった。乳がん専門の病理医は3人含まれた。
AI、ならびに病理医11人が判定するサンプルは、49名のリンパ節転移あり組織切片および80名のリンパ節転移なし組織切片の計129枚である。日常の臨床現場での作業環境にできるだけ近い条件のもと、スライドガラス全体所見での転移の有無を同定する課題1、およびセンチネル腋窩リンパ節転移(SLN)の有無を分類する課題2を実施した。
判定の成績は、転移ありの正答率を示す真陽性割合、受診者動作特性曲線(ROC)の感度、特異度、および曲線下面積(AUC)を指標に評価した。なお、ROCは感度、特異度がともに100%の場合が最も理想的で、AUCは1に近いほど正確性が高い。
要するに、どの指標も数字的に100%や1に近い数字が優れているということになる。
病理医は判定時間無制限の場合でも27.3%が遠隔転移見落とす
判定時間無制限条件とした場合、研究に参加した病理医は129枚の判定におよそ30時間を要した。
転移確認をした際に偽陽性(誤って転移があると診断)と判定されたサンプルはなかったが、実際に転移があるサンプルの27.6%が転移なしと判定された。一方、センチネル腋窩リンパ節転移においては、実際に転移のサンプルの3.4%が転移なしと判定され、判定の感度は93.8%、特異度は98.7%、受診者動作特性曲線(ROC)の曲線下面積(AUC)は0.966であった。
時間制限ありとした場合、研究に参加した病理医は129枚の判定に要した時間は中央値120分(72分から180分)であった。
センチネル腋窩リンパ節転移を確認をした際に偽陽性(誤って転移があると診断)と判定されたサンプルはなかったが、実際に転移があるサンプルの27.6%が転移なしと判定された。
感度は平均62.8%、特異度は平均98.5%、AUCは平均0.810であった。
※専門家向けノート:マクロ転移(腫瘍細胞集団の直径が2mm以上)、またはミクロ転移(同0.2mm超2mm未満)別の判定能力をさらに解析した結果、マクロ転移判定の感度平均92.9%、AUC平均0.964と比べ、ミクロ転移判定の感度は平均38.3%、AUC平均0.685と、成績は大幅に低下した。熟練した病理医でもミクロ転移の37.1%を見逃した。
一番精度の高かったAIの遠隔転移の見落としは19.3%
23のAI研究チーム、32のAIが参加した。うち、25のアルゴリズムは脳神経細胞をモデルとした深層畳み込みニューラルネットワーク(CNN)という技術を利用したAIだった。
遠隔転移判定の自由応答受信者動作特性曲線(FROC)の真陽性スコア、センチネルリンパ節転移判定の曲線下面積(AUC)による比較で1位になったAIは、ハーバードメディカルスクール・マサチューセッツ工科大学II(HMS&MIT II)の「GoogLeNet」(FROCスコア0.807、AUC=0.994)、2位はハーバードメディカルスクール・マサチューセッツ総合病院III(HMS&MGH III)の「ResNet」(各0.760、0.976)であった。
なお、日本から参加の大阪大学のAIは、FROCスコア0.347、AUC0.732であり、66.3%の遠隔転移および26.8%のセンチネル腋窩を見落とした。
AIに軍配あがるも、臨床応用はまだ時間が必要
1位のAIのAUC(0.994)は、時間制限ありで判定した病理医のAUC(0.810)と比べ有意に高く(p<0.001)、時間制限なしで判定した病理医のAUC(0.966)とは有意差がなく同等であった。また、時間制限ありでの病理医判定11人の平均AUCより高かったAIは7種あり、1位の病理医でもAUCは0.884であった。
この結果は、少なくともセンチネル腋窩リンパ節転移の鑑別診断においては、AIと病理医は同等の評価が可能であることを示唆する。ただし、それは2時間という限られた条件下においての結果であることに注意頂きたい。
AI 病理診断の臨床応用までにはまだ時間が必要である、しかしながら、がん医療の場にAIが登場するのは夢でなくなっていることは確かだ。
Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases inWomen With Breast Cancer(JAMA. 2017;318(22):2199-2210)
(文 可知 健太)