がん関連文献の約10％は不正論文である可能性：機械学習を使ったスクリーニングで明らかに

2026年1月29日、医学誌「British Medical Journal」にて、がん研究分野における「ペーパーミル（（不正）論文工場）」から生成された可能性のある論文を識別する機械学習モデルの構築と、それを用いた大規模調査の結果が報告された。本研究では、過去25年間のがん研究論文のうち、不正論文と同様のテキスト上の特徴が認められる論文が約10％存在することを明らかにした。

研究手法

モデル構築： 自然言語処理モデル（BERT）を使用し、論文のタイトルと抄録から分類を行うモデルを作成。 学習データ： 撤回済み論文のデータベースである「Retraction Watch」から、ペーパーミル論文に分類される2,202件の論文を使って分類モデルを学習。 調査対象： 1999年から2024年にPubMedに掲載された、がん研究に関するオリジナル論文約260万件。

結果

構築された機械学習モデルは、検証用データにおいて91％の精度を達成した。このモデルを使って、がん研究論文2,647,471件をスクリーニングした結果、261,245件（9.87％）が撤回されたペーパーミル論文と類似していると判定された。また、1999年から2024年にかけて、ペーパーミル論文であることが疑われる論文の数は大幅に増加していた。この傾向は、低インパクトファクターの雑誌に限らず、インパクトファクター上位10％の高品質なジャーナルにおいても同様に認められた。国別の分布では、17万件以上の論文が中国の研究機関に所属しており、同国のがん研究論文の36％を占めている。さらに、ペーパーミル論文の分野に関しては、基礎研究、および胃がん、骨がん、肝がんに関する論文において割合が高い傾向が認められた。

結論

がん研究分野におけるペーパーミル論文の問題は極めて深刻であり、かつ拡大傾向にある。この問題は一部の学術誌に限定されたものではなく、インパクトファクターの高い主要な雑誌にも及んでいる。論文の健全性を守るためには、研究コミュニティ全体での認識の共有と対策を講じることが不可欠である。参照元： Machine learning based screening of potential paper mill publications in cancer research: methodological and cross sectional study（BMJ 2026 doi: 10.1136/bmj-2025-087581.）

がん関連文献の約10％は不正論文である可能性：機械学習を使ったスクリーニングで明らかに British Medical Journalより

研究手法

結果

結論

治験・臨床試験

リサーチ・調査

ニュース

イベント

動画

体験談

患者会

がん関連文献の約10％は不正論文である可能性：機械学習を使ったスクリーニングで明らかに British Medical Journalより

研究手法

結果

結論

おすすめ記事

治験・臨床試験

リサーチ・調査

ニュース

イベント

動画

体験談

患者会