• 検索
  • お問い合わせ
  • お知らせ
  • メニュー
  • がん種
  • 特集
  • 治験
  • リサーチ
  • イベント
  • 動画
  • 体験談
  • 患者会
  • 辞典
  • お役立ち

がん関連文献の約10%は不正論文である可能性:機械学習を使ったスクリーニングで明らかに British Medical Journalより

[公開日] 2026.03.09[最終更新日] 2026.03.02

2026年1月29日、医学誌「British Medical Journal」にて、がん研究分野における「ペーパーミル((不正)論文工場)」から生成された可能性のある論文を識別する機械学習モデルの構築と、それを用いた大規模調査の結果が報告された。本研究では、過去25年間のがん研究論文のうち、不正論文と同様のテキスト上の特徴が認められる論文が約10%存在することを明らかにした。

研究手法

モデル構築: 自然言語処理モデル(BERT)を使用し、論文のタイトルと抄録から分類を行うモデルを作成。 学習データ: 撤回済み論文のデータベースである「Retraction Watch」から、ペーパーミル論文に分類される2,202件の論文を使って分類モデルを学習。 調査対象: 1999年から2024年にPubMedに掲載された、がん研究に関するオリジナル論文約260万件。

結果

構築された機械学習モデルは、検証用データにおいて91%の精度を達成した。 このモデルを使って、がん研究論文2,647,471件をスクリーニングした結果、261,245件(9.87%)が撤回されたペーパーミル論文と類似していると判定された。 また、1999年から2024年にかけて、ペーパーミル論文であることが疑われる論文の数は大幅に増加していた。この傾向は、低インパクトファクターの雑誌に限らず、インパクトファクター上位10%の高品質なジャーナルにおいても同様に認められた。 国別の分布では、17万件以上の論文が中国の研究機関に所属しており、同国のがん研究論文の36%を占めている。 さらに、ペーパーミル論文の分野に関しては、基礎研究、および胃がん、骨がん、肝がんに関する論文において割合が高い傾向が認められた。

結論

がん研究分野におけるペーパーミル論文の問題は極めて深刻であり、かつ拡大傾向にある。この問題は一部の学術誌に限定されたものではなく、インパクトファクターの高い主要な雑誌にも及んでいる。論文の健全性を守るためには、研究コミュニティ全体での認識の共有と対策を講じることが不可欠である。 参照元: Machine learning based screening of potential paper mill publications in cancer research: methodological and cross sectional study(BMJ 2026 doi: 10.1136/bmj-2025-087581.)
ニュース

浅野理沙

東京大学薬学部→東京大学大学院薬学系研究科(修士)→京都大学大学院医学研究科(博士)→ポスドクを経て、製薬企業のメディカルに転職。2022年7月からオンコロに参加。医科学博士。オンコロジーをメインに、取材・コンテンツ作成を担当。

治験・臨床試験

一覧を見る

リサーチ・調査

一覧を見る

ニュース

一覧を見る

イベント

一覧を見る

動画

一覧を見る

体験談

一覧を見る

患者会

一覧を見る

電話受付:平日(月〜金)10:00-18:00

※オペレーターが受付いたします。内容に応じて専門のスタッフへおつなぎいたします。