「承認」は「安全」を意味しない――医療AIの6割が薬剤名誤認、規制設計の盲点が露呈

2026年5月、カナダ・オンタリオ州の監査総長事務所が公表した調査報告は、AI業界に衝撃を与えた。州政府の医療機関で使われている診察記録自動作成AIのうち、6割が薬剤名を取り違え、存在しない症状を記録していたのだ。これは単なる「バグ」の話ではない。「承認済み」システムで起きた事実が示すのは、AIの品質保証における根本的な設計思想の欠陥である。

「事前承認」と「継続的品質保証」のギャップ

問題の核心は、承認時のテストと実運用環境の乖離にある。医療機器やソフトウェアの承認プロセスは、通常「特定の条件下での性能検証」に基づく。しかし医療AIが実際に扱うのは、方言混じりの患者の訴え、医師の口癖、施設ごとに異なる電子カルテフォーマットといった「標準化されていないデータ」だ。

今回の事例では、音声認識AIが「Metformin（糖尿病薬）」を「Methotrexate（抗がん剤）」と誤認するケースが報告された。音韻的に類似した薬剤名の取り違えは、訓練データに含まれない発音パターンや背景ノイズが原因と推測される。承認時のクリーンな音声データでは検出できなかった問題が、実運用の「ノイズ」の中で顕在化したのだ。

「ハルシネーション」が医療記録に刻まれるリスク

さらに深刻なのは、患者が訴えていない症状がAIによって記録されていた点だ。これは生成AIの「ハルシネーション（幻覚）」が、公式な医療記録という永続的なデータベースに刻まれたことを意味する。

通常、ChatGPTのような対話AIでハルシネーションが起きても、ユーザーは「おかしい」と気づき修正できる。しかし医療現場では、医師がAI生成記録を「確認したつもりで読み飛ばす」ケースが多い。多忙な医療従事者にとって、AIは業務負荷を減らす味方であり、その出力を疑う心理的余裕がないからだ。これは「自動化バイアス」と呼ばれる認知の罠である。

誤った症状記録は、次回診察時の判断を誤らせ、不要な検査や投薬を引き起こす。医療AIのエラーは「一度きりの失敗」では終わらず、データの連鎖的な汚染を生むのだ。

規制の「タイムラグ」が生む構造的脆弱性

では、なぜ承認システムはこの問題を防げなかったのか。答えは「規制の更新速度」にある。医療機器の承認基準は、従来のハードウェアやルールベースのソフトウェアを前提に設計されている。一方、機械学習ベースのAIは「確率的な出力」を本質とし、同じ入力でも異なる結果を返す可能性がある。

従来の規制は「再現性」を重視するが、AIには「統計的な信頼区間」という異なる評価軸が必要だ。さらに、AIモデルは運用中にアップデートされることが前提となっており、「承認時のバージョン」と「実運用バージョン」が一致しない事態も起こりうる。カナダの事例は、こうした規制設計の「想定外」が現実になった瞬間だった。