「承認」は「安全」を意味しない――医療AIの6割が薬剤名誤認、規制設計の盲点が露呈
2026年5月、カナダ・オンタリオ州の監査総長事務所が公表した調査報告は、AI業界に衝撃を与えた。州政府の医療機関で使われている診察記録自動作成AIのうち、6割が薬剤名を取り違え、存在しない症状を記録していたのだ。これは単なる「バグ」の話ではない。「承認済み」システムで起きた事実が示すのは、AIの品質保証における根本的な設計思想の欠陥である。
「事前承認」と「継続的品質保証」のギャップ
問題の核心は、承認時のテストと実運用環境の乖離にある。医療機器やソフトウェアの承認プロセスは、通常「特定の条件下での性能検証」に基づく。しかし医療AIが実際に扱うのは、方言混じりの患者の訴え、医師の口癖、施設ごとに異なる電子カルテフォーマットといった「標準化されていないデータ」だ。
今回の事例では、音声認識AIが「Metformin(糖尿病薬)」を「Methotrexate(抗がん剤)」と誤認するケースが報告された。音韻的に類似した薬剤名の取り違えは、訓練データに含まれない発音パターンや背景ノイズが原因と推測される。承認時のクリーンな音声データでは検出できなかった問題が、実運用の「ノイズ」の中で顕在化したのだ。
「ハルシネーション」が医療記録に刻まれるリスク
さらに深刻なのは、患者が訴えていない症状がAIによって記録されていた点だ。これは生成AIの「ハルシネーション(幻覚)」が、公式な医療記録という永続的なデータベースに刻まれたことを意味する。
通常、ChatGPTのような対話AIでハルシネーションが起きても、ユーザーは「おかしい」と気づき修正できる。しかし医療現場では、医師がAI生成記録を「確認したつもりで読み飛ばす」ケースが多い。多忙な医療従事者にとって、AIは業務負荷を減らす味方であり、その出力を疑う心理的余裕がないからだ。これは「自動化バイアス」と呼ばれる認知の罠である。
誤った症状記録は、次回診察時の判断を誤らせ、不要な検査や投薬を引き起こす。医療AIのエラーは「一度きりの失敗」では終わらず、データの連鎖的な汚染を生むのだ。
規制の「タイムラグ」が生む構造的脆弱性
では、なぜ承認システムはこの問題を防げなかったのか。答えは「規制の更新速度」にある。医療機器の承認基準は、従来のハードウェアやルールベースのソフトウェアを前提に設計されている。一方、機械学習ベースのAIは「確率的な出力」を本質とし、同じ入力でも異なる結果を返す可能性がある。
従来の規制は「再現性」を重視するが、AIには「統計的な信頼区間」という異なる評価軸が必要だ。さらに、AIモデルは運用中にアップデートされることが前提となっており、「承認時のバージョン」と「実運用バージョン」が一致しない事態も起こりうる。カナダの事例は、こうした規制設計の「想定外」が現実になった瞬間だった。
「人間を信頼する設計」から「システムを疑う設計」へ
この問題への解決策は、単なる「AIの精度向上」ではない。必要なのは、「エラーは必ず起きる」前提でのシステム設計である。
具体的には、以下のような「多層防御」のアプローチが有効だ。
- 差分検知アラート: AI生成記録と医師の口頭内容に大きな乖離がある場合、自動で警告を発する
- 薬剤名のホワイトリスト検証: 処方権限のない薬剤名が記録された際、確認プロンプトを表示
- 継続的モニタリング: 承認後も実運用データを監査し、精度低下を検出する仕組み
- 「AI生成」の明示: 記録に自動生成された旨をタグ付けし、医師の確認責任を明確化
これらは「AIを信じない」のではなく、「AIと人間の協働における責任分界点」を設計する試みだ。自動運転車が「ドライバー監視システム」を備えるように、医療AIにも「医師の関与度モニタリング」が不可欠となる。
信頼の再構築――透明性と検証可能性がカギ
今回の事件は、AI業界全体に波及する教訓を含んでいる。金融、法務、人事など、他の「高信頼性が求められる領域」でも、同様の問題は潜在している可能性がある。重要なのは、「承認」を「免罪符」にしない文化の醸成だ。
欧州AI規制法(AI Act)では、高リスクAIに対して「継続的な適合性評価」を義務づけている。カナダの事例は、こうした規制の先見性を裏付けるとともに、日本を含む各国に「承認後の品質保証メカニズム」の整備を迫っている。
AIの社会実装は不可逆的な流れだ。しかし「効率化」の前に「安全性の検証可能性」を置く設計思想なくして、真の信頼は得られない。医療AIの誤認問題は、私たちが「AIとどう付き合うべきか」を問い直す契機となるだろう。



コメントを送信