第8章8-5 生成AIによる作業のQA(品質保証)

EBM (Evidence-Based Medicine)では「最良の根拠」を臨床の判断に役立てることが基本ですが、そのプロセスは膨大な文献探索・要約作業を伴い、人手だけでは追いつかないことが知られています[1]。生成AIはこうした作業を支援しますが、AIの出力が確実に「良い判断」に貢献したかを評価・改善するためには、適切な評価指標とQAプロセスが欠かせません。本章では、生成AIを用いたEBM文献検索・要約作業の品質保証手法と、その実装例(EBM_Pharmacist_MVP)での工夫について述べます。 1. 評価指標の明示 AI支援の成果を客観的に測るため、以下の指標を明確に定めます。 要約の正確性:AIが出力した要約の内容が原著とどれだけ一致するか。行ごとに正誤をチェックし、情報の取りこぼしや誤解釈を検出します[2]。 引用整合性(PMID一致):AIが提示する引用文献(PMID)が実際の原文献と対応しているかどうか。AIは虚偽の引用(いわゆるハルシネーション)を起こしやすいため、参照文献の整合性確認は必須です[2][3]。 探索再現性:同じ質問・キーワードに対し、AI(あるいは検索エンジン)が一貫した検索結果を返せるか。検索条件やAIへのプロンプトをログに記録し、再実行可能な仕組みを設計します。[3]ではRAG(Retrieval-Augmented Generation)を用いることでAIの出力の裏付けとなる情報源を固定化し、再現性の向上に寄与していると報告されています。 時間短縮効果:AIを使った場合と使わない場合の作業時間を比較します。膨大な文献量を人手だけで追うのは非現実的で、米国の医師らが約19本/日分の論文を読む必要がある一方で実際には週1時間未満しか読めないとされることから[1]、AIは大幅な時間短縮をもたらす可能性があります。実装ツールでは、検索~要約作成に要する時間を計測・記録します。 見落とし率:AIが取り上げなかった重要な情報や論文の割合。人間の評価者がAI出力と原文献を比較し、重要項目の抜け漏れを検出します。この数値が低いほど品質が高いと評価できます[2]。 これらの指標を組み合わせ、定量的かつ定性的にAI支援の成果を検証します。単にBLEUやROUGEのような機械的なテキスト一致度指標だけでは、臨床的に有用かどうかは測れないため、専門家による評価が必要です[4]。 2. QAプロセスのフロー 図1に示す通り、生成AIの品質保証には「人→AI→人」の検証ループが基本となります。 図1: QA検証ループの構造(模式図) まず人間の質問者(薬剤師や研究者)が文献検索や要約の要求(プロンプト)をAIに与え、AIが回答・要約を生成します。その出力に対して人間が内容・引用を照合し、誤りや見落としを見つけ出します。発見したエラーは蓄積してデータベース化し、プロンプトやツール設定を随時改善します。Kallmesらの報告でも、AI支援によるシステマティックレビューでは専門家による監督と検証が重要とされ、AIの性能評価だけでなく時間短縮の測定や「Rapid Review」への応用も議論されています[5]。このように、AIが生成した内容を人間が必ずチェックし、必要に応じてフィードバックして再実行するワークフローを確立することがQAの要です。 エラー事例を蓄積し、プロンプトや検索クエリの改善に活かすPDCAサイクルも重要です。AIの出力に頻出する誤りパターンを分析し、次回以降の問い合わせ時にそれを回避するプロンプト設計を行います。例えば、「◯◯に関する要約を作成せよ」という依頼ではなく、「PubMedで見つかる最近5年の◯◯論文の要約を、PMIDを明記して答えてください」と具体化することで、検索範囲や引用の信頼性を高めることができます。このように人間とAIを交互に用いる検証ループにより、AI支援プロセスの信頼性を向上させます[6][5]。 3. EBM_Pharmacist_MVPでの工夫と運用シナリオ 当社のEBM_Pharmacist_MVPでは、QAを支える実装上の工夫を取り入れています。まずログ記録機能として、ユーザからの質問・プロンプト、AIの回答・要約、および要約に引用されたPMIDと要約対象の原文を一元的に記録・保存しています。これにより後から検索履歴を再現できるほか、同じ質問への再問い合わせで結果を比較・検証することが可能です。 さらに引用整合性確認機能を実装し、AIが出力した各PMIDが実際の文献中に該当箇所があるかを自動チェックします。PMIDリストが回答中に現れると、そのPMIDの論文を自動検索し、要約本文中のテキストと一致する記述があるかを検証します。RAGの考え方[3]に基づき信頼性の高いソースに基づく回答を促すと同時に、出力された架空の引用(PMIDマッチしない)の検出も容易にします。 運用シナリオ例としては、薬剤師が新薬◯◯について情報を求める場面を想定します。薬剤師が「◯◯の効能と副作用に関する最新論文の要約」をAIに依頼すると、AIはPubMed検索を行い、関連論文を要約して回答します。薬剤師は得られた要約と各PMIDの原文要約(または抄録)を対照し、表現やデータの正確性を確認します。不一致や見落としがあれば、その部分を修正してログに記録します(例:「回答では副作用にα阻害作用の記載がなかったが、原論文には明記されていた」等)。記録されたエラーは事例集として共有され、次回のプロンプト修正やAIモデル改善に活用されます。これにより、薬剤師はAIの自動化機能で大量文献からの情報収集時間を節約しつつ、ヒューマンチェックで品質を担保するワークフローが回ります。 4. 人間とAIの役割分担 評価項目ごとに、人間とAIは次のように役割を分担します。 評価項目 人間の役割 AIの役割 要約の正確性 要約内容を原文と照合し、誤りを検出 複数論文から要約を作成 引用整合性(PMID一致) AIの提示するPMIDを原文献で確認 関連文献を抽出し、PMIDと引用を提示 探索再現性 検索キーワード・プロンプトを記録し再実行 定められた条件で文献検索・要約を実施 時間短縮効果 作業時間を計測・評価 大量文献の自動検索・要約 見落とし率 要約に含まれない重要情報を検出 可能な限り包括的な要約を試みる 図2ではこれらを例示しています。AIは大量検索・情報抽出・要約生成の作業を担い、人間はその結果のチェックとフィードバックに注力します。 図2: 人間とAIの役割分担例(図示) このような協調体制を通じて、AIの自動化利点と人間の専門知識を組み合わせ、EBM実践における「良い判断」への貢献度を高めます。 まとめ EBMにおける生成AI活用では、単なる自動化ではなく品質保証の仕組みが不可欠です。要約の一致度や引用の正しさ、検索の再現性、時間短縮効果、見落とし率などの指標を明示し、ヒト・AI・ヒトの検証ループを回しながらAIをチューニングしていくことが、信頼性の高いAI支援EBM実践の鍵となります[5][6]。今後はこうしたQA手法を体系化し、EBM_Pharmacist_MVPのような実用ツールと組み合わせていくことで、薬局・病院・ガイドライン策定現場におけるAI活用を一層前進させることが期待されます。 参考文献 [1] [7] Microsoft Word - Sackett et al.doc https://www.cebm.ox.ac.uk/files/news-and-views/sackett-evidence-based-medicine.pdf/view [2] [8] Artificial intelligence in clinical pharmacy—A systematic review of current scenario and future perspectives - PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC12553886/ [3] [4] Reproducible generative artificial intelligence evaluation for health care: a clinician-in-the-loop approach - PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC12169418/ [5] Human‐in‐the‐Loop Artificial Intelligence System for Systematic Literature Review: Methods and Validations for the AutoLit Review Software - PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC12552804/ [6] Human-in-the-Loop AI Use in Ongoing Process Verification in the Pharmaceutical Industry https://www.mdpi.com/2078-2489/16/12/1082

January 6, 2026

第8章8-4 安全な運用設計:薬剤師の生成AI活用における必須のガードレール

生成AIはあくまで作業補助ツールであり、薬剤師の判断を置き換えるものではありません[1][2]。AI出力はドラフト作成や要素整理に役立つものの、最終判断は必ず人間が行います。特に医療現場ではAIの潜在的な誤り(偽情報・偏り)に注意し、ヒトのクリティカルシンキングを維持することが強調されています[1][3]。 生成AIと人間の役割分担例 Wolters Kluwerも指摘するように、生成AI活用には明確な使用ポリシーと役割分担が不可欠です[4]。以下は薬剤師業務における生成AI支援と人間による検証・判断の分担例です。生成AIは下書き作成やデータ整理、検索支援などを担当し、薬剤師は原典確認や精査、最終的な意思決定を担います。 タスク 生成AI(作業補助) 人間(検証・最終判断) 臨床疑問の具体化(PICO/PECO) 文章化や要素の整理 妥当性検証・修正、最終判断 検索戦略の構築 検索キーワード・類義語の提案、検索式案 検索実行・結果のフィルタリング 文献スクリーニング スクリーニング案提示(曖昧さ低減支援) 最終的な選定・除外理由の確認 データ抽出・要約 研究結果の要約作成 効果量・95%CI・p値などの原文検証 批判的吟味 チェックリスト案や質問例の提示 各項目の精査・臨床的適用の判断 引用文献リスト作成 参考文献候補の提示 PMID紐付け、引用精度の確認 患者説明文の作成 平易な説明のドラフト作成 個別状況への適用・調整 最終アウトプット 初稿の作成・構成整理 最終版確定・意思決定 原文確認が必須な項目 生成AIが出力する要約や分析結果は誤りを含む可能性があるため、人が必ず原典で検証する必要があります[5]。特に以下の項目は必須チェックポイントです: 効果量・95%信頼区間・p値などの統計結果(AIは計算を誤ることもある) 研究対象者の選定基準・追跡期間(対象条件を変えず解釈できているか) 主要/副次アウトカムや有害事象の定義(重要アウトカムを取りこぼしていないか) 利益相反(COI)や研究資金情報(論文のバイアス要因) これらはAIでは判断しきれず、必ず原文で一致を確認します。AI出力はあくまで「ドラフト」なので、薬剤師が内容を精査し、必要に応じて正しい数値や条件に修正してください。 引用文献の管理と監査 生成AIによる文献要約には架空の引用や誤引用が含まれることが報告されています[6]。例えば、AIは存在しない論文を「参考文献」に挙げる誤りを起こすことがあります[6]。したがって、引用文献には必ずPMIDや該当ページ番号を付記し、出力された引用箇所を元論文と照合して正確性を担保します。AIが提案した参考文献は候補として扱い、該当箇所が原文と一致しているか、誤引用がないかを必ず確認してください。 個人情報・医療情報の保護 生成AI活用では個人情報や医療情報の取り扱いにも細心の注意が必要です。OpenAIのChatGPTなど一般公開型ツールはHIPAA(米国医療情報保護法)に対応しておらず、PHI(個人医療情報)の入力に使用できません[7]。一方で、GoogleのMed-PaLM 2など医療特化型AIツールはBAA締結の下でHIPAA対応が可能です[8]。したがって、患者データや機密情報は必ず匿名化の上、組織規程や法令に従って扱うこと。利用するクラウドAIサービスの契約条項(BAA締結の有無、データ取り扱い条件)を事前に確認し、PHI入力禁止などのルールを定めてください。 品質保証と安全設計のチェックポイント AIツールは常に人的監督下で運用されるべきです[1]。また、Wolters Kluwerが指摘するように、AI導入には明確なガバナンス体制とポリシーが不可欠であり[9]、組織内にAI運用委員会を設置してルールや責任範囲を定めることが推奨されています[10][9]。具体的には以下のような仕組みを組み込みます: 監査トレイルの確保: AIによる要約や判断プロセスを記録し、必要に応じていつでも原典と照合できるようにする。 品質評価指標の設定: 要約の原文一致率や引用のPMID一致率、検索結果の再現性、時間短縮効果、見落とし率などの指標でAI支援前後の品質を定量評価する。 バックアッププロセス: AIが利用できない場合や誤作動時に備え、従来のワークフロー(手動検索・レビュー)に戻れる手順を整備する。 検証サイクル(人→AI→人): EBM_Pharmacist_MVPなどのフレームワークでも採用しているように、AIによる下書き後に必ず人が再検証する「人→AI→人」のループを組み込む。エラー事例を蓄積し、プロンプトや運用ルールを継続的に改善します。 これらのガードレールを設定することで、生成AIは薬剤師業務を効率化しつつ、品質と安全性を確保できます。重要なのは「AIは知識の増幅装置にすぎず、知見(知恵)の吟味は人が担う」という原則です[3]。技術と人間の協調を念頭に、安全なAI活用を徹底してください。 参考文献 [1] [2] [10] ashp.org https://www.ashp.org/-/media/assets/policy-guidelines/docs/statements/artificial-intelligence-in-pharmacy.pdf [3] [6] Exploring the Dilemma of AI Use in Medical Research and Knowledge Synthesis: A Perspective on Deep Research Tools - PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC12288101/ [4] [9] GenAI in healthcare brings the need for risk policies | Wolters Kluwer https://www.wolterskluwer.com/en/expert-insights/genai-in-healthcare-brings-the-need-for-risk-policies [5] [7] [8] Is ChatGPT HIPAA Compliant? Updated for 2025 https://www.hipaajournal.com/is-chatgpt-hipaa-compliant/

January 6, 2026

第8章8-3 薬剤師業務に近いユースケースにおける生成AI実装の可能性

薬剤師業務での生成AI活用には、服薬指示の誤り低減や処方検証、エビデンス要約など複数のユースケースが想定されます。研究ベースでは、これらに対してドメイン知識と安全ガードレールを組み合わせたシステム設計が有効であることが報告されています。例えば、Amazon Pharmacyの「MEDIC」システムでは、薬剤指示入力の際に薬学的知識ベースによる正規化と**安全チェック(ガードレール)**を施すことで、LLMの出力を監視・補正し、高い精度を達成しています。このように、ドメイン知識に基づくルールと生成AIを組み合わせることで、ヒューマンエラーによる誤入力を防ぎ、患者安全性を高める設計が可能です。[7] 服薬指示エラー低減のシステム設計 服薬指示の入力ミスは患者に重大なリスクをもたらすため、堅牢なAI支援システムが求められます。先行研究では、LLMを調剤処方入力に組み込み、専門的な語彙(pharmalexical)による正規化やデータベース参照を介して入力内容を標準化し、異常をフラグする手法が提案されています。具体的には、生成AIの出力範囲を限定し、検証可能な薬剤データ(用量・用法・服用期間など)との整合性チェックなどのガードレールを設定します。これにより、LLM特有の「幻覚(hallucination)」を防ぎつつ、入力の曖昧さを減らし、薬剤師による最終確認負担を低減します。実証研究では、このアプローチにより従来比で薬剤指示の訂正率が大幅に改善されたことが報告されています。[1] Medication Review/Reconciliation支援の概念実証(PoC) 服薬レビューや服薬情報の照合(Medication Reconciliation)は、薬剤関連事故予防に重要な業務です。最近の概念実証研究では、高度なLLMがこれら業務支援に有望であると示されています。Sridharanらの実験的検討では、投与量誤りや薬物相互作用の検出、個別化治療提案などのシナリオで複数のLLMを評価した結果、「LLMは投薬レビュー・照合プロセスの革新に大きく貢献し得る」と結論付けています。特に、LLMと薬剤師が協働する「コパイロット」方式が効果的であることも報告されており、実際にLLM支援ありの薬剤師が単独薬剤師より1.5倍多く重大リスク薬の異常検出に成功したとのデータもあります。これら研究成果は、電子カルテ・処方システムへのLLM統合(外部データベースとのリアルタイム連携)の重要性を示唆しており、AIと人間が協調する運用モデルが期待されます。[2][3][4][8] 医療エビデンス要約(オープン vs 商用・透明性と性能) 膨大な医学文献を効率的に要約する上で、商用LLM(GPT-4やClaudeなど)とオープンソースLLM(Llama系、Mistral系など)の選択にはトレードオフがあります。商用モデルは高性能で多言語対応していますが、ブラックボックス性・ベンダー依存の課題があります。一方、オープンモデルは内部構造の透明性とカスタマイズ性に優れますが、初期性能は商用に劣るのが一般的です。しかし最新研究では、適切な**微調整(fine-tuning)**によりオープンモデルの性能差を大幅に縮められることが示されています。例えば、医療系文献レビュー要約のベンチマークで、微調整済みLongT5モデルはGPT-3.5の零ショット性能に迫り、場合によってはより大きな商用モデルを上回るケースも報告されています。要約AI導入では、「透明性重視ならオープンモデル」か「最高性能を追うなら商用モデル」かを判断しつつ、微調整や社内データ連携で性能を補強する選択が重要です。また、要約品質向上のためには信頼できる論拠(PMIDや原文)を引用させる設計や、ファクトチェック可能な仕組み(RAG: retrieval-augmented generation)を取り入れる必要があります。[5][6] 「EBM_Pharmacist_MVP」エージェントの導入シナリオ 私たちは薬剤師向けのAIエージェント 「EBM_Pharmacist_MVP」 を開発しました。このエージェントは薬剤師のEBMワークフロー各ステップを支援し、実務導入を想定した機能を備えています。利用シナリオの例を挙げると: PICO(患者/問題、介入、比較、アウトカム)の整理支援:臨床疑問の構成要素を対話的に整理・提案 文献検索支援:PubMedなどへの検索式作成補助と検索結果概要提示 要約ドラフト生成:取得した論文からエビデンス要点の要約原稿を自動生成し、薬剤師が編集 患者説明支援:専門用語を噛み砕いて患者向け説明文を作成(利益・リスク・不確実性の明示) これらにより、薬剤師はエビデンス探索・整理の手間を省きながら、最終的な評価や判断は人間(薬剤師)が担う形でAIを活用できます。例えば「糖尿病患者の服薬継続支援」という課題では、エージェントが関連文献の提示と要点整理を行い、薬剤師はその内容を精査・応用することで、迅速かつ根拠に基づく説明資料を整備できます。 AIと人間の役割分担 図1は人間とAIの役割分担の概念マトリクスです。横軸が「成果物(アウトプット)の生成主体」、縦軸が「業務プロセスの主導主体」を示します。例えば、処方箋記入や要約文作成など出力生成ではAIの強みを活かしつつ、最終判断やクリニカルジャッジメントは薬剤師自身が担います。現在の実務では、薬剤師はAI生成の初稿をレビューして修正する「人→AI→人」フローを想定するのが基本です。この役割分担により、AIの効率性と人間の専門性を両立し、高い品質の業務遂行が可能になります。 技術的実装のポイント 技術面では以下の点に留意します: LLM選定:GPT-4やClaudeなどの商用LLMは高精度ですがコストとベンダ依存が課題です。LlamaやMistralなどオープン系モデルは透明性・カスタマイズ性に優れるため、業務要件に応じて使い分けます。 API連携:LLMを電子カルテや薬剤データベース、文献データベースとAPI連携し、RAG等で最新の知見を動的に取り込めるようにします。例えば、生成時にPubMedや社内データから根拠情報を参照することで、信頼性の高い出力を実現できます。 精度向上策:チェイン・オブ・ソート(思考の連鎖)プロンプトやFew-shot学習により回答の正確性を高めます。また、業務データで微調整(Fine-tuning)を施し、医薬分野特有の語彙・文体に適応させます。さらに、生成物に対して事後検証プロセス(薬剤師による原文突合チェック等)を必須化し、誤情報対策や継続学習を図ります。 まとめ 研究知見によれば、薬剤師業務近傍の複数ユースケースで生成AIは有効性を示しています。服薬指示入力にドメイン知識+ガードレールを組み込むことでエラー低減が可能であり、Medication Review/Reconciliation支援でも大きな期待が持てます。また、医療エビデンス要約ではオープンモデルの微調整で商用モデルに迫る性能を発揮できることが報告されています。実装に当たっては、必ず薬剤師自身が最終判断・検証を行う**「人→AI→人」**モデルを徹底し、品質管理と責任所在を明確化することが肝要です。これらのポイントを踏まえ、薬局や病棟での実務ワークフローに沿ったAI導入を検討すれば、薬剤師の業務効率化と医療安全性の向上につながるでしょう。 参考文献 [1] Large language models for preventing medication direction errors in online pharmacies | Nature Medicine(2024年, PMID:38664535) [2] Unlocking the potential of large language models for medication safety in health care | Cell Reports Medicine(2025年, PMID:40997804) [3] Unlocking the potential of large language models for medication reconciliation: A proof-of-concept investigation | ScienceDirect(2024年) [4] Large language model as clinical decision support system augments medication safety in 16 clinical specialties | PMC(2024年) [5] Closing the gap between open source and commercial large language models for clinical decision support: evidence summary and guideline recommendation | npj Digital Medicine(2024年, PMID:39251804) [6] Medical LLMs: Fine-Tuning vs. Retrieval-Augmented Generation | PMC(2024年) [7] Systematic review on the use of AI, machine learning, and deep learning applications in systematic reviews: a path forward | Explor Res Clin Soc Pharm(2024年, PMID:39257533) [8] How LLMs boost medication processing with MedIcation Copilot | LinkedIn(2024年)

January 6, 2026

第8章8-2 生成AIによるエビデンス探索・レビュー支援の有用性と限界

生成AIを用いたエビデンスレビューでは、人間の専門家とAIが分業して進めるハイブリッド型ワークフローが重要です。近年、検索クエリの自動生成やレコードの自動スクリーニング、文献要約など、システマティックレビュー工程の各段階で生成AIが支援する事例が報告されています[1][2]。例えば、AIは大量の文献から関連研究を抽出する際に検索語の展開や絞り込みを行い、作業時間を大幅に短縮することが期待されており、ある報告では人手では数日かかるタイトル・要旨スクリーニングをAIが1時間以内に終えた例が示されています[3]。筆者らが開発したAIエージェント「EBM_Pharmacist_MVP」も、PICO形式への疑問定式化や検索語提案、Appraise用のチェックリスト自動生成などを担い、実際の薬剤師EBM実践における生成AI活用の一例となっています。 検索・スクリーニング支援: 生成AIは検索式の改良候補や同義語展開を提案し、広範な文献探索を支援します[1]。適切なプロンプト設計を行えば、高い感度(リコール)で関連文献を見つけることが可能です[4][3]。一方、AIのみでは重要な文献を見逃したり、不要な文献を含めてしまうリスクもあります。実際、あるレビューではAI検索で関連研究の中央値91%を見逃したとの報告もあります[1]。 データ抽出・要約支援: AIは抽出すべきPICO要素を表形式で整理したり、複数の論文から要点を簡潔にまとめる作業を補助します[1][2]。レビュー作業の効率化や表現統一の支援には有用ですが、AIが生成した要約内容や引用箇所は必ず原文と照合する必要があります。AIは「もっともらしい」文章を作る一方で、存在しない論文や誤った根拠を示す(いわゆる幻覚)がちであるためです[5][6]。 信頼性と品質管理: 医療分野では特に引用の正確性やデータの透明性が重視されるため、AIのアウトプットには厳格な品質管理が求められます[7][6]。例えば効果量や信頼区間などはAIの生成結果だけで確定せず、必ず原文を確認します。また、AIツールを用いたレビューでは専門家による監査が前提とされ、「AIによる下書きを人間が検証する」流れが不可欠です[7][2]。 活用時の課題と倫理的懸念 生成AIの活用には多くの可能性がある一方で、精度や倫理、安全性に関する懸念もあります。研究レビュー向けの調査では、AIは高速かつ広範なサーチ支援に優れる反面、誤引用や根拠追跡の難しさが指摘されています[1][5]。具体的には、ある事例でAIが存在しないRCTを「架空の根拠」として要約に挙げてしまった例が報告されており、AIの提示する情報がいつでも検証可能とは限りません[5]。また、機械学習モデルには訓練データに基づくバイアスが内在するため、従来見落とされがちだった偏りに気づけないリスクもあります[6][8]。さらに、個人情報・医療情報を扱う場面では、入力データの匿名化やプライバシー管理、利用規約遵守など細心の運用設計が求められます。 時間とリソースの効率化: 生成AIは大量データの処理を自動化し、医療者の負担軽減に貢献します。複数の研究で40~90%の時間短縮効果が報告されており[3][9]、日常業務での利用価値が期待されています。 エラーと幻覚: 一方、AIは時に「もっともらしい誤情報(幻覚)」を生成し、引用が実際の論文に基づかないケースがあります[5][6]。引用整合性を確保するには、原典のPMIDや該当箇所を明示してAI生成内容と紐付けるなど、厳重な監査体制が必要です。 倫理・安全: 医療現場でのAI活用には品質保証と倫理配慮が必須です。患者安全を守る観点から、AIによる推奨や要約はあくまで支援情報にとどめ、最終判断は人間が行う姿勢が重要です[8][6]。また、医療データの機密性や医療機器規制への準拠など、法的・契約的な要件も整備する必要があります。 生成AIはエビデンス探索・レビューの作業を強力に補助しますが、「判断の代替」とせず、あくまで下書き・整理の補助ツールとして位置づけるのが現実的です[7]。特に薬剤師が活用する際は、生成AIを利用したワークフローの「成果物すべてを人間が再検証する(人→AI→人)」体制を確立し、エラー事例を蓄積しながらプロンプトや運用ルールを改善していくことが安全運用の要となります[7][2]。このように、有用性と限界を明確に把握した上でAI支援を設計すれば、薬剤師によるEBM実践の効率と質を高める一助となるでしょう。 参考文献 [1] [7] [8] Generative artificial intelligence use in evidence synthesis: A systematic review - PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC12527500/ [2] [3] [4] [5] [6] [9] Can generative AI reliably synthesise literature? exploring hallucination issues in ChatGPT | AI & SOCIETY https://link.springer.com/article/10.1007/s00146-025-02406-7

January 6, 2026

第8章8-1 生成AI(LLM)を活用したEBM実践の全体像:EBM 5ステップにおける役割

Evidence-Based Medicine (EBM) を薬剤師が実践する中で、生成AI(Large Language Model; LLM)の活用が注目されています。第1章から第7章まででEBMの基礎や実践方法を見てきましたが、本章ではその総仕上げとして、生成AIを使うことでEBMの各ステップに何ができるのか、何ができないのかを整理します。ポイントは、生成AIはあくまで人の判断をサポートする作業補助ツールであり、エビデンスを評価する人間の判断を代替するものではないという位置づけです。チャットボットの便利さゆえに「もっともらしい回答」に飛びつくリスクもありますが、最終的な意思決定やエビデンスの確認は人間が担う必要があります。それを踏まえ、以下ではEBMの5つのステップ(Ask, Acquire, Appraise, Apply, Assess)それぞれで、生成AIがどのような支援を提供できるか、その全体像を紹介します。 EBM実践における5つのステップ(Ask→Acquire→Appraise→Apply→Assess)のサイクル。各ステップで生成AIがどのように活用できるかを概観します。[1] Ask:臨床疑問の定式化を支援する(PICO/PECOの文章化) ◆典型シーン:調剤薬局で患者さんから「この健康食品は併用しても大丈夫?」と尋ねられたり、病棟で医師から「この患者に最適な降圧薬は何か?」と相談されたとします。まず重要なのは、その臨床上の疑問を明確に言語化(定式化)することでした(第4章参照)。ここで生成AIは、その疑問を整理する下書き支援として役立ちます。 具体的には、生成AIに簡単な質問や症例情報を与えると、PICO/PECOフレームワーク(Patient/Problem, Intervention/Exposure, Comparison, Outcome)に沿った質問文を生成させることができます。漠然とした質問でも、AIが「P(どんな患者・問題)」「I/E(何をした場合)」「C(比較対象)」「O(結果は何か)」の形に整理し、必要なアウトカムをリストアップしてくれます。例えば「利尿薬Aは利尿薬Bと比べて心不全悪化を減らせるか?」という疑問なら、AIは「P:高齢心不全患者」「I:利尿薬A」「C:利尿薬B」「O:心不全増悪による再入院率」といった具合に構造化して提示してくれるでしょう[2]。これは問いの曖昧さを減らし、何を調べれば答えが得られるかをはっきりさせる効果があります。[3]実際、情報検索分野ではこのPICO要素をプロンプト設計に組み込むことで、AIの応答の精度や関連性を高める取り組みもあります[3]。つまりAskの段階では、生成AIは質問の「見える化」を手伝ってくれるのです。 Acquire:文献検索のキーワード展開・戦略立案を支援する ◆典型シーン:定式化した疑問に答えるため、次は文献やガイドラインを検索(サーチ)します(第4章参照)。例えば「フェノフィブラート服用者は胆石症になりやすいか?」という疑問では、PubMedや医中誌で関連論文を探すでしょう。しかし、適切な検索語を選ぶのは意外と難しく、「○○(疾患) AND △△(薬)」だけでは見落としがちです。ここで生成AIは、検索キーワードの発想支援として活用できます。 具体的には、AIに「この疑問に関連するキーワードや同義語、MeSH用語を列挙して」といったプロンプトを与えると、関連しそうな語句を網羅的に提案してくれます。例えば「胆石症」「胆石」「cholelithiasis」「Gallstones」「フェノフィブラート」「Fenofibrate」「フィブラート系薬剤」…といった形で、日本語・英語や専門用語を含めた検索語が得られます。さらに生成AIは、それらを組み合わせたブール検索式(AND/OR/NOTの組み合わせ)やフィルタ適用のアイデアも示唆してくれるでしょう。「このキーワードも含めた方が良いのでは?」といった視点の漏れを補う役割です。実際、LLM(大規模言語モデル)を用いて文献検索クエリを自動生成・拡張する研究では、関連文献の検索網羅性が約8%向上したとの報告もあります[4][5]。特にPICO要素に基づいてクエリを拡張する手法(PICOs-RAGなど)は、検索の再現性と網羅性を高め、“必要な論文を漏らさず拾う”助けとなります[4][6]。 ただし注意点もあります。生成AIが提案した検索語が必ずしも全て有用とは限らないため、最終的には人間が取捨選択し、現実的なヒット件数になるよう調整する必要があります。また、AIによっては医学領域の知識に偏りがあったり、古い用語を提案する可能性もあります。そのため、「AIから提案 → 人間が確認・修正」という対話的な検索戦略立案が望ましいでしょう。私自身、試作中のエビデンス検索支援エージェントでこのアプローチを取り入れており、例えば私が作ったAIエージェント“EBM_Pharmacist_MVP”では、入力された疑問に対して関連するキーワード・同義語・類義語リストを自動生成し、ユーザーがそこから選択して検索クエリを組み立てられるような機能を実装しています(※詳細はプロジェクトのチャット履歴参照)。このようにAcquireの段階で生成AIを使えば、より効率的かつ網羅的な文献探索が期待できます。 Appraise:文献の批判的吟味を補助する(チェックリスト化など) ◆典型シーン:検索で有力な論文が見つかったら、次はその信頼性や妥当性を評価(批判的吟味)する段階です(第5章・第6章・第7章参照)。ここで生成AIは、論文の重要なチェックポイントをリストアップする下書きを提供できます。例えばRCT論文であれば、「ランダム化の方法は適切か?盲検化されているか?追跡期間は十分か?解析対象集団は?」など、人間が確認すべき項目を漏れなく列挙するチェックリストをAIに作成させることが可能です。 ChatGPTのようなモデルに論文の概要や結果を入力し、「この研究のバイアスリスクを評価するために確認すべき点を挙げて」と頼めば、上記のようなポイントを自動抽出してくれるでしょう。忙しい現場では見落としがちな視点(例えば副次アウトカムの有無や利益相反の記載など)も、AIが事前にリマインドしてくれることで抜け漏れ防止につながります。 しかし、このステップで特に重要なのは「最終判断は人間が原典を直接確認して行う」ことです。生成AIが出力した要約や指摘は便利な反面、内容の正確性には注意が必要です。例えば論文の統計量(効果量や95%信頼区間、P値など)をAIが要約した場合、それが正しく抽出されているかは必ず原文を照合して検証しなければなりません[7][8]。現時点のLLMは数字や細かい条件の扱いが苦手で、ありもしない数値をもっともらしく生成(いわゆる幻覚)してしまうリスクが知られています[9]。また、RCTの質評価(リスクオブバイアス評価)について、ChatGPTと人間の評価者を比較した研究ではわずか“一致度が低い”との報告もあります[10]。このようにAppraise段階では、AIが出したチェックリストを叩き台として使い、最終的な批判的吟味は人間が責任を持って行うという体制が不可欠です。 Apply:エビデンスの適用・患者説明を支援する(わかりやすい表現に変換) ◆典型シーン:吟味したエビデンスをもとに、患者や医療チームと方針を検討する段階です(第4章Apply参照)。薬剤師は得られた根拠を踏まえ、患者個別の状況(併用薬や既往症、価値観など)に合わせて治療提案を行います。同時に、そのエビデンスの内容を患者さんにも理解できる形で説明することが求められます。ここで生成AIは、専門的なエビデンス情報をやさしい言葉に言い換えるサポートをしてくれます。 例えば「この治療を受けると心不全の悪化による入院リスクが20%下がります。ただし副作用で腎機能が低下する可能性がわずかにあります」というような内容を、ChatGPTに「中学生にもわかるように説明して」と指示すれば、「この薬を使うと、100人中20人は入院しなくて済むかもしれません。でも、副作用で腎臓が少し悪くなる人がいるかもしれないです」といった平易な文章に書き換えてくれるでしょう。生成AIは膨大な言い換え表現の知識を持つため、専門知識と一般向け表現との“翻訳者”として機能します。 また、患者さんに説明する際のトーン(口調)やスタイルもAIで試行錯誤できます。たとえば「もっと丁寧な語り口にして」「リスクとベネフィットを箇条書きにして」とプロンプトを調整することで、患者の不安を和らげつつ重要な点は正確に伝える説明文を自動生成できます[11][12]。特に利益(ベネフィット)・害(リスク)・不確実性をバランスよく伝えることはEBMの実践で重要ですが、AIはそのフォーマット作成を手伝ってくれます。例えば生成AIに「治療Aと治療Bのメリット・デメリット・わからない点を一覧にしてください」と頼めば、比較表のドラフトが得られるでしょう。 もっとも、最終的なコミュニケーションは人間の役割です[13]。AIが用意した文章をそのまま読むのではなく、患者さんの表情や反応を見ながら補足説明したり、理解度に応じて言い回しを変えたりするのは、薬剤師自身の腕の見せ所です。生成AIは伝える内容の骨子や言い回しのバリエーションを提供するツールと割り切り、実際の対話ではプロの臨機応変な対応が必要となります。 Assess:実践の記録・振り返りを支援する(テンプレート化と自動要約) ◆典型シーン:エビデンスに基づく対応を行った後、その結果を評価し、次の改善に活かす段階です(Assess。第4章Assess参照)。例えば「提案した処方変更で患者の血圧は目標値に到達したか?」や「情報検索から提案までに無駄はなかったか?」といった振り返り作業がこれに当たります。生成AIは、この振り返りや記録作業にも補助的に使えます。 一つは記録のテンプレート化です。AIに「EBMに従った検討プロセスを記録するテンプレートを作って」と指示すれば、「Clinical Question(臨床疑問)」「Search Strategy(検索戦略)」「Key Evidence(主要エビデンス)」「Appraisal(評価内容)」「Decision and Outcome(決定と結果)」「Reflection(考察)」といった項目立てを自動生成するでしょう。これに沿って自分のケースを埋めていけば、抜けのない振り返り記録を残せます。また生成AIは、記録内容を要約してチーム内共有用のサマリーを作ることも得意です。例えば長いカンファレンス記録を渡して「重要ポイントを3つ箇条書きにして」と頼めば、エッセンスを抽出したメモを作成してくれます。 さらに、AIに「今回のケースで改善できる点は?」と問いかければ、「初動の疑問設定にもう少し時間をかけても良いかもしれません」「ガイドラインの推奨も参照すると説得力が増したでしょう」などと次回への改善提案をフィードバックしてくれるかもしれません。これらはあくまでAIからのアドバイスであり、必ずしも的確でないこともありますが、新たな視点の提供という意味で振り返り作業の一助となります。 最後に、生成AI活用の効果そのものを評価することも重要です。例えばAIが要約した内容の正確さを人がチェックし、その一致率を測ったり、AI提案による時間短縮の度合いを記録したりといった指標化も考えられます[14]。これらは第8章後半(8-5)で述べる品質保証(QA)の話につながりますが、単にAIを使って満足するのではなく、本当にEBM実践の質が向上したのかを振り返る姿勢が欠かせません。 以上、AskからAssessまでEBMの各ステップでの生成AI活用の全体像を紹介しました。繰り返しになりますが、生成AIは「エビデンスに基づく意思決定」という本質部分を支える補助ツールです。その性能は日進月歩で向上していますが、一方で医療分野への適用にはエラーやバイアスの監視が不可欠です[15][16]。実務では「人→AI→人」の検証サイクルを回し、AIの提案を鵜呑みにせず必ず人間が検証・補正する体制を組み込むことが肝要です。 私自身、薬剤師向けのAIエージェント「EBM_Pharmacist_MVP」を試作し、その中でここに挙げたようなPICO定式化支援や文献要約機能を実装してみました。実際に使ってみると、AIから提案された下書きを基に考えることで作業効率が上がる一方、最終チェックの大切さも再認識できます。このプロトタイプについての詳細は別途プロジェクト記録に譲りますが、生成AIを上手に使いこなせば、薬剤師のEBM実践における新たな「相棒」になり得ると感じています。 次節8-2では、こうした生成AIの有用性と限界について、現在報告されているエビデンスを踏まえてさらに掘り下げてみましょう。 参考文献 [1] Evidence-Based Medicine - StatPearls - NCBI Bookshelf https://www.ncbi.nlm.nih.gov/books/NBK470182/ [2] 第4章 EBM 5ステップを薬剤師業務に翻訳する.docx file://file_00000000086871fd83f4b0416f9bfc37 [3] Integrating PICO principles into generative artificial intelligence prompt engineering to enhance information retrieval for medical librarians | Journal of the Medical Library Association https://jmla.pitt.edu/ojs/jmla/article/view/2022 [4] [5] [6] PICOs-RAG: PICO-supported Query Rewriting for Retrieval-Augmented Generation in Evidence-Based Medicine https://arxiv.org/html/2510.23998v1 [7] [8] [14] ブログ記事構成案_薬剤師EBM_生成AI統合版.docx file://file-884rcsaMb7apdFC9SPHhAm [9] Accelerating clinical evidence synthesis with large language models | npj Digital Medicine https://www.nature.com/articles/s41746-025-01840-7?error=cookies_not_supported&code=a344b303-f587-489a-a62e-33c7d5ea6bdb [10] ChatGPT for assessing risk of bias of randomized trials using the … https://www.medrxiv.org/content/10.1101/2023.11.19.23298727v2.full-text [11] [12] [13] Implications of integrating large language models into clinical decision making - PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC12635097/ [15] [16] Large language models for conducting systematic reviews: on the rise, but not yet ready for use—a scoping review - ScienceDirect https://www.sciencedirect.com/science/article/pii/S0895435625000794

January 6, 2026