第8章8-1 生成AI(LLM)を活用したEBM実践の全体像:EBM 5ステップにおける役割
Evidence-Based Medicine (EBM) を薬剤師が実践する中で、生成AI(Large Language Model; LLM)の活用が注目されています。第1章から第7章まででEBMの基礎や実践方法を見てきましたが、本章ではその総仕上げとして、生成AIを使うことでEBMの各ステップに何ができるのか、何ができないのかを整理します。ポイントは、生成AIはあくまで人の判断をサポートする作業補助ツールであり、エビデンスを評価する人間の判断を代替するものではないという位置づけです。チャットボットの便利さゆえに「もっともらしい回答」に飛びつくリスクもありますが、最終的な意思決定やエビデンスの確認は人間が担う必要があります。それを踏まえ、以下ではEBMの5つのステップ(Ask, Acquire, Appraise, Apply, Assess)それぞれで、生成AIがどのような支援を提供できるか、その全体像を紹介します。 EBM実践における5つのステップ(Ask→Acquire→Appraise→Apply→Assess)のサイクル。各ステップで生成AIがどのように活用できるかを概観します。[1] Ask:臨床疑問の定式化を支援する(PICO/PECOの文章化) ◆典型シーン:調剤薬局で患者さんから「この健康食品は併用しても大丈夫?」と尋ねられたり、病棟で医師から「この患者に最適な降圧薬は何か?」と相談されたとします。まず重要なのは、その臨床上の疑問を明確に言語化(定式化)することでした(第4章参照)。ここで生成AIは、その疑問を整理する下書き支援として役立ちます。 具体的には、生成AIに簡単な質問や症例情報を与えると、PICO/PECOフレームワーク(Patient/Problem, Intervention/Exposure, Comparison, Outcome)に沿った質問文を生成させることができます。漠然とした質問でも、AIが「P(どんな患者・問題)」「I/E(何をした場合)」「C(比較対象)」「O(結果は何か)」の形に整理し、必要なアウトカムをリストアップしてくれます。例えば「利尿薬Aは利尿薬Bと比べて心不全悪化を減らせるか?」という疑問なら、AIは「P:高齢心不全患者」「I:利尿薬A」「C:利尿薬B」「O:心不全増悪による再入院率」といった具合に構造化して提示してくれるでしょう[2]。これは問いの曖昧さを減らし、何を調べれば答えが得られるかをはっきりさせる効果があります。[3]実際、情報検索分野ではこのPICO要素をプロンプト設計に組み込むことで、AIの応答の精度や関連性を高める取り組みもあります[3]。つまりAskの段階では、生成AIは質問の「見える化」を手伝ってくれるのです。 Acquire:文献検索のキーワード展開・戦略立案を支援する ◆典型シーン:定式化した疑問に答えるため、次は文献やガイドラインを検索(サーチ)します(第4章参照)。例えば「フェノフィブラート服用者は胆石症になりやすいか?」という疑問では、PubMedや医中誌で関連論文を探すでしょう。しかし、適切な検索語を選ぶのは意外と難しく、「○○(疾患) AND △△(薬)」だけでは見落としがちです。ここで生成AIは、検索キーワードの発想支援として活用できます。 具体的には、AIに「この疑問に関連するキーワードや同義語、MeSH用語を列挙して」といったプロンプトを与えると、関連しそうな語句を網羅的に提案してくれます。例えば「胆石症」「胆石」「cholelithiasis」「Gallstones」「フェノフィブラート」「Fenofibrate」「フィブラート系薬剤」…といった形で、日本語・英語や専門用語を含めた検索語が得られます。さらに生成AIは、それらを組み合わせたブール検索式(AND/OR/NOTの組み合わせ)やフィルタ適用のアイデアも示唆してくれるでしょう。「このキーワードも含めた方が良いのでは?」といった視点の漏れを補う役割です。実際、LLM(大規模言語モデル)を用いて文献検索クエリを自動生成・拡張する研究では、関連文献の検索網羅性が約8%向上したとの報告もあります[4][5]。特にPICO要素に基づいてクエリを拡張する手法(PICOs-RAGなど)は、検索の再現性と網羅性を高め、“必要な論文を漏らさず拾う”助けとなります[4][6]。 ただし注意点もあります。生成AIが提案した検索語が必ずしも全て有用とは限らないため、最終的には人間が取捨選択し、現実的なヒット件数になるよう調整する必要があります。また、AIによっては医学領域の知識に偏りがあったり、古い用語を提案する可能性もあります。そのため、「AIから提案 → 人間が確認・修正」という対話的な検索戦略立案が望ましいでしょう。私自身、試作中のエビデンス検索支援エージェントでこのアプローチを取り入れており、例えば私が作ったAIエージェント“EBM_Pharmacist_MVP”では、入力された疑問に対して関連するキーワード・同義語・類義語リストを自動生成し、ユーザーがそこから選択して検索クエリを組み立てられるような機能を実装しています(※詳細はプロジェクトのチャット履歴参照)。このようにAcquireの段階で生成AIを使えば、より効率的かつ網羅的な文献探索が期待できます。 Appraise:文献の批判的吟味を補助する(チェックリスト化など) ◆典型シーン:検索で有力な論文が見つかったら、次はその信頼性や妥当性を評価(批判的吟味)する段階です(第5章・第6章・第7章参照)。ここで生成AIは、論文の重要なチェックポイントをリストアップする下書きを提供できます。例えばRCT論文であれば、「ランダム化の方法は適切か?盲検化されているか?追跡期間は十分か?解析対象集団は?」など、人間が確認すべき項目を漏れなく列挙するチェックリストをAIに作成させることが可能です。 ChatGPTのようなモデルに論文の概要や結果を入力し、「この研究のバイアスリスクを評価するために確認すべき点を挙げて」と頼めば、上記のようなポイントを自動抽出してくれるでしょう。忙しい現場では見落としがちな視点(例えば副次アウトカムの有無や利益相反の記載など)も、AIが事前にリマインドしてくれることで抜け漏れ防止につながります。 しかし、このステップで特に重要なのは「最終判断は人間が原典を直接確認して行う」ことです。生成AIが出力した要約や指摘は便利な反面、内容の正確性には注意が必要です。例えば論文の統計量(効果量や95%信頼区間、P値など)をAIが要約した場合、それが正しく抽出されているかは必ず原文を照合して検証しなければなりません[7][8]。現時点のLLMは数字や細かい条件の扱いが苦手で、ありもしない数値をもっともらしく生成(いわゆる幻覚)してしまうリスクが知られています[9]。また、RCTの質評価(リスクオブバイアス評価)について、ChatGPTと人間の評価者を比較した研究ではわずか“一致度が低い”との報告もあります[10]。このようにAppraise段階では、AIが出したチェックリストを叩き台として使い、最終的な批判的吟味は人間が責任を持って行うという体制が不可欠です。 Apply:エビデンスの適用・患者説明を支援する(わかりやすい表現に変換) ◆典型シーン:吟味したエビデンスをもとに、患者や医療チームと方針を検討する段階です(第4章Apply参照)。薬剤師は得られた根拠を踏まえ、患者個別の状況(併用薬や既往症、価値観など)に合わせて治療提案を行います。同時に、そのエビデンスの内容を患者さんにも理解できる形で説明することが求められます。ここで生成AIは、専門的なエビデンス情報をやさしい言葉に言い換えるサポートをしてくれます。 例えば「この治療を受けると心不全の悪化による入院リスクが20%下がります。ただし副作用で腎機能が低下する可能性がわずかにあります」というような内容を、ChatGPTに「中学生にもわかるように説明して」と指示すれば、「この薬を使うと、100人中20人は入院しなくて済むかもしれません。でも、副作用で腎臓が少し悪くなる人がいるかもしれないです」といった平易な文章に書き換えてくれるでしょう。生成AIは膨大な言い換え表現の知識を持つため、専門知識と一般向け表現との“翻訳者”として機能します。 また、患者さんに説明する際のトーン(口調)やスタイルもAIで試行錯誤できます。たとえば「もっと丁寧な語り口にして」「リスクとベネフィットを箇条書きにして」とプロンプトを調整することで、患者の不安を和らげつつ重要な点は正確に伝える説明文を自動生成できます[11][12]。特に利益(ベネフィット)・害(リスク)・不確実性をバランスよく伝えることはEBMの実践で重要ですが、AIはそのフォーマット作成を手伝ってくれます。例えば生成AIに「治療Aと治療Bのメリット・デメリット・わからない点を一覧にしてください」と頼めば、比較表のドラフトが得られるでしょう。 もっとも、最終的なコミュニケーションは人間の役割です[13]。AIが用意した文章をそのまま読むのではなく、患者さんの表情や反応を見ながら補足説明したり、理解度に応じて言い回しを変えたりするのは、薬剤師自身の腕の見せ所です。生成AIは伝える内容の骨子や言い回しのバリエーションを提供するツールと割り切り、実際の対話ではプロの臨機応変な対応が必要となります。 Assess:実践の記録・振り返りを支援する(テンプレート化と自動要約) ◆典型シーン:エビデンスに基づく対応を行った後、その結果を評価し、次の改善に活かす段階です(Assess。第4章Assess参照)。例えば「提案した処方変更で患者の血圧は目標値に到達したか?」や「情報検索から提案までに無駄はなかったか?」といった振り返り作業がこれに当たります。生成AIは、この振り返りや記録作業にも補助的に使えます。 一つは記録のテンプレート化です。AIに「EBMに従った検討プロセスを記録するテンプレートを作って」と指示すれば、「Clinical Question(臨床疑問)」「Search Strategy(検索戦略)」「Key Evidence(主要エビデンス)」「Appraisal(評価内容)」「Decision and Outcome(決定と結果)」「Reflection(考察)」といった項目立てを自動生成するでしょう。これに沿って自分のケースを埋めていけば、抜けのない振り返り記録を残せます。また生成AIは、記録内容を要約してチーム内共有用のサマリーを作ることも得意です。例えば長いカンファレンス記録を渡して「重要ポイントを3つ箇条書きにして」と頼めば、エッセンスを抽出したメモを作成してくれます。 さらに、AIに「今回のケースで改善できる点は?」と問いかければ、「初動の疑問設定にもう少し時間をかけても良いかもしれません」「ガイドラインの推奨も参照すると説得力が増したでしょう」などと次回への改善提案をフィードバックしてくれるかもしれません。これらはあくまでAIからのアドバイスであり、必ずしも的確でないこともありますが、新たな視点の提供という意味で振り返り作業の一助となります。 最後に、生成AI活用の効果そのものを評価することも重要です。例えばAIが要約した内容の正確さを人がチェックし、その一致率を測ったり、AI提案による時間短縮の度合いを記録したりといった指標化も考えられます[14]。これらは第8章後半(8-5)で述べる品質保証(QA)の話につながりますが、単にAIを使って満足するのではなく、本当にEBM実践の質が向上したのかを振り返る姿勢が欠かせません。 以上、AskからAssessまでEBMの各ステップでの生成AI活用の全体像を紹介しました。繰り返しになりますが、生成AIは「エビデンスに基づく意思決定」という本質部分を支える補助ツールです。その性能は日進月歩で向上していますが、一方で医療分野への適用にはエラーやバイアスの監視が不可欠です[15][16]。実務では「人→AI→人」の検証サイクルを回し、AIの提案を鵜呑みにせず必ず人間が検証・補正する体制を組み込むことが肝要です。 私自身、薬剤師向けのAIエージェント「EBM_Pharmacist_MVP」を試作し、その中でここに挙げたようなPICO定式化支援や文献要約機能を実装してみました。実際に使ってみると、AIから提案された下書きを基に考えることで作業効率が上がる一方、最終チェックの大切さも再認識できます。このプロトタイプについての詳細は別途プロジェクト記録に譲りますが、生成AIを上手に使いこなせば、薬剤師のEBM実践における新たな「相棒」になり得ると感じています。 次節8-2では、こうした生成AIの有用性と限界について、現在報告されているエビデンスを踏まえてさらに掘り下げてみましょう。 参考文献 [1] Evidence-Based Medicine - StatPearls - NCBI Bookshelf https://www.ncbi.nlm.nih.gov/books/NBK470182/ [2] 第4章 EBM 5ステップを薬剤師業務に翻訳する.docx file://file_00000000086871fd83f4b0416f9bfc37 [3] Integrating PICO principles into generative artificial intelligence prompt engineering to enhance information retrieval for medical librarians | Journal of the Medical Library Association https://jmla.pitt.edu/ojs/jmla/article/view/2022 [4] [5] [6] PICOs-RAG: PICO-supported Query Rewriting for Retrieval-Augmented Generation in Evidence-Based Medicine https://arxiv.org/html/2510.23998v1 [7] [8] [14] ブログ記事構成案_薬剤師EBM_生成AI統合版.docx file://file-884rcsaMb7apdFC9SPHhAm [9] Accelerating clinical evidence synthesis with large language models | npj Digital Medicine https://www.nature.com/articles/s41746-025-01840-7?error=cookies_not_supported&code=a344b303-f587-489a-a62e-33c7d5ea6bdb [10] ChatGPT for assessing risk of bias of randomized trials using the … https://www.medrxiv.org/content/10.1101/2023.11.19.23298727v2.full-text [11] [12] [13] Implications of integrating large language models into clinical decision making - PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC12635097/ [15] [16] Large language models for conducting systematic reviews: on the rise, but not yet ready for use—a scoping review - ScienceDirect https://www.sciencedirect.com/science/article/pii/S0895435625000794