はじめに:庁内FAQの精度は「プロンプトだけ」では決まらない
自治体や官公庁で生成AIを活用する動きが広がるなか、庁内FAQは実務導入しやすい分野のひとつです。職員が日々確認している規程、手続き、庁内ルール、過去の対応履歴などをAIに参照させることで、問い合わせ対応や文書確認の負担を軽減できる可能性があります。
ただし、庁内FAQで最も重要なのは「それらしい回答」ではありません。行政実務では、根拠が明確で、最新の文書に基づき、誤解を生みにくい回答が求められます。デジタル庁も行政における生成AI活用について、業務利用の知見獲得や改善効果の検証を目的に技術検証を行っており、生成AIは便利さと同時に、リスク管理を前提に扱うべき技術であることが示されています。
その中心にあるのが、RAG、つまり検索拡張生成です。RAGは、AIがもともと持つ知識だけに頼るのではなく、庁内文書やマニュアルなどの外部情報を検索し、その内容をもとに回答を生成する仕組みです。研究上も、RAGはモデル内部の知識と外部の検索情報を組み合わせる手法として整理されており、根拠提示や情報更新の課題に対応する技術として位置づけられています。
庁内FAQでRAGが重要になる理由
庁内FAQでは、質問の多くが「制度の一般論」ではなく、「この自治体ではどう扱うか」という実務判断に関わります。たとえば、休暇申請、会計処理、契約手続き、文書保存、情報公開、住民対応などは、全国共通の考え方だけでなく、庁内規程や運用ルールに左右されます。
このとき、通常の生成AIにそのまま質問すると、一般論としては自然でも、庁内ルールとは異なる回答が返る可能性があります。庁内FAQにRAGを使う理由は、AIの回答を「庁内文書に引き戻す」ためです。AIに自由に考えさせるのではなく、参照すべき文書を検索し、その範囲内で答えさせる。これが庁内FAQにおける基本設計です。
つまり、庁内FAQの回答精度を高めるには、次の4つを同時に整える必要があります。
1つ目は、質問文の整備です。職員の質問は曖昧になりがちです。「出張の精算はどうする?」という質問だけでは、旅費、宿泊費、日当、交通費、領収書の有無など、複数の論点が混在します。AIが検索しやすい形に質問を補正する設計が必要です。
2つ目は、文書データの整備です。PDFをそのまま登録するだけでは、見出し、表、注記、改定履歴が正しく検索されないことがあります。文書を意味のある単位で分割し、タイトル、部署名、改定日、文書種別などの情報を付けておくことが重要です。
3つ目は、検索の設計です。キーワード検索だけでは表現違いに弱く、ベクトル検索だけでは法令番号や固有名詞の検索に弱い場合があります。行政文書では、キーワード検索と意味検索を組み合わせるハイブリッド検索が有効になる場面が多くあります。
4つ目は、生成時のプロンプト設計です。検索された文書をどのように読み、どの範囲で答え、根拠をどう示すかをシステムプロンプトで明確にします。
回答精度を高めるシステムプロンプトの基本設計
庁内FAQのシステムプロンプトでは、AIに「何者として答えるか」を明確に与える必要があります。たとえば、「あなたは自治体の庁内FAQを支援するアシスタントです」だけでは弱く、行政実務に必要な制約を具体化することが重要です。
実務で使いやすい基本形は、次のような構成です。
あなたは自治体の庁内FAQ回答を支援するアシスタントです。
回答は、提供された参照文書の内容に基づいて作成してください。
参照文書に根拠がない内容は推測せず、「提供された資料からは確認できません」と回答してください。
回答の冒頭に結論を簡潔に示し、その後に理由や注意点を説明してください。
必要に応じて、参照した文書名、章、ページ、更新日を示してください。
市民向けではなく、庁内職員向けに、簡潔で実務的な表現で回答してください。
最終判断が必要な場合は、担当部署への確認を促してください。
このプロンプトで重要なのは、「丁寧に答えてください」ではなく、「参照文書に基づく」「根拠がない場合は推測しない」「結論を先に示す」「引用情報を出す」という制約を明示している点です。
行政実務では、AIの回答が正しいかどうかだけでなく、職員がその回答を確認できるかが重要です。回答の末尾に参照元を示す設計にしておくと、担当者が根拠文書を確認しやすくなります。
ハルシネーションを抑えるための制約指示
庁内FAQで避けるべきなのは、AIが参照文書にない内容を補ってしまうことです。特に行政分野では、少しの言い換えや推測が、制度説明の誤りにつながる可能性があります。
そのため、プロンプトには次の制約を入れるべきです。
まず、知識源を限定します。「回答は参照文書の範囲内で作成する」と明記することで、AIが一般知識や学習済み情報を混ぜるリスクを抑えます。
次に、不明時の対応を決めます。「分からない場合は分からないと答える」だけではなく、「提供された資料からは確認できません」といった行政実務に合う表現を指定しておくと、回答の品質が安定します。
さらに、回答形式を固定します。たとえば「結論」「根拠」「注意点」「参照文書」の4項目に分けることで、回答のばらつきを抑えられます。
回答形式:
1. 結論
2. 根拠
3. 実務上の注意点
4. 参照文書
このように出力形式を固定すると、職員が回答を確認しやすくなり、庁内での利用ルールも整えやすくなります。
RAG最適化では文書データの整備が欠かせない
プロンプトを改善しても、検索される文書が不適切であれば、回答精度は上がりません。RAGでは、AIが回答を作る前に「どの文書を取り出すか」が大きな分岐点になります。
庁内FAQでよくある失敗は、文書をそのまま大量に登録してしまうことです。長いPDF、改定前の規程、重複したマニュアル、部署ごとのローカルルールが混在すると、AIは正しい情報を選びにくくなります。
文書整備では、少なくとも次の情報を持たせるべきです。
- 文書名
- 担当部署
- 文書種別
- 改定日
- 適用範囲
- 廃止済みかどうか
- 関連する業務カテゴリ
特に改定日は重要です。古い規程と新しい規程が同時に検索対象になっていると、AIが古い情報に基づいて回答する可能性があります。庁内FAQでは、最新文書を優先するルールを検索側に組み込む必要があります。
チャンク分割は「意味のある単位」で行う
RAGでは、文書を小さな単位に分割して検索します。この分割単位をチャンクと呼びます。チャンクが大きすぎると余計な情報が混ざり、チャンクが小さすぎると文脈が失われます。
行政文書では、単純に文字数で分割するよりも、見出しや条項、手続き単位で分割するほうが実務に合います。たとえば「申請期限」「必要書類」「承認者」「例外対応」が同じ手続きの中にある場合、それらの関係が分かるように分割する必要があります。
また、長い文脈をAIに渡せば安心というわけではありません。長文コンテキストでは、重要な情報が中央付近にあるとモデルが利用しにくくなる「Lost in the Middle」と呼ばれる現象が報告されています。重要情報を回答生成時の文脈の前半や末尾に整理して配置する工夫も、RAGの精度向上に関わります。
検索方式はハイブリッド化を前提に考える
庁内FAQでは、ベクトル検索だけに頼ると精度が安定しないことがあります。ベクトル検索は意味の近さを捉えるのに向いていますが、法令番号、様式番号、部署名、制度名、固有名詞などの検索ではキーワード検索のほうが強い場合があります。
そのため、実務ではキーワード検索とベクトル検索を組み合わせる設計が現実的です。たとえば、質問文から重要語を抽出し、キーワード検索で候補を絞り込み、そのうえでベクトル検索によって意味的に近い文書を順位付けする方法が考えられます。
また、職員の質問は表現が揺れます。「育休」「育児休業」「子育て休暇」「休暇制度」のように、同じ業務領域でも言葉が異なる場合があります。庁内でよく使われる言い換えを辞書化しておくと、検索精度の改善につながります。
Temperatureは低めに設定し、回答の安定性を優先する
庁内FAQでは、創造的な文章よりも、安定した回答が求められます。そのため、生成AIのTemperatureは低めに設定するのが基本です。Temperatureが高いほど表現の幅は広がりますが、行政実務では回答の揺れがリスクになることがあります。
庁内FAQのように事実確認やルール確認が中心の用途では、まずは低めの設定から検証し、同じ質問に対して回答がぶれないかを確認します。プロンプトを整えたうえで、回答の安定性、根拠の明確さ、職員の確認しやすさを評価する流れが望ましいです。
回答精度は評価指標で管理する
庁内FAQの品質管理では、「なんとなく良い回答だった」という主観評価だけでは不十分です。RAGの回答品質は、少なくとも次の観点で確認する必要があります。
1つ目は忠実性です。回答が参照文書の範囲内に収まっているか、根拠のない内容を加えていないかを確認します。
2つ目は関連性です。検索された文書が質問に合っているか、回答が質問の意図に応えているかを確認します。
3つ目は回答正確性です。正解データや担当者判断と照らし合わせて、回答内容が実務上正しいかを確認します。
RAG評価ツールのRagasでは、Context Precision、Context Recall、Response Relevancy、Faithfulnessなど、RAGアプリケーション向けの評価指標が整理されています。こうした考え方を参考に、庁内FAQでもテストケースを作成し、プロンプト変更前後の精度を比較することが重要です。
運用ルールとセキュリティ設計も精度の一部
庁内FAQの精度向上は、技術だけでは完結しません。行政機関で使う以上、情報管理、責任分界、職員教育が必要です。
デジタル庁のリスク対策ガイドブックでも、行政サービス等で生成AIを利活用する際に想定されるリスクと対応策を整理することの重要性が示されています。 庁内FAQでは、特に次のルールを明確にしておく必要があります。
まず、AIの回答は補助情報であり、最終判断は職員が行うこと。次に、個人情報や機密性の高い情報を不用意に入力しないこと。さらに、AIの回答をそのまま住民向け回答や公式見解として使わず、必要に応じて担当部署が確認することです。
また、庁内FAQのログを定期的に確認することも重要です。どの質問で「分からない」と回答したか、どの文書が頻繁に参照されているか、誤回答がどの業務領域で発生しているかを分析することで、文書整備やプロンプト改善の優先順位が見えてきます。
庁内FAQ導入時の実践ステップ
庁内FAQのRAG最適化は、最初から大規模に始める必要はありません。むしろ、対象業務を絞って小さく検証するほうが失敗しにくいです。
最初は、問い合わせ件数が多く、文書根拠が明確で、判断の幅が比較的小さい業務から始めるのが現実的です。たとえば、庁内手続き、文書管理、旅費、休暇、情報システム利用ルールなどが候補になります。
次に、対象文書を整理します。古い文書、重複文書、担当部署が不明な文書をそのまま入れるのではなく、FAQ化しやすい文書から登録します。
そのうえで、想定質問を作成します。実際に職員が聞きそうな質問を集め、正解データを担当部署が確認します。このテストケースを使って、検索精度、回答精度、根拠表示、分からない場合の対応を検証します。
最後に、プロンプトをテンプレート化します。担当者ごとにプロンプトを作り直すのではなく、庁内共通で使える基本テンプレートを整備することで、品質を標準化できます。

まとめ:庁内FAQの成功は「検索・生成・運用」の設計で決まる
庁内FAQにおける生成AI活用は、単なるチャットボット導入ではありません。行政文書をどのように整備し、どの情報を検索し、どの制約で回答させ、どの指標で評価し、どのルールで運用するかという総合的な設計が必要です。
プロンプト設計は、その中心にある重要な要素です。しかし、プロンプトだけを磨いても、文書データが古い、検索結果が不適切、評価指標がない、運用ルールが曖昧であれば、回答精度は安定しません。
庁内FAQのRAG最適化では、まず「参照文書に基づいて答える」「根拠がなければ推測しない」「結論と根拠を分けて示す」という基本を徹底することが出発点になります。そのうえで、チャンク分割、ハイブリッド検索、低めのTemperature設定、RAG評価指標、ログ分析を組み合わせて、継続的に改善していくことが重要です。
生成AIは、職員の判断を置き換えるものではありません。正しく設計すれば、職員が必要な情報に早くたどり着き、確認作業を効率化し、行政サービスの品質を高めるための支援ツールになります。庁内FAQの精度向上は、自治体DXを現場で進めるための実践的な第一歩です。
コメント