LLM活用における段階的PIIマスキング

LLM活用における段階的PIIマスキング

こんにちは、Qualitegプロダクト開発部です!

前回の技術解説では、「三沢」が人名なのか地名なのか判断できない日本語の曖昧性から始まり、正規表現からLLM統合まで5段階のPII検出アプローチをご紹介しました。今回は、これらの技術を搭載した LLM-Audit™ PII Protector が実際のLLM活用シーンでどのように動いているのか、実際のプロダクト処理の観点で、もう一歩踏み込んで解説します。

ファイルの中に潜む、見えないPII

LLM Audit™ PII Protectorをご紹介した際、多くの方から「テキスト入力のPII検出は分かったけど、ファイルをまるごとLLMに投げる場合はどうなるの?」というご質問をいただきました。

確かに現在のLLM活用は、単純なテキスト入力から、PowerPoint、Excel、PDF、画像ファイルなど、様々な形式のファイルを直接処理する段階に進化しています。「この提案書を要約して」「このExcelから傾向を分析して」といった使い方が当たり前になってきました。

PowerPointの「スピーカーノート」を見たことがありますか?

営業担当のAさんが、重要な提案書のレビューをLLMに依頼したとします。スライド本体は「当社のプロダクトについて」「ご提案内容」といった一般的な内容。一見、機密情報は含まれていないように見えます。

ところが、そのPowerPointファイルのスピーカーノートには

  • 「〇〇部長から内々に聞いた予算は3億円」
  • 「競合のB社は2.5億で提案予定との情報あり」
  • 「キーマンは企画部の山田氏(趣味:ゴルフ)」

といった、表には出せない生々しい情報が記載されていることがよくあります。

前回ご紹介した高度なPII検出技術は、まさにこういった「隠れた場所」にある日本語特有の機密表現を見つけ出すために開発されました。しかし、ファイル形式ごとに「どこを見るべきか」は大きく異なります。

今回は、日本企業でよく使われる各ファイル形式について、「ここが危ない」というポイントと、それに対する段階的な対策を具体的に解説していきます。

LLM活用における段階的PIIマスキングの実施

第1段階:リアルタイム入力チェック(全プロンプト対象)

LLMへの入力時に、超高速なスクリーニングを実施します。明確なパターン(電話番号、メールアドレス、マイナンバー等)を瞬時に検出し、LLMへの送信前に自動的にマスキングします。人名、会社名などやや複雑なパターンも高速で処理するため、ユーザーは遅延を感じることなく作業を継続できます。

例えば「田中太郎さん(090-1234-5678)から問い合わせ」という入力は、「[顧客A]さん([電話番号])から問い合わせ」に自動変換されます。

第2段階:文脈考慮型マスキング(ビジネス文書)

議事録、報告書、提案書などの構造化された文書をLLMで処理する際は、高度な言語処理技術を活用し、企業名、役職、金額などを高精度に識別します。「ABC(株)の山田部長より、X社との共同プロジェクトについて相談」のような文章では、企業名と個人名を適切に識別し、ビジネス文脈を保ちながら機密情報をマスクすることが可能です。

第3段階:セマンティックマスキング(機密文書)

契約書、財務報告書など、高度な機密性を持つ文書には、より高度な技術を使用します。文書の構造や意味的関係を理解した上で、LLMが必要とする情報の粒度を保ちながら、個人を特定できる情報を除去します。

第4段階:高度な分析への対応

専門的な分析タスクでは、用途に最適化したマスキングを実施します。必要な情報を保持しながら、機密情報のみを適切に保護する高度な処理を行います。

第5段階:継続的な改善

テスト用に作成した自社ドキュメント(実際の業務でやりとりしそうな内容を含むもの)を使って、システムの精度を検証し、継続的に改善します。マスキング漏れや過剰なマスキングを検出し、より実用的なシステムへと進化させています。

ファイル形式別PIIマスキング戦略

PowerPointファイルの多層的PII検出

PowerPointファイルは表面的には安全に見えても、実は多くの隠れた個人情報を含んでいます。

スライド本体以外の見落としがちな箇所

1. スピーカーノート

プレゼン時の話者用メモは、まさに「本音」の宝庫です。「田中部長から内々に聞いた予算は5000万円」といった、表には出せない重要情報が記載されていることがよくあります。

2. コメント・校閲履歴

レビュープロセスの痕跡が、そのまま組織構造を露呈します。実際のケースでは、コメント作成者として「営業企画部 山田太郎」、コメント内容に「この価格では赤字です。最低でも3000万は必要」といった情報が含まれ、部署名、個人名、価格戦略が一度に流出するリスクがあります。

3. 埋め込みオブジェクト

スライドに埋め込まれたExcelに、詳細な顧客リストが潜んでいることがよくあります。PowerPointファイル内部には埋め込みファイルが格納されており、これらも含めて包括的なPII検出を行う必要があります。

4. 画像内のテキスト

スクリーンショットに映り込んだ情報は、意外な盲点です。

  • Teamsの画面キャプチャに参加者リストの実名
  • システム画面のスクショにURLバーの内部システムアドレス
  • ホワイトボードの写真に手書きの電話番号やメールアドレス

5. マスター/レイアウト

全スライドに適用されるフッターに、気づかぬうちに個人情報が含まれていることがあります。

営業提案書の典型的なリスク分布:

  • スライド本体:低リスク(一般的な提案内容)
  • スピーカーノート:高リスク(人名、金額、戦略情報)
  • 埋め込みExcel:最高リスク(詳細な顧客データ)
  • コメント:中リスク(組織情報、内部議論)

Excel/スプレッドシートの深層PII検出

Excelファイルは構造化データの宝庫であり、個人情報の密度が最も高いファイル形式です。

日本企業のExcel特有のPII検出ポイント:

1. 列ヘッダーパターン認識

日本語特有のヘッダー(「氏名」「担当者」「連絡先」など)から、その列の性質を推定する技術が重要です。

2. 非表示領域の検査

  • 可視シート:集計結果のみ(一見安全)
  • 非表示シート「給与マスター」:全社員の給与データ
  • 非表示列:個人の携帯番号、緊急連絡先

3. 数式に潜む参照情報

VLOOKUP関数などで外部ファイルを参照している場合、その参照先に機密情報が含まれている可能性があります。

4. データ検証リスト

ドロップダウンリストの選択肢に、全社員の名前が設定されているケースは珍しくありません。

5. ピボットテーブルの元データ

集計表は匿名化されていても、元データには詳細な個人情報が含まれていることがあります。

PDFドキュメントの複合的PII検出

PDFは「完成された文書」というイメージから、最も油断されやすいファイル形式です。

PDF特有の隠れたPIIリスク

1. テキストレイヤーと画像レイヤーの二重構造

表面的にはスキャンされた画像でも、裏側にOCR処理されたテキストレイヤーが存在することがあります。両方をチェックしないと見逃すリスクがあります。

2. フォームフィールド

PDF内のフォームには、過去の入力履歴が残されていることがあり、申請者の氏名や部署情報が蓄積されている場合があります。

3. 注釈・コメント

Adobe Acrobatで追加されたコメントは、PDFリーダーによっては表示されないことがあり、見落としがちです。

4. メタデータ

作成者名、会社名、使用ソフトのライセンス情報など、文書のプロパティに個人情報が含まれています。

5. 添付ファイル

PDFには他のファイルを添付できます。契約書PDFに、交渉履歴のExcelが添付されているケースもあります。

画像ファイルの高度なPII検出

デジタルトランスフォーメーションの進展により、スクリーンショットや写真による情報共有が増加しています。

画像ファイルの典型的なPII漏洩パターン

1. 会議画面のキャプチャ

  • 参加者リスト:実名と所属組織
  • チャット欄:「田中さん、さっきの見積もり3000万でOKです」
  • 画面共有:機密資料が丸見え
  • 通知ポップアップ:プライベートメッセージ

2. ホワイトボード撮影

  • 印刷体の名前:比較的検出しやすい
  • 走り書きの電話番号:OCR精度が課題
  • 図の中の略称:文脈理解が必要

3. システム画面キャプチャ

  • ブラウザのタブ:個人のGmail、社内システム名
  • ファイルパス:ユーザー名を含むフォルダ構造
  • タスクバー:起動中のアプリから業務内容が推測可能

4. メタデータ

GPS情報から撮影場所(自宅や顧客先)が特定されるリスクがあります。

LLM時代のファイル処理ベストプラクティス

リスクベースの処理優先順位

すべてのファイルを同じレベルで処理するのは非効率です。当社のLLM-Audit™ PII Protectorでは、組織の特性に応じた設定により、ファイルのリスクレベルを適切に判定できます。

リスクレベル別の処理例

  • 最高リスク:人事フォルダの給与計算Excel → 詳細スキャン必須
  • 高リスク:最近更新された顧客リスト → 標準スキャン+確認
  • 中リスク:一般的な業務文書 → クイックスキャン
  • 低リスク:テンプレート、公開資料 → 最小限のチェック

処理速度とセキュリティのバランス

用途に応じて処理モードを選択可能にすることで、実用性を保ちながらセキュリティを確保します。

  • 高速モード(1秒以内):チャットボット応答、リアルタイム支援
  • 標準モード(5-10秒):文書要約、一般的な分析
  • セキュアモード(30秒程度):契約書分析、顧客データ処理
  • 最高セキュリティモード(1分以上):M&A文書、役員会資料

まとめ
~包括的なPII保護でLLMを安全に活用~

LLM時代において、単なるテキスト入力のPII検出だけでなく、PowerPoint、Excel、PDF、画像など、あらゆるファイル形式に対応した包括的なPIIマスキングが不可欠です。

重要なのは、各ファイル形式特有のリスクを理解し、適切なレベルで処理することです。前回ご紹介した技術的アプローチは、まさにこのような複雑な要求に応えるために設計されました。

日本企業の文書作成文化や情報共有の特性を深く理解した上で、実用的なソリューションを提供することが、LLMを安全に活用する鍵となります。


LLM-Audit ™のご紹介

Qualiteg では、LLMのセキュリティソリューション「LLM-Audit™」を開発・提供しております。
LLMがビジネス活用されるにつれ、LLMへの各種攻撃が活発化しています。
一方で、これまでのWebセキュリティとはまた異なったLLMへの攻撃についてはまだ知見も乏しく防衛手段も確立していません。

(株)Qualiteg では、LLMサービス開発・運営を通して得た経験・知見を集めた LLM防衛ソリューション 「LLM-Audit™」をご提供しています。


また、悪意ある入力プロンプトのブロック、LLMによる不適切な出力の監査を強力に実行しLLMの安全、安心を実現することができます。

OpenAI API 互換サーバーとして貴社LLMをラッピングするだけで利用できますので非常に小さな導入コストで高度化したLLMセキュリティを実現することが可能です。

LLMセキュリティやLLM-Audit™ にご関心がおありの場合は以下までご連絡くださいませ。またLLMセキュリティコンサルティングや製品デモについてもどうぞお気軽にこちらのお問い合わせフォームまでご連絡くださいませ。

Read more

AIエージェントを"事業に載せる"ために【第1回】

AIエージェントを"事業に載せる"ために【第1回】

AI導入事故は何を示しているのか — AI導入を"事業に載せる"ために、いま設計すべきこと(全3回) こんにちは!Qualitegコンサルティングチームです! AIエージェントを導入する企業が増える一方で、 「試してみる」段階から「事業に載せる」段階へ進める難しさ が、はっきり見え始めています。 本シリーズでは、AIエージェント導入を技術論だけでなく、責任分解・監査可能性・契約・運用統制を含む業務設計の問題として整理します。 全3回を通じて、「AIが賢いかどうか」ではなく、「AIを業務に載せるために何を設計するか」を考えていきます。 第1回となる本記事では、2025年に起きた2つの事例を出発点に、なぜいま「責任設計」が問題になっているのかを見ていきます。 上図は、本シリーズ全体で扱う論点の全体像です。 AIエージェントの導入は、技術的なモデル選定だけでは完結せず、権限設計、契約、監査、品質監視、保険、異常時対応まで含めた設計が必要になります。 第1回ではまず、なぜこうした設計が求められるようになったのかを、実際の事例から見ていきたいとおもいます なお、本シリー

By Qualiteg コンサルティング
PII検出の混同行列では見えないもの ― 認識器間衝突と統合テスト

PII検出の混同行列では見えないもの ― 認識器間衝突と統合テスト

こんにちは!Qualiteg研究部です! 個人情報(PII: Personally Identifiable Information)の自動検出は、テキスト中から特定の表現を抽出し、それがどの種類のPIIに当たるかを判定する問題として捉えることができます。 電話番号、人名、口座番号、金額表現など、検出対象のPIIタイプが増えるにつれて、単一の手法ではカバーしきれなくなり、性質の異なる複数の認識器(Recognizer)を組み合わせるマルチレイヤー構成が採用されるのが一般的です。 本稿で想定しているのは、ユーザーが海外製LLMにチャットを送信する直前に、その内容に個人情報や機密情報が含まれていないかをリアルタイムに検査するユースケースです。 この場面では、検出精度だけでなく、送信体験を損ねない速度が不可欠です。 高精度なLLMやBERT系モデル、NERベースの手法は有力ですが、送信前チェックの第一層として常時適用するには、レイテンシやコストの面で不利になることがあります。 そのため、本システムでは、正規表現、辞書、軽量なルールベース認識器を組み合わせた超高速な第一層を設け、そ

By Qualiteg 研究部, Qualiteg AIセキュリティチーム
日本語対応 LLMランキング2026 ~ベンチマーク分析レポート~(3月6日版)

日本語対応 LLMランキング2026 ~ベンチマーク分析レポート~(3月6日版)

はじめに 本レポートは、Nejumi Leaderboard 4のベンチマークデータ(2026/3/6版)に基づいて、日本語対応LLMの性能を総合的に分析したものです。 前回は 2025/12/18 版の分析レポート を公開しましたが、約3か月でまたもや大きな変動がありました! (定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です) Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。 本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。 オープンソースモデルについて Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。 ベンチマーク分析について 本レポートは

By Qualiteg コンサルティング, Qualiteg プロダクト開発部
日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

こんにちは! このたび、日経トレンディ 2026年4月号(2026年3月4日発売、雑誌)に、当社のエンタープライズ向け統合型AIプラットフォーム「Bestllam」を掲載しました。 日経トレンディ(雑誌)は全国の書店・コンビニエンスストアにてお買い求めいただけますので、お手に取った際はぜひご覧くださいませ。 Bestllam とは? Bestllam は、「チャットで指示するだけ。仕事が終わっている。」をコンセプトに開発した、エンタープライズ向けの統合型AIプラットフォームです。 主な特長 20種類以上のLLMを、契約一本で OpenAI GPT、Anthropic Claude、Google Gemini をはじめ、DeepSeek、Qwen、Llama など商用・オープンソース合わせて20種類以上のLLMを1つの契約で利用できます。各プロバイダと個別に契約を結ぶ手間が不要になります。 6つのLLMに同時質問して、最適な答えを選択 同じ質問を複数のLLMに一括投げかけ、回答を比較・検討できます。各モデルの得意・不得意を活かすことで、重要な意思決定や精度が求められる業

By Qualiteg ビジネス開発本部 | マーケティング部