LLM-Audit ～LLMへの攻撃と防衛の最前線～

Qualiteg プロダクト開発部, Qualiteg AIセキュリティチーム

2024年8月17日 — 13 min read

はじめに

人工知能技術の急速な進化により、大規模言語モデル（LLM）は多くの企業や組織にとって不可欠なツールとなっています。自然言語処理、コード生成、データ分析など、LLMの応用範囲は日々拡大し、ビジネスプロセスの効率化や創造的タスクの支援など、幅広い分野で革新をもたらしています。しかし、この革新的な技術の普及に伴い、新たなセキュリティリスクも浮上しており、企業はこれらのリスクに対する適切な対策を講じる必要に迫られています。

本記事では、当社が開発したLLMセキュリティソリューション「LLM-Audit」をご紹介します。LLM-Auditは、LLMの入力と出力を徹底的に監査し、セキュリティリスクを最小限に抑える包括的なセキュリティ＆セーフティ実現ソリューションです。

従来のセキュリティ対策では対応が難しいLLM特有の脆弱性や、日本語環境特有の課題に対しても高度な保護を提供します。

動画

本記事の内容はこちらの動画でもご覧いただけます。

LLMセキュリティの重要性

LLMのセキュリティ管理が不十分な場合、企業は深刻な結果に直面する可能性があります。

最も懸念されるのは情報漏洩のリスクです。LLMは大量のデータを学習しており、適切な保護措置がなければ、機密情報や個人情報が意図せず外部に流出する可能性があります。

また、LLMが生成する誤情報や偏った情報が拡散されることで、企業の評判が著しく損なわれる恐れもあります。さらに、LLMの不適切な使用や出力により、法的問題に発展するケースも考えられます。これらの問題は、単に一時的な損害にとどまらず、長期にわたって企業の信頼性や競争力に影響を与える可能性があります。

特に注目すべきは、一部のLLMシステムでジェイルブレイク（システムの制約を回避すること）が成功しているという報告です。

例えば、ChatGPTにおいて、巧妙に作られたプロンプトによって本来の制限を回避し、不適切な内容を生成させることが可能であったケースが報告されています。これは、LLMのセキュリティがいかに重要で、同時に難しい課題であるかを如実に示しています。従来の単純なフィルタリングや制限では、こうした高度な攻撃に対応することが困難であり、より洗練されたセキュリティ対策が求められています。

オープンソースLLMの台頭とLLMセキュリティの重要性

さらに、近年のオープンソースLLMの台頭により、セキュリティ環境はより複雑化しています。多くの企業が自社のドメイン知識でファインチューニングしたモデルを利用し始めていますが、これにより新たなリスクも生まれています。オープンソースモデルは、その性質上、脆弱性が公になりやすく、攻撃者にとって格好の標的となる可能性があります。そのため、オープンソースモデルを利用する場合は、クローズドな商用モデルと同等、あるいはそれ以上の厳重なセキュリティ対策が必要となります。

多言語モデルにおける日本語アラインメントの問題～LLMの防御は英語基準。「日本語には弱い」という課題～

多言語LLMの使用が世界的に広がる中、日本語ユーザーにとって看過できない重大なアラインメントの問題が浮上しています。

アラインメント（Alignment）とは、LLMの目標や行動を人間の意図や価値観と一致させることを指します。理想的には、LLMは言語や文化の違いに関わらず、一貫した倫理的判断や適切な応答を行うべきですが、現実には大きな課題が存在しています。

特に顕著なのが、言語によってモデルの振る舞いが大きく異なる「言語間のアラインメントの不一致」です。

この問題は、特にオープンなモデルにおいて英語とその他の言語の間で顕著な安全性の格差として現れています。例えば、コンテンツフィルタリングの面では、英語では適切にフィルタリングされる性的な内容や暴力的な表現が、日本語では素通りしてしまうケースが報告されています。これは単なる技術的な問題ではなく、日本語ユーザーが不適切なコンテンツにさらされるリスクを高めています。

倫理的判断においても深刻な問題が生じています。英語では確実に拒否される非倫理的な要求や指示が、日本語では受け入れられ、実行されてしまうことがあります。これは、モデルが日本語の文脈や文化的背景を十分に理解できていないことを示唆しています。また、ヘイトスピーチや差別的表現の検出においても、英語と比べて日本語での精度が著しく低下する事例が見られます。

プライバシー保護の観点からも課題があります。個人情報の取り扱いに関して、英語では慎重に対応するモデルが、日本語では安易に情報を開示してしまう傾向があります。これは、日本のユーザーのプライバシーが適切に保護されていない可能性を示しています。

さらに、日本特有の文化的タブーや慎重に扱うべき話題に対して、英語での対応と比べて配慮が不足している場合があります。これらの問題は、多言語モデルが「多言語対応」を謳いながらも、実際には英語中心の学習とアラインメントに偏重している結果だと考えられます。

こうした言語間のアラインメントの不一致は、LLMの安全性と信頼性に深刻な影響を与える可能性があります。日本語ユーザーは、意図せず不適切なコンテンツにさらされたり、プライバシーを侵害されたりするリスクに直面しています。また、企業にとっても、日本語環境でLLMを利用する際に予期せぬ問題が発生するリスクが高まっています。

LLM-Audit は日本語入出力向けのガードレール

これらの課題に対処するためには、日本語特有の表現や文脈を適切に理解し、それに応じた判断を下すことができるLLMの開発が必要です。しかし、現状の多言語モデルでこれを完全に実現することは困難であるため、LLMの外側で日本語に特化したアラインメント問題に対するガードレールを設ける必要があります。LLM-Auditは、まさにこの課題に対応するために開発された、日本語環境に最適化されたソリューションとなります。

LLMに対する主な攻撃と防御方法

LLMに対する攻撃は日々進化しており、その手法は多岐にわたります。最も一般的な攻撃の一つがプロンプトインジェクションです。これは、巧妙に作られたプロンプトを使ってLLMの動作を操作しようとする攻撃です。攻撃者は、LLMのルールを回避したり、特定の人物や組織になりすましたり、機密情報を漏洩させたり、悪意のあるコードを実行させたりすることを目指します。特に、検索拡張生成（RAG）システムを使用している場合、検索クエリの操作やコンテキスト汚染、偽のメタデータ挿入など、より複雑な攻撃方法が報告されています。

また、LLMに不適切な出力を誘導する攻撃も深刻な問題です。これには、脅迫や暴力的な内容、違法行為の勧誘、過度に性的に露骨な内容、政治や宗教などのセンシティブな話題を出力させようとする試みが含まれます。こうした攻撃は、LLMを利用するサービスの信頼性を著しく損なう可能性があります。

さらに、システムリソースを枯渇させることを目的としたモデルサービス拒否攻撃も存在します。これは、極端に長い文章や過度に複雑なタスクを大量に要求することで、LLMシステムを機能不全に陥らせようとする試みです。

個人情報の入力も、直接的な攻撃ではありませんが、重要なセキュリティリスクとなります。ユーザーが意図せずに個人情報を入力してしまうケースや、攻撃者が意図的に他者の個人情報を入力するケースがあり、これらの情報が適切に処理されないと、プライバシー侵害や情報漏洩につながる可能性があります。

多言語入力を利用した攻撃も注目されています。LLMの多言語対応が不完全な場合、十分にテストされていない言語でのプロンプト入力がLLMの誤動作を引き起こす可能性があります。これは、前述の日本語アラインメントの問題とも密接に関連しています。

競合情報の入力も、特定の目的で構築されたLLMシステムにとっては脅威となり得ます。例えば、ある企業の製品情報を提供するためのLLMに対して、競合他社の宣伝を誘発させるような入力を行うことで、システムの目的を阻害しようとする試みがあります。

これらの攻撃に加えて、不可視のUnicode文字を入力してシステムに想定外の動作を引き起こさせるなど、より技術的に高度な攻撃も存在します。

これらの多様な攻撃に個別に対応することは非常に困難ですが、LLM-Auditはこれらの課題に包括的に対処します。柔軟なポリシー設定により、様々な種類の攻撃を検出し、防御することが可能です。また、新たな攻撃手法が発見された場合でも、迅速にアップデートを行い、最新の脅威に対応できる設計となっています。

LLM-Auditは、入力段階での厳密なチェックに加えて、出力の監査機能も備えています。これにより、攻撃が成功した場合でも、不適切な出力を防ぐ二重の防御線を構築しています。さらに、日本語環境に特化した対策を講じることで、言語特有の脆弱性にも対応しています。

このように、LLM-Auditは単なる防御ツールではなく、LLMの安全で効果的な利用を総合的にサポートするソリューションとして機能します。企業は、LLM-Auditを導入することで、最新のセキュリティ脅威に対する強固な防御体制を構築し、安心してLLMの力を活用することが可能となります。

LLM-Auditの特徴と機能

LLM-Auditは、LLMの安全性と信頼性を確保するための包括的なソリューションです。その特徴は、日本語環境への高度な対応、簡単な導入プロセス、そして柔軟なカスタマイズ性にあります。

日本語でのプロンプト、出力への対応

まず、日本語環境への対応について詳しくご説明いたします。

LLM-Auditは、日本語ネイティブのエンジニアによって開発され日本語特有の表現や文脈、文化的背景を深く理解した上でのセキュリティ対策が可能となっています。

特に、 日本語テキストを基に学習されたリスク検出エンジン を採用していることが大きな強みです。このエンジンは、日本語の微妙なニュアンスや含意を理解し、より正確に潜在的な脅威を識別することができます。これは、前述の日本語アラインメントの問題に対する直接的な解決策となります。

なぜQualitegのLLM-Auditは日本語環境で優れたパフォーマンスを発揮できるのか

その秘密は、以下の4つの強みにあります。

まず第一の強みは、自社LLMサービスでの実戦経験です。Qualitegは日々のLLMサービス運用を通じて、実際の攻撃パターンとその対処法を蓄積してきました。この現場での経験は、理論だけでは得られない貴重な知見となり、より実践的で効果的なセキュリティ対策の開発につながっています。

第二の強みは、日本語に特化したリスクデータセットの継続的構築です。Qualitegは自社サービスへのジェイルブレイク試行の捕捉データをはじめ、常に最新の攻撃事例をもとにデータセットを拡充しています。このアップデートされ続ける日本語のリスクデータセットが、最新の脅威に対する高い検出精度を支えています。

第三の強みは、日本語の自然言語処理（NLP）に関する深い専門知識です。日本語特有の複雑な構造や曖昧さを理解し、的確に分析する能力は、Qualitegの大きな強みです。この専門知識を活かし、データセットの特性と要求に応じたバランスの取れた検出器の学習と運用を実現しています。

最後に第四の強みは、これらの技術を統合し、低レイテンシ・高スループットを実現できる最適化されたサービス提供環境です。GPUクラスター構築をはじめとしたLLM推論環境構築で培った高度な最適化技術が、このパフォーマンスを支えています。

これらの強みにより、QualitegのLLM-Auditは日本語による実攻撃データセットで学習され、日本語環境に最適化された高性能なリスク検出を実現しています。英語基準の監査システムや公開データセットのみで学習された検出器では見逃してしまうような、日本語による巧妙で毒性の高いプロンプトも捕捉することが可能なのです。

LLMの活用が進む中、日本語環境に特化したセキュリティソリューションの重要性は今後さらに高まっていくでしょう。QualitegのLLM-Auditは、その先駆けとして、企業のAI活用を安全かつ効果的にサポートしていきます。

次に、LLM-Auditの導入の容易さも大きな特徴です。

導入コストゼロで導入可能～OpenAI API 互換サーバー機能～

OpenAI互換サーバーとして機能するため、既存のLLMシステムを大きく変更することなく、簡単に統合することができます。具体的には、企業が現在利用しているLLMをLLM-Auditでラッピングすることで、アプリケーションのロジックにほとんど手を加えることなく、高度なセキュリティ・セーフティ機能を実現できます。これにより、導入に伴う技術的な障壁を大幅に低減し、迅速なセキュリティ強化が可能となります。

さらに、LLM-Auditは高い柔軟性を持ち、各組織の固有のニーズや課題に応じたカスタマイズが可能です。例えば、特定の業界特有の機密情報や専門用語に対する保護、組織方針に基づいた出力制御など、きめ細かな設定を行うことができます。

これにより、組織の規模や業種を問わず、最適なセキュリティ環境を構築することが可能です。

主な機能

LLM-Auditの主な機能は、入力の監査機能と出力の監査機能の二つに大別されます。

これらの機能が連携することで、LLMの利用における包括的なセキュリティを実現しています。
入力の監査機能では、まずコンテンツフィルタリングが行われます。

不適切な入出力の保護

これは、システムに入力されるテキストを詳細に分析し、明らかな脅迫、暴力的な内容、違法行為の勧誘などを検出し、ブロックする機能です。また、政治や宗教などのセンシティブな話題を識別し、組織のポリシーに基づいて適切に処理することも可能です。

個人情報の検出と保護

個人情報の検出と保護も、入力監査の重要な要素です。LLM-Auditは高度な自然言語処理技術を用いて、テキスト内の個人識別情報を正確に検出します。検出された情報は、組織のプライバシーポリシーに従って、適切にマスクまたは削除されます。これにより、意図しない個人情報の流出や、LLMによる不適切な学習を防ぐことができます。

プロンプトインジェクションの検出

プロンプトインジェクション検出も、LLM-Auditの重要な機能の一つです。この機能は、高度な検出アルゴリズムを用いて、悪意のあるプロンプトパターンを識別します。システムの制約を回避しようとする試みや、LLMを不正に操作しようとする攻撃を効果的にブロックすることができます。

入力の妥当性チェック

入力の妥当性チェックは、システムの安定性と性能を維持するために重要です。この機能により、入力テキストの長さ、複雑さ、使用される文字や単語などを詳細にチェックし、システムに過度の負荷をかける可能性のある入力や、潜在的に危険な入力をフィルタリングすることができます。

会話トピック判定

さらに、LLM-Auditは単語単位やトピック単位での入力制御も可能です。これにより、組織特有の機密情報や、特定のトピックに関する制限を柔軟に設定することができます。
出力の監査機能も同様に重要です。安全性チェックでは、LLMが生成した出力内容を分析し、暴力、ヘイトスピーチ、不適切な性的内容などの有害コンテンツを検出します。これにより、LLMが意図せず不適切な内容を生成することを防ぎ、サービスの信頼性を維持することができます。

一貫性チェック
一貫性チェックは、LLMの出力が入力と矛盾していないかを確認する機能です。これは、LLMの回答が文脈に沿っているか、前後で矛盾した情報を提供していないかを判断し、ユーザーに一貫した高品質の応答を提供するために重要です。

ハルシネーション＝厳格の検出

幻覚検出は、LLM-Auditの特に革新的な機能の一つです。外部のデータベースやリソースを必要とせず、LLMの出力自体から幻覚（実在しない情報や事実と異なる情報）の可能性を判定します。これにより、LLMが提供する情報の信頼性を大幅に向上させることができます。

個人情報の漏洩防止機能は、LLMの学習データに含まれていた可能性のある個人情報が出力に含まれていないかをチェックします。これにより、プライバシー保護を強化し、法的リスクを最小限に抑えることができます。

LLM-Auditのこれらの機能は、常に最新の脅威に対応できるよう、定期的にアップデートされます。新たな攻撃手法や脆弱性が発見された場合、迅速に対策を講じることが可能です。また、独自の検出器や新たなフィルタリング機能を追加することもできるため、組織の変化するニーズに柔軟に対応することができます。

これらの包括的な機能により、LLM-Auditはセキュリティインシデントを大幅に減少させ、LLMを利用する企業の信頼性を守り、ユーザー満足度を向上させることが期待できます。LLM-Auditは、単なるセキュリティツールではなく、組織がAI技術を安全かつ効果的に活用するための重要な基盤とnなります。

運用サポートとLLMセキュリティトレーニング

LLM-Auditの導入後も、継続的なサポートを提供します。これには、運用サポートとトレーニングプランの策定が含まれます。運用サポートでは、システムの最適なパフォーマンスを維持するための技術的支援を提供し、新たな脅威や課題に迅速に対応できるようサポートします。トレーニングプランは、組織の従業員がLLM-Auditを効果的に利用し、セキュリティ意識を高められるよう設計されています。

セキュリティ監査

さらに、定期的なセキュリティ監査とレポーティングサービスも提供しています。これにより、組織のLLM利用状況とセキュリティ対策の効果を継続的に評価し、必要に応じて改善策を提案します。この定期的な評価は、変化する脅威環境に組織が常に適応できるよう支援します。

また、オープンソースLLMを利用している、あるいは利用を検討している組織向けの特別なコンサルティングパッケージです。オープンソースLLMは独自の課題とリスクを持っており、これらに特化したアプローチが必要です。このパッケージでは、オープンソースモデルの選択、カスタマイズ、セキュリティ強化、そして運用に関する包括的なガイダンスを提供します。

これらのコンサルティングサービスを通じて、私たちは組織がLLMの力を最大限に活かしながら、リスクを最小限に抑える方法を共に考え、実践していきます。LLM技術は急速に進化しており、それに伴うセキュリティ課題も日々変化しています。当社のエキスパートチームは、最新の技術動向と脅威情報を常に把握し、クライアント組織に最適なソリューションを提供し続けます。

このように、LLM-Auditとそれに関連するコンサルティングサービスは、組織のAI戦略を包括的にサポートし、技術の導入から運用、継続的な改善までをカバーする総合的なソリューションとなっています。私たちは、クライアント組織とともにAIの未来を安全に切り開いていくパートナーとしての役割を果たしていきたいと存じます。

お問合せ

LLMがビジネス活用されるにつれ、LLMへの各種攻撃が活発化しています。
一方で、これまでのWebセキュリティとはまた異なったLLMへの攻撃についてはまだ知見も乏しく防衛手段も確立していません。

(株)Qualiteg では、LLMサービス開発・運営を通して得た経験・知見を集めた LLM防衛ソリューション「LLM-Audito™」をご提供しています。

これにより、悪意ある入力プロンプトのブロック、LLMによる不適切な出力の監査を強力に実行しLLMの安全、安心を実現することができます。

LLMセキュリティやLLM-Audit™　にご関心がおありの場合は以下までご連絡くださいませ。
またLLMセキュリティコンサルティングや製品デモについてもどうぞお気軽にこちらのお問い合わせフォームまでご連絡くださいませ。

参考情報

LLM-Audit 製品サイト

https://llm-audit.com/

LLM-Audit ～LLMへの攻撃と防衛の最前線～

Qualiteg プロダクト開発部, Qualiteg AIセキュリティチーム

はじめに

動画

LLMセキュリティの重要性

オープンソースLLMの台頭とLLMセキュリティの重要性

多言語モデルにおける日本語アラインメントの問題～LLMの防御は英語基準。「日本語には弱い」という課題～

LLM-Audit は日本語入出力向けのガードレール

LLMに対する主な攻撃と防御方法

LLM-Auditの特徴と機能

日本語でのプロンプト、出力への対応

なぜQualitegのLLM-Auditは日本語環境で優れたパフォーマンスを発揮できるのか

導入コストゼロで導入可能～OpenAI API 互換サーバー機能～

主な機能

関連コンサルティングサービス

リスク評価

（既存）プロンプト脆弱性診断

運用サポートとLLMセキュリティトレーニング

セキュリティ監査

お問合せ

参考情報

Read more

【プレスリリース】株式会社Qualiteg、「Startup JAPAN EXPO 2026」に出展－「Bestllam®」に、AIエージェント機能を搭載－

Anthropicが「強すぎて出せないモデル "Mythos"」を出した

「AIを作る国」から「AIで勝つ国」へ ── 日本のAI投資戦略を再設計する【後編】

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

はじめに

動画

LLMセキュリティの重要性

オープンソースLLMの台頭とLLMセキュリティの重要性

多言語モデルにおける日本語アラインメントの問題 ～LLMの防御は英語基準。「日本語には弱い」という課題～

LLM-Audit は日本語入出力向けのガードレール

LLMに対する主な攻撃と防御方法

LLM-Auditの特徴と機能

日本語でのプロンプト、出力への対応

なぜQualitegのLLM-Auditは日本語環境で優れたパフォーマンスを発揮できるのか

導入コストゼロで導入可能 ～OpenAI API 互換サーバー機能～

主な機能

関連コンサルティングサービス

リスク評価

（既存）プロンプト脆弱性診断

運用サポートとLLMセキュリティトレーニング

セキュリティ監査

お問合せ

参考情報

Read more

【プレスリリース】株式会社Qualiteg、「Startup JAPAN EXPO 2026」に出展－「Bestllam®」に、AIエージェント機能を搭載－

Anthropicが「強すぎて出せないモデル "Mythos"」を出した

「AIを作る国」から「AIで勝つ国」へ ── 日本のAI投資戦略を再設計する【後編】

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

多言語モデルにおける日本語アラインメントの問題～LLMの防御は英語基準。「日本語には弱い」という課題～

導入コストゼロで導入可能～OpenAI API 互換サーバー機能～