LLM セキュリティ

LLM-Audit ~LLMへの攻撃と防衛の最前線 ~

LLM セキュリティ

LLM-Audit ~LLMへの攻撃と防衛の最前線 ~

はじめに 人工知能技術の急速な進化により、大規模言語モデル(LLM)は多くの企業や組織にとって不可欠なツールとなっています。自然言語処理、コード生成、データ分析など、LLMの応用範囲は日々拡大し、ビジネスプロセスの効率化や創造的タスクの支援など、幅広い分野で革新をもたらしています。しかし、この革新的な技術の普及に伴い、新たなセキュリティリスクも浮上しており、企業はこれらのリスクに対する適切な対策を講じる必要に迫られています。 本記事では、当社が開発したLLMセキュリティソリューション「LLM-Audit」をご紹介します。LLM-Auditは、LLMの入力と出力を徹底的に監査し、セキュリティリスクを最小限に抑える包括的なセキュリティ&セーフティ実現ソリューションです。 従来のセキュリティ対策では対応が難しいLLM特有の脆弱性や、日本語環境特有の課題に対しても高度な保護を提供します。 動画 本記事の内容はこちらの動画でもご覧いただけます。 LLMセキュリティの重要性 LLMのセキュリティ管理が不十分な場合、企業は深刻な結果に直面する可能性があります。 最も懸

By Qualiteg プロダクト開発部
【LLMセキュリティ】ハルシネーションの検出方法

LLM セキュリティ

【LLMセキュリティ】ハルシネーションの検出方法

こんにちは、Qualiteg研究部です。 本日は、RAGにおけるハルシネーション検出に関する、こちらの論文について解説をしつつ、ハルシネーション検出をおこなうLLMについて考察をしてみたいと思います。 "Lynx: An Open Source Hallucination Evaluation Model" https://arxiv.org/pdf/2407.08488 概要 LYNXという、RAG(Retrieval Augmented Generation) システムにおいて参照なしで高品質なハルシネーション検出が可能なオープンソースのLLMの構築方法、仕組みに関する論文です。 RAGシーンにおいて、LLMが生成する回答が、質問やコンテキストに対して「忠実」であるかどうかを判定することで、ハルシネーションを検出することができます。 研究の成果である、ハルシネーション判定のために llama3ファインチューニングがほどこされたモデルは 以下に公開されています。 https://huggingface.co/PatronusAI/Llama-3-Patronus-Lynx

By Qualiteg 研究部
【LLMセキュリティ】Llama Guard :AI安全性の第一歩

LLM セキュリティ

【LLMセキュリティ】Llama Guard :AI安全性の第一歩

こんにちは、Qualiteg研究部です。 本日は昨年末(2023年12月)に発表された Llama Guard について解説いたします。 近年、AI技術の進化は目覚ましく、その応用範囲は広がっています。しかし、その一方で、AIシステムが生成するコンテンツの安全性に対する懸念も高まっています。そこで登場したのが、Meta社によって開発されたLlama GuardというAIモデル(LLMです)です。 このモデルは、AIが生成するコンテンツの安全性を評価し、不適切な内容を防ぐための重要なツールとなっています。 本記事では、Llama Guardの特徴やその効果について詳しく解説いたします。 Llama Guardの概要 Llama Guardは、大規模言語モデル(LLM)に対する 入力プロンプト および 出力レスポンス の両方にたいしてセーフガードを導入するツールであり、LLMシステムが生成するコンテンツを安全に保つための仕組みを提供しています。 具体的には、LLMシステムへの入力および出力情報が不適切でないかを判断するための「安全リスク分類法」により、「安全」か「安全でないか

By Qualiteg 研究部
【LLMセキュリティ】ゼロリソースブラックボックスでの幻覚(ハルシネーション)検出

LLM セキュリティ

【LLMセキュリティ】ゼロリソースブラックボックスでの幻覚(ハルシネーション)検出

こんにちは、Qualiteg研究部です。 今回は、データベースなど外部の情報を使用しない「ゼロリソース」状態での幻覚(ハルシネーション)検出の手法である以下論文について解説いたします。 SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models https://arxiv.org/abs/2303.08896 背景 LLMが出力する「幻覚」の問題 近年、生成型大規模言語モデル(LLMs)は、多様なユーザープロンプトに対して非常に流暢な応答を生成する能力を持っています。 しかし、これらのモデルは事実を幻覚させたり、非事実的な発言をすることが知られており、出力への信頼性を損なう可能性があります。 この問題に対処するための既存のファクトチェック手法は、出力確率分布へのアクセスが必要だったり、外部データベースを使用した複雑なモジュールを必要としたりします。 本論文では、SelfCheckGPTと呼ばれる新しいアプローチを提案しています。このア

By Qualiteg 研究部