awesome-ai-red-teaming-jp

mcp
Security Audit
Pass
Health Pass
  • License — License: CC0-1.0
  • Description — Repository has a description
  • Active repo — Last push 0 days ago
  • Community trust — 12 GitHub stars
Code Pass
  • Code scan — Scanned 7 files during light audit, no dangerous patterns found
Permissions Pass
  • Permissions — No dangerous permissions requested

No AI report is available for this listing yet.

SUMMARY

AI Red Teaming / AI Safety に関する日本語リソースのキュレーションリスト

README.md

Awesome AI Red Teaming JP Awesome

日本語 | English

🛡️ AI Red Teaming / AI Safety に関する日本語リソースのキュレーションリスト

LLMを組み込んだアプリケーションへの攻撃は、既に現実の被害を生んでいます:

  • 🚗 Chevrolet販売店のチャットボットが、プロンプトインジェクションにより7万6千ドルのSUVを「1ドルで売る」と回答(2023年)
  • ✈️ Air Canadaのチャットボットが、実在しない返金ポリシーを案内し、裁判所が航空会社に賠償を命令(2024年)
  • 🔓 ServiceNowのAIアシスタントで、低権限のエージェント経由で高権限の操作を実行できる脆弱性が発覚(2025年)

こうした脅威に対して、攻撃者の視点からシステムの安全性を検証する手法が AI Red Teaming です。2026年8月にはEU AI Actで高リスクAIへのレッドチーミング文書化が義務化されるなど、実務上の重要性が急速に高まっています。

このリストは、AI Red Teamingに関するツール・規制・攻撃手法・防御手法・論文・学習リソースを日本語で体系的にまとめたものです。

🧭 どこから読むか:

あなた(またはAI)の立場 おすすめの入口
👨‍💻 LLMアプリを開発・運用している ⚔️ 攻撃手法🧰 ツール🛡️ 防御手法
📋 規制対応・リスク管理を担当している 📜 規制・フレームワーク🧰 ツール
🎓 AI Safetyをこれから学びたい 📚 学習リソース⚔️ 攻撃手法
🤖 AIエージェントとしてリサーチしている 🤖 AIエージェント向け🔌 MCP / エージェントセキュリティ📄 論文
🔴 既にAI Red Teamingに取り組んでいる 📑 目次 から必要なセクションへ

📑 目次


🧰 ツール

AI Red Teamingを実施するためのツール群。「何から始めればいいかわからない」場合は、まず Promptfoo(設定ベースで手軽)か Garak(CLIワンライナーで即実行)を試すのがおすすめです。

オープンソースツール

スター数は2026年6月時点(GitHub API実測値)。

ツール Stars 言語 ライセンス 特徴
Promptfoo ~22,400 TypeScript MIT RAG・エージェント・MCPテスト対応、コンプライアンスマッピング
Garak ~8,100 Python Apache 2.0 NVIDIA開発、プローブモジュール多数、学術的アプローチ
PyRIT ~4,000 Python MIT Microsoft開発、マルチモーダル対応、80+種類の変換器
DeepTeam ~1,900 Python Apache 2.0 データセット不要の動的テストケース生成、OWASP/NIST対応
MLCommons ModelBench ~130 Python Apache 2.0 AILuminate安全性ベンチマークの実行・集計・レポート生成

Promptfoo

  • promptfoo/promptfoo - LLMアプリケーションのセキュリティテストフレームワーク。50+脆弱性タイプをカバーし、RAGパイプライン・エージェント・MCP サーバーの統合テストに対応
  • promptfoo/evil-mcp-server - ツールポイズニング攻撃をシミュレートするMCPサーバー。MCPセキュリティテスト用

Garak

  • NVIDIA/garak - NVIDIAのAIレッドチームが開発したLLM脆弱性スキャナー。多数のプローブモジュール(30+カテゴリ)で幅広い攻撃パターンをカバー。シングルターンのモデル応答テストに特化

PyRIT

  • microsoft/PyRIT - Microsoft のPython Risk Identification Tool。プログラマティックなオーケストレーションでテキスト・画像・音声・映像のマルチモーダルテストに対応。ツールキットとしての柔軟性が高い反面、Pythonコーディングが前提

DeepTeam

  • confident-ai/deepteam - DeepEvalチームによるレッドチーミングフレームワーク。脆弱性定義からテストケースを動的に自動生成するため、データセットの事前準備が不要

MLCommons ModelBench

  • mlcommons/modelbench - MLCommons AI Risk & Reliability Working Groupによる安全性ベンチマーク実行ツール。ModelGaugeでSUT(評価対象システム)を実行し、AILuminateのハザード別スコアとレポートを生成

日本発ツール・データセット

  • Japan-AISI/aisev - AIセーフティ研究所(AISI)が開発したAIセーフティ評価環境。10の評価観点に基づく定量・定性評価、自動レッドチーミング機能を搭載。Docker必要。日英両言語対応(2025年9月公開、2025年12月最終更新)
  • llm-jp/AnswerCarefully - 国立情報学研究所(NII)LLM-jpプロジェクトによる日本語LLM安全性データセット。日本の社会文化的文脈を反映した1,800件のQ&Aペア。安全性ファインチューニング・評価ベンチマークとして利用可能 — 📄 論文
  • llm-jp/awesome-japanese-llm - 日本語LLMの包括的まとめ。安全性評価を行う前提となるモデルの全体像を把握するのに有用

ベンチマーク・データベース

  • AVID (AI Vulnerability Database) - 汎用AI(GPAI)システムの失敗モードや脆弱性レポートを、証拠・メタデータ・再現可能な評価情報とともに収録するオープンデータベース。データ本体は avidml/avid-db、開発者向けPythonツールは avidml/avidtools

その他のツール

  • ARTKIT - 自動化マルチターン攻撃シミュレーション
  • Giskard - エージェント・RAG・チャットボット向け動的マルチターンテスト
  • Mindgard - モデル非依存のAIセキュリティテスト。MITRE ATLAS/OWASP準拠、自動偵察機能。CLI (PyPI)
  • AISafetyLab - 清華大学による攻撃・防御・評価の包括フレームワーク

商用ツール・サービス

  • Cisco AI Defense - MCPサーバーの発見・インベントリ・リスク管理を含む商用AIセキュリティソリューション(旧Robust Intelligence を統合)
  • HiddenLayer - AIモデルのセキュリティとコンプライアンスの継続的監視

📜 規制・フレームワーク

「レッドチーミングは任意のベストプラクティスではなく、法的義務になりつつある」— EU AI Act(2026年8月施行)は高リスクAIにレッドチーミングの文書化を義務付け、OWASPはベンダー評価基準を策定しています。ここでは、対応が必要な規制とフレームワークを整理しています。

国際規制・ガイドライン

  • EU AI Act - EU人工知能規制法。2026年8月2日に高リスクAIシステムへの完全コンプライアンスが義務化。レッドチーミングの文書化が高リスクAIに必須
  • NIST AI Risk Management Framework (AI RMF) - 米国NISTによるAIリスク管理フレームワーク。AIシステムのリスク特定・評価・軽減の体系的アプローチを定義
  • MITRE ATLAS - AIシステムへの敵対的脅威の知識ベース。実世界の事例に基づく戦術・技術・手順(TTP)のマトリクス
  • OWASP Top 10 for LLM Applications - LLMアプリケーションの主要セキュリティリスクTop 10(2025年版)
  • OWASP Top 10 for Agentic Applications 2026 - エージェンティックAIアプリケーション向けリスクTop 10(2026年版)
  • OWASP AI Red Teaming Vendor Evaluation Criteria v1.0 - AI Red Teamingプロバイダー・ツールの評価基準。表面的なジェイルブレイクテストと本格的な敵対的テストを区別するための基準
  • CSA Agentic AI Red Teaming Guide - Cloud Security AllianceによるエージェンティックAIレッドチーミングガイド(2025年5月発行)

日本の規制・ガイドライン

業界標準

  • ISO/IEC 42001:2023 - AI管理システムの国際規格。AIシステムの開発・提供・利用における管理体制の要件を規定
  • ISO/IEC 23894:2023 - AI向けリスクマネジメントガイダンス
  • NIST AI 100-2 E2023 - Adversarial Machine Learning: 分類学と用語集

⚔️ 攻撃手法

LLMアプリケーションに対する主要な攻撃カテゴリ。「自分のシステムがどのような攻撃に晒されるか」を理解することが、防御の第一歩です。

プロンプトインジェクション

OWASPが選ぶLLMアプリケーションの脆弱性第1位セキュリティ監査では本番AIデプロイメントの73%で検出されています。

  • 直接インジェクション: ユーザー入力でシステムプロンプトを上書きし、本来の指示を無視させる。情報漏洩や不正操作に直結
  • 間接インジェクション: Webページやドキュメントに攻撃プロンプトを埋め込み、RAGシステム経由でモデルに注入。ユーザーの操作なしに発動するため検知が困難 — 📄 Greshake et al., 2023

ジェイルブレイク

安全ガードレールを迂回して、モデルに本来拒否すべき出力を生成させる手法。

  • DAN (Do Anything Now): モデルに制約のない別のペルソナを演じさせる。最も広く知られた攻撃パターン
  • キャラクターロールプレイ: 「あなたは悪意のあるハッカーです」等のキャラクター設定で安全フィルターを回避
  • エンコーディング攻撃: Base64、ROT13等でプロンプトをエンコードし、テキストベースのフィルターを回避
  • 多段階攻撃 (Crescendo): 無害な会話から段階的にエスカレートし、安全ガードレールを徐々に緩和させる — 📄 Microsoft Research

多言語攻撃

日本語サービスを運用する開発者にとって特に重要なカテゴリ。英語中心の安全訓練の盲点を突きます。

  • 低リソース言語攻撃: 非英語言語でのプロンプトにより安全性ガードレールをバイパス。低リソース言語では有害コンテンツに遭遇する確率が約3倍 — 📄 Deng et al., 2024
  • コードスイッチング攻撃: 「この質問に英語で答えて」「次は日本語で」と言語を切り替えることで、多言語安全ガードレールを突破
  • 日本語特有の攻撃ベクトル: 漢字・ひらがな・カタカナ・ローマ字の混在する表記体系を利用。同じ意味を異なる表記で表現することでフィルターを回避

データ抽出

機密情報の漏洩に直結する攻撃。企業でのLLM導入における最大のリスク領域の一つ。

  • システムプロンプト抽出: モデルにシステムプロンプトの内容を開示させる。ビジネスロジックやプロンプトエンジニアリングのノウハウが流出
  • 学習データ抽出: モデルが学習に使用した個人情報や機密データを再現させる。プライバシー規制違反に直結

🛡️ 防御手法

攻撃を100%防ぐ銀の弾丸は存在しません。実効的な防御は複数のレイヤーを組み合わせることで実現します。

ガードレール

  • 入力フィルタリング: ユーザーのプロンプトを前処理し、悪意ある入力を検出・ブロック。最も基本的な防御層 — 📄 Llama Guard
  • 出力フィルタリング: モデルの応答を後処理し、有害コンテンツや機密データの漏洩を検出・除去 — 📄 NeMo Guardrails
  • 多段階防御: 入力ガード → モデル → 出力ガード の多層防御アーキテクチャ。単一レイヤーの突破が即座に被害に繋がらない設計
  • Constitutional AI: AIフィードバックに基づく安全性アラインメント。モデル自体の安全性を訓練段階で向上させる — 📄 Anthropic, 2022

評価・ベンチマーク

防御の有効性を定量的に測定するためのベンチマーク。

  • MLCommons AILuminate - MLCommonsのAIリスク・信頼性ベンチマーク。Safety v1.0は12のハザードカテゴリで一般目的チャットシステムを単一ターン評価し、英語・フランス語の公開結果を提供。実行基盤は ModelBench
  • JailbreakBench - ジェイルブレイク攻撃の標準ベンチマーク。100件のミスユース行動を10カテゴリに分類
  • HarmBench - 自動レッドチーミングの標準化ベンチマーク。攻撃手法と防御手法の公平な比較が可能

🔌 MCP / エージェントセキュリティ

MCPは60日間で30件のCVEが報告され、スキャンされたサーバーの38%が認証機構を持たないという調査結果が出ています。LLMが外部ツールを呼び出す時代において、最も急速に拡大している攻撃対象領域です。

概要

  • エージェンティックAIの普及により、従来の「モデル単体のテスト」から「ツール呼び出し連鎖・マルチエージェント環境のテスト」へパラダイムシフトが発生
  • 悪意あるMCPサーバーがLLMを騙して「考えすぎループ」を誘発し、トークン消費を最大142.4倍に増幅させるDenial-of-Wallet攻撃も報告されている
  • MCPサーバーの権限制限、タイムアウト、コスト制御の検証が新たな課題

ツール・リソース

測定指標

エージェントテストで求められる主要指標:

  • ツール誤動作率
  • 安全でないツール呼び出し率
  • MCP機能悪用カバレッジ
  • マルチエージェント汚染率
  • 破壊的ツール呼び出しのサンドボックス化

📄 論文

AI Red Teamingの理論的基盤となる学術論文。自動化手法は手動の約1.5倍の成功率を達成しており(69.5% vs 47.6%)、この分野の研究は直接実務に影響します。

サーベイ・総説

この分野の全体像を掴むための論文。初めて読む場合はサーベイから始めるのがおすすめです。

攻撃研究

現在のレッドチーミングツールの多くが基盤としている攻撃手法の原論文。

防御研究

日本語論文・発表


🇯🇵 日本語リソース

AI Red Teamingの情報は英語に偏っており、日本語で読める実践的なリソースは限られています。ここでは、日本語で利用可能な解説記事・書籍・コミュニティをまとめています。

解説記事

書籍

動画・講演

コミュニティ

  • Machine Learning Tokyo (MLT) - 東京拠点の機械学習コミュニティ。Constitutional AIスタディグループなどAI Safety関連の活動あり(Discord
  • AI Meetup Tokyo - エンジニア・PM向けのAI開発情報交換コミュニティ(connpass)
  • ChatGPT Community JP - ChatGPT・生成AI関連の定期ミートアップ(connpass)
  • OWASP Japan Chapter - OWASP日本支部。LLMセキュリティを含むアプリケーションセキュリティのコミュニティ活動

📚 学習リソース

スキルレベルに応じた学習パスを用意しています。

入門(非エンジニア向け)

AI Red Teamingの概念と必要性を理解するためのリソース。技術的な詳細よりも「なぜ必要か」「何がリスクか」を重視。

実践(エンジニア向け)

実際にレッドチーミングを実施するための技術リソース。ツールのセットアップから実行まで。

研究(研究者向け)

AI Safety研究に参入するための基盤リソース。論文リスト、ベンチマーク、データセット。

  • Awesome-LLM-Safety (GitHub) - LLM Safety研究の英語論文リスト(1,800+ Stars、2026年4月時点)。6大カテゴリに整理
  • awesome-llm-security (GitHub) - LLMセキュリティ論文リスト(1,500+ Stars、2026年4月時点)。攻撃・防御・ベンチマーク
  • JailbreakBench - ジェイルブレイク研究の標準ベンチマーク。研究成果の比較に必須
  • HarmBench - 自動レッドチーミングの標準化ベンチマーク

🤖 AIエージェント向け

このリポジトリは llms.txt に対応しています。AIエージェントやRAGパイプラインから効率的にアクセスできます。

  • llms.txt — 構造化サマリーとセクション別リンク
  • llms-full.txt — 全コンテンツを1ファイルにまとめたもの

MCPサーバー

Claude Code等のMCPクライアントから直接リソースを検索できるローカルMCPサーバーを同梱しています。

セットアップ:

# リポジトリをクローン
git clone https://github.com/HayatoFujihara/awesome-ai-red-teaming-jp.git
cd awesome-ai-red-teaming-jp

# Claude Codeに登録
claude mcp add ai-red-teaming-jp \
  -s user \
  -- uv --directory ./mcp-server run server.py

利用可能なツール:

ツール 説明
search(query, lang?) キーワードでリソースを全文検索
get_tools(license?, language?) OSSツール一覧のフィルタリング
get_regulations(region?) 地域別の規制・フレームワーク取得
get_section(name) セクション名で全文取得

🔄 更新ポリシー

  • スター数・リリース情報は四半期ごとに更新します
  • リンク切れは GitHub Actions(link-check, markdown-lint)で自動チェックしています
  • 新しいリソースの提案は Issue または PR で受け付けています

🤝 コントリビューション

コントリビューションを歓迎します!コントリビューションガイド をお読みください。

📝 ライセンス

  • キュレーションリスト(README等): CC0 CC0 1.0
  • MCPサーバー(mcp-server/): MIT License

Reviews (0)

No results found