技術解説
AI画像検出はどのように機能するか
Maat Scan · 2026年3月24日
2026年初頭の調査によると、主要なSNSプラットフォームに投稿された画像の約3枚に1枚に、 AI加工の痕跡が見られるとのことです。1一方、人間がAI生成画像と本物の写真を判別する精度は38%にとどまっており、 これはランダムに答えるよりも低い数字です。2このギャップを埋めることが、AI画像検出システムの存在意義です。 ただし、そのギャップを埋めることは当初思われていたよりはるかに難しいことがわかっています。
「AI生成」が指すもの
この言葉はかなり幅広い概念を含んでいます。一方の極端な例は、Midjourney・DALL-E・ Stable Diffusionなどの生成モデルが完全に合成した画像です(実際の写真は一切使われません)。 もう一方は美顔フィルターや肌補正ツールでわずかに加工した写真です。 その間には、大幅に加工した画像、フェイスチェンジ、 画像の特定領域をAIで置き換えるインペインティング、アップスケールされた画像など、 多様なケースがあります。
検出システムはこれらすべてのケースに対応する必要があるため、 単一のスコアだけでは全体像を伝えられません。 Maat Scanは5つの独立したシグナルを使って、より包括的な評価を行っています。
シグナル1:視覚的印象(VLM分析)
最初かつ最も強力なシグナルは、VLM(Vision-Language Model)によるものです。 これは数百万枚の本物画像とAI生成画像で学習された大規模なニューラルネットワークで、 合成画像とカメラ撮影写真を区別する微細な統計的パターンを認識することができます。
単純な二値分類器とは異なり、VLMはコンテキストも理解します。 完璧な左右対称で肌のムラがまったくない顔は統計的に実在の人間としては異常であること、 あるいは背景の物体が光学レンズとは整合しない質感を持っていることなどを認識できます。 VLMコンポーネントが算出する総合的な自然度推定値が、全体スコアの基準となります。
シグナル2:肌・素材のテクスチャ
人間の肌には特徴的なミクロテクスチャがあります。 微細な毛穴、産毛、小さな領域にわたる光の変化などです。 生成AIモデルは、特に美しいポートレートを作るよう最適化されたものほど、 不自然なほど滑らかな肌を生成しがちです。 テクスチャ解析アルゴリズムは、画像の肌部分や素材部分における 微細なディテールの周波数スペクトルを計測します。
日本や韓国を中心に世界中で普及している肌補正アプリも、同様のシグネチャを残します。 スムージング処理によって自然なテクスチャのばらつきが失われるためです。 このシグナルは完全なAI生成の検出だけでなく、大幅に加工された写真の識別にも有効です。
シグナル3:エッジの整合性と背景の歪み
生成モデルは境界部分、人物と背景の境界や物体同士の境界で、 つまずくことがよくあります。 画像の特定部分を置き換えるインペインティングツールは、 エッジのシャープさや局所的なコントラストに微妙な不整合を残すことがあります。 検出アルゴリズムはこれらの境界領域を分析し、 ブレンドのアーティファクト、不自然なグラデーション、 カメラ写真では起こりえない歪みの兆候を探します。
ディープフェイクで使われるフェイスチェンジ技術は、特にこの分析に対して弱い部分を持っています。 合成した顔を実際の体に重ねるにはピクセルレベルの合成処理が必要であり、 完全な一貫性を実現することはほとんどできないためです。
シグナル4:顔・体のジオメトリ
人間の顔には確立されたジオメトリ上の制約があります。 目の間隔と顔の幅の比、鼻の長さと顎の高さの関係、顎のラインに対する耳の位置などです。 生成AIモデルは、手・歯・耳といった、歴史的に正確な生成が難しかった部位で、 こうした制約に微妙に違反することがあります。
検出システムは顔のランドマークを検出してマッピングし、複合的なジオメトリスコアを算出します。 顔の比率が実在の人間の通常分布から外れると、スコアに影響します。 Maat Scanは自然な人間のばらつきをペナルティとしないよう寛容な許容範囲を設けていますが、 系統的なジオメトリの異常は依然として検出できます。
シグナル5:画像メタデータ(EXIF情報)
カメラやスマートフォンで撮影されたすべての写真には、ファイル内にメタデータが埋め込まれています。 カメラモデル、レンズの焦点距離、シャッタースピード、ISO感度、GPS座標、タイムスタンプなどです。 AIツールで生成された画像はこのデータを持っていないことがほとんどです。 物理的なデバイスが存在しない合成出力だからです。
カメラのメタデータがないことは、単独ではAI生成の証拠にはなりません。 SNSプラットフォームが画像共有時にEXIFデータを削除するためです。 ただし、他のシグナルと組み合わせることで総合評価に意味ある影響を与えます。 逆に、Adobe PhotoshopやLightroomのタグなど編集ソフトのメタデータが存在すれば、 撮影後に画像が加工されたことの直接的な証拠となります。
検出の限界
検出精度はどのジェネレーターが画像を生成したかによって大きく異なります。 2〜3年前のジェネレーター、つまり古いバージョンのMidjourney、初期のDALL-E 3、 元のStable Diffusionによる画像は、主要な検出ツールで80〜95%の精度で検出されます。3しかし最新世代のジェネレーターは別問題です。 2026年2月のベンチマーク研究によると、Flux Dev・Adobe Firefly v4・Midjourney v7の画像が 正しく識別された割合はわずか18〜30%で、コインを投げるよりも低い精度でした。4
2025年の実証研究では、検出精度はモデルの世代が進むにつれて測定可能なほど低下し、 人間の判定者は自動システムよりも速く信頼性を失うことが確認されました。5検出システムは現在の精度を維持するだけでも定期的な再学習を必要とし、 その再学習サイクルは止まりません。
わずかに加工された実際の写真など、確信を持ったスコアを算出することが 本質的に難しいカテゴリの画像は常に存在します。 Maat Scanのスコアは、確定的な判定ではなく統計的な推定値として明示されています。
検出結果を責任ある形で使うには
自然度スコアが低いことは、調査する価値のあるシグナルであり、結論ではありません。 責任ある使い方とは、スコアをデータポイントの一つとして扱うことです。 どの次元がスコアを押し下げているかを確認し、画像の元のソースを調べ、 重大な判断を下す前に他の検証方法も参照してください。
AI画像検出ツールが最も力を発揮するのは、最初のフィルタリングとして使う場面です。 より詳しい検査が必要な画像を見つけ出すための手段であり、 人間の判断を完全に置き換えるものではありません。
出典
- Facia.ai / UC Berkeley, "AI Image Prevalence on Social Platforms," 2026年。
- OpenPR.com, "Human AI Detection Accuracy Falls Below Chance," 2025年。
- Imagera AI, "AI Image Detection Benchmark 2026," Imagera.ai, 2026年。
- arXiv 2602.07814, "Open-Source AI-Generated Image Detection Benchmark," 2026年2月。
- arXiv 2511.02791, "Empirical Study of AI Image Detection Across Model Generations," 2025年11月。
- arXiv 2504.20865, "AI-GenBench: Ongoing Benchmark for AI Image Detection," 2025年4月。
