Article

コンテキストターゲティング入門:Cookieレス環境での効果的な広告配信

高田晃太郎
コンテキストターゲティング入門:Cookieレス環境での効果的な広告配信

主要ブラウザのうちSafariとFirefoxは既にサードパーティCookieを既定でブロックし[1][2]、StatCounterの公表値ではChromeが依然として世界シェアのおおむね60%前後を占める状況[3]が続いています。Chromeの段階的な制限・見直しが進む[4][7]一方で、同意管理の運用やデータ移送の制約[5]により、オーディエンスターゲティングの到達可能量はプラットフォームや市場によって揺らぎます。公開情報を整理すると、ユニバーサルな識別子に依存しない手法の再設計は不可避であり、その中核に位置づけられるのが「コンテキストターゲティング(配信面の文脈に基づく広告配信)」です。

ここで言うコンテキストは単なるキーワード一致に止まりません。ページやアプリの内容、意図、トーン、リスクの含有、そして供給側(SSP/媒体)からのメタデータまでを包含する多面的な文脈信号です。コンテンツの意味理解を機械学習で行い、入札判定に反映する仕組みは、プライバシー配慮の観点でも運用の安定性でも効果的に機能します。本稿では、CTOやエンジニアリングリーダーが即日プロトタイプ可能なレベルで、信号収集・分類器・OpenRTB連携・ブランドセーフティ・計測という実装面を掘り下げます。

なぜ今コンテキストターゲティングか

行動ベースのターゲティングは、識別子の寿命や同意状態に影響されやすいという構造的な脆弱性があります。反対に、コンテキストは供給側のコンテンツに付随するため、同意に左右されないシグナルとして扱える場面が多いのが実務上の利点です。さらにIAB Tech LabのOpenRTB 2.6では(OpenRTBは広告入札の標準プロトコル)、サイトやアプリのカテゴリ、ページレベルのメタデータ、在庫品質の表現が拡充され[6][9][10]、買い手から見た文脈理解への橋渡しがしやすくなっています。Privacy SandboxのTopics APIのようにブラウザ側で粗粒度の興味トピックを露出する設計も登場しましたが[7]、媒体面の文脈を直接解釈するコンテキスト手法は、Topicsの有無に関わらず併用できる普遍的な軸になります。

ビジネス面では、コンテキストのメリットは到達規模の安定性にあります。特定IDのマッチングに依存しないため在庫の可用性が広く、プレースメントの最適化やクリエイティブのバリアント最適化と相性が良いのです。運用現場では、ブランドセーフティを前段で担保しつつ、カテゴリ粒度を媒体・市場に合わせて可変に保つと、パフォーマンスとスケールを同時に確保しやすくなります。ここからは、エンジニアが設計しやすい分割統治で、信号、モデル、入札、計測へと踏み込みます。

オークション設計の観点で見た信号面の再構築

入札の判断に使える信号は大別して、交換経由で渡されるメタデータ、クローラ等で自前収集するコンテンツ信号、そしてサプライサイドが付与する品質・可視性などの運用信号の三層に分かれます。Cookieレス化が進むほど、前者の識別子由来の強いシグナルは希薄になり、後者のコンテンツ理解が相対的に重要になります。重要なのは、分類器の推論レイテンシとRTBのタイムアウトを両立させること、そしてサプライ側のカテゴリ付与と自社推論の矛盾を解決するポリシーを最初から定めておくことです。

アーキテクチャ設計と実装の基礎

最小構成では、コンテンツ取得・正規化、テキストのベクトル化、カテゴリ分類、ブランドセーフティの評価、スコアのキャッシュ、RTB判定という流れになります。バッチでの事前分類と、RTBの同期判定をハイブリッドにする設計が運用では安定します。ここでは外部依存を抑え、学習・推論を内製できるサンプルを示します。

ページテキストの抽出と正規化

最初に、URLから主要本文を抽出して正規化します。読み込み時のエラーや変則的なHTMLも珍しくないため、フェイルセーフを備えた実装にしておくと運用事故を防げます。なお、クロールの実施にあたっては各サイトの利用規約やrobots.txtを遵守してください。

# サンプル1: コンテンツ取得と本文抽出(フェイルセーフ付き)
import requests
from bs4 import BeautifulSoup

USER_AGENT = "Mozilla/5.0 (compatible; ContextCrawler/1.0)"

def fetch_main_text(url: str, timeout: int = 5) -> str:
    try:
        r = requests.get(url, headers={"User-Agent": USER_AGENT}, timeout=timeout)
        r.raise_for_status()
    except requests.RequestException as e:
        # 取得失敗時は空文字を返し、上位でスキップ
        return ""

    try:
        soup = BeautifulSoup(r.text, "html.parser")
        # script, style, navなど非本文を除去
        for tag in soup(["script", "style", "noscript", "header", "footer", "nav", "aside"]):
            tag.decompose()
        text = soup.get_text(" ", strip=True)
    except Exception:
        return ""

    return text[:20000]  # 極端な長文は切り詰めて安全側に

if __name__ == "__main__":
    sample = fetch_main_text("https://example.com/article")
    print(sample[:200])

抽出したテキストは、言語ごとの形態素解析器に依存せずとも、N-gramベースの文字特徴で十分に高い再現性が得られるケースが多いです。学習データが限られる初期段階では特に有効です。

IABカテゴリ準拠のコンテキスト分類器

次に、IAB Tech Labのコンテンツ分類(IAB Content Taxonomy v2.x)に沿ったカテゴリ分類器を構築します。実運用では媒体や業種に最適化したサブカテゴリを定義し、カスタムマップで集約・拡張可能にしておくと拡張性が増します(IABは広告業界の標準化団体です)。

# サンプル2: 文字N-gram + ロジスティック回帰でIABカテゴリ分類
from typing import List, Tuple
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder
import joblib

IAB_LABELS = [
    "IAB1-6 Sports", "IAB2-3 Investing", "IAB7-3 Food & Drink",
    "IAB9-9 Technology & Computing", "IAB11-4 Health & Fitness"
]

def build_classifier(train_texts: List[str], train_labels: List[str]) -> Tuple[Pipeline, LabelEncoder]:
    le = LabelEncoder()
    y = le.fit_transform(train_labels)
    # 日本語でも効く文字N-gram。初期は2-4あたりが扱いやすい
    vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 4), min_df=2)
    clf = LogisticRegression(max_iter=200, n_jobs=1)
    pipe = Pipeline([('tfidf', vec), ('lr', clf)])
    pipe.fit(train_texts, y)
    return pipe, le

def predict_categories(pipe: Pipeline, le: LabelEncoder, text: str, top_k: int = 3):
    import numpy as np
    probs = pipe.predict_proba([text])[0]
    idx = probs.argsort()[::-1][:top_k]
    return [(le.inverse_transform([i])[0], float(probs[i])) for i in idx]

if __name__ == "__main__":
    # デモ用の極小データ(実運用は数万件〜)
    X = [
        "試合 結果 サッカー 日本代表 ゴール",
        "株式 市場 金利 ETF 投資家",
        "レシピ カレー 煮込む 具材",
        "クラウド インフラ API セキュリティ",
        "有酸素運動 筋トレ 食事 バランス"
    ]
    y = [
        "IAB1-6 Sports", "IAB2-3 Investing", "IAB7-3 Food & Drink",
        "IAB9-9 Technology & Computing", "IAB11-4 Health & Fitness"
    ]
    pipe, le = build_classifier(X, y)
    print(predict_categories(pipe, le, "サッカー 日本 代表 ワールドカップ"))
    joblib.dump((pipe, le), "context_clf.joblib")

初期のモデルは単純でも構いません。重要なのは、予測トップKの確信度と媒体側の付与カテゴリを突き合わせ、相反する場合の解決規則をポリシー化することです。例えば、IAB大分類の一致を優先し、細分類は自社推論を参照するような層別の合意形成を事前に設けると、運用の一貫性が保てます。

ブランドセーフティとトーン管理

ブランドセーフティは配信の質を守るだけでなく、コンテキストスコアの信頼性を支える前提条件です。GARM(業界横断のブランド適合性フレームワーク)の考え方に沿ったリスク領域を定義し[8]、コンテンツの文脈評価と可視性・ビューアビリティなどの運用シグナルを合わせて判定します。ここではヒューリスティクスに機械学習を組み合わせる最低限の実装例を示します。

# サンプル3: 簡易ブランドセーフティ評価(ヒューリスティクス)
import re
from dataclasses import dataclass
from typing import Dict

BLOCK_PATTERNS = [
    re.compile(r"暴力|テロ|違法薬物"),
    re.compile(r"差別|ヘイト|扇動"),
    re.compile(r"成人向け|ポルノ|出会い系")
]

@dataclass
class SafetyResult:
    safe: bool
    score: float  # 1.0 = 完全安全, 0.0 = 危険
    reason: str

def safety_score(text: str) -> SafetyResult:
    if not text:
        return SafetyResult(safe=False, score=0.0, reason="empty")
    penalties = 0
    for pat in BLOCK_PATTERNS:
        if pat.search(text):
            penalties += 1
    # 長文でリスク語が希薄な場合にスコアを戻す簡易補正
    length_factor = min(len(text) / 5000.0, 1.0)
    base = 1.0 - 0.4 * penalties
    score = max(0.0, min(1.0, base * (0.7 + 0.3 * length_factor)))
    return SafetyResult(safe=score >= 0.6, score=score, reason=f"penalties={penalties}")

if __name__ == "__main__":
    print(safety_score("健全なレシピ記事です。"))
    print(safety_score("暴力描写を含むレビュー記事。"))

ヒューリスティクスは過検出の温床になり得ます。実運用では、否定表現の扱いやニュース記事の文脈を誤認しないよう、モデル化と人手レビューを併用し、誤判定が業績に与える影響をサンプリングで常時監視します。媒体やカテゴリごとにセーフティの閾値を変える運用は効果的で、一般紙では厳しめ、専門メディアでは少し緩めるなどの調整が現実解です。より高度な安全判定は、外部ベンダーのスコアと自社スコアをアンサンブルする設計が再現性と監査性の両立に寄与します。

RTB連携と入札ロジックへの落とし込み

分類器の出力を入札に接続する段で重要なのは、レイテンシの上限と、OpenRTBの仕様に沿ったフィールド設計の整合です。OpenRTB 2.6では、コンテンツに関する構造が拡充され、サイトのカテゴリやページレベルの性質がより明示的に渡されます[9][10]。自社推論の結果と交換経由のカテゴリを突合し、ブランドセーフティを上位に据えてスコアを統合した上で、動的なフロアやクリエイティブのバリアント選択に繋げます。

OpenRTBの入札判定にコンテキストを適用

以下はBidRequestの抜粋を想定した単純化サンプルです。実運用ではタイムアウト管理、ゴール別のBidding Policy、ダイナミッククリエイティブとの連携が加わります(DSP/SSP間のSLAに留意)。

# サンプル4: OpenRTB 2.6相当の入札判定(簡易)
import json
from typing import Optional, Dict, Any, List, Tuple

# 事前学習済み分類器をロード
import joblib
pipe, le = joblib.load("context_clf.joblib")

PREFERRED_IAB = {"IAB9-9 Technology & Computing": 1.0, "IAB2-3 Investing": 0.8}
BASE_BID_CPM = 2.0  # USD想定の例。実務は通貨とレートを統一


def decide_bid(bid_request: Dict[str, Any]) -> Optional[Dict[str, Any]]:
    site = bid_request.get("site", {})
    page_url = site.get("page", "")
    supply_cats = set(site.get("cat", []))  # 交換経由カテゴリ

    text = fetch_main_text(page_url)
    safety = safety_score(text)
    if not safety.safe:
        return None

    preds: List[Tuple[str, float]] = predict_categories(pipe, le, text, top_k=3)
    # 交換カテゴリと自社予測が重なるほどスコアを上げる
    score = 0.0
    for label, prob in preds:
        prior = PREFERRED_IAB.get(label, 0.5)
        agree = 0.2 if label in supply_cats else 0.0
        score = max(score, prob * (0.8 * prior + agree))

    if score < 0.4:
        return None

    price = BASE_BID_CPM * (0.5 + score)  # 単純な線形マップ
    resp = {
        "id": bid_request["id"],
        "seatbid": [{
            "bid": [{
                "impid": bid_request["imp"][0]["id"],
                "price": round(price, 3),
                "ext": {"ctx": {"score": round(score, 3), "labels": preds, "safety": safety.score}}
            }]
        }]
    }
    return resp

if __name__ == "__main__":
    sample_br = {
        "id": "123",
        "site": {"page": "https://example.com/tech/news123", "cat": ["IAB9-9 Technology & Computing"]},
        "imp": [{"id": "1"}]
    }
    bid = decide_bid(sample_br)
    print(json.dumps(bid, ensure_ascii=False, indent=2))

入札の中核に置くのはスコアの安定性です。バッチ前処理でURL→カテゴリ→セーフティのキャッシュを持ち、RTB側ではキャッシュヒット時のみ即時応答、ミス時は安全側の既定値を使う方針にすると、SLOを守りつつ精度劣化を最小限にできます。回線品質やオーソリティの低いページは抽出精度が落ちるため、サプライ側カテゴリへの優先度を一段上げるなどの保険も有効です。

効果検証とアトリビューションの土台

最後に、文脈が成果にどう寄与したかを定量で捉えます。クリエイティブやプレースメントと交絡しやすいため、テスト設計は広告セットの分割や地理・時間での交互作用を最小化する工夫が要ります。計測は、面カテゴリ×クリエイティブ×配信路線の三軸で抑え、CTR(クリック率)とCVR(コンバージョン率)、可能なら収益貢献(RPM等)をあわせて見ると解釈が安定します。

-- サンプル5: BigQueryでコンテキスト別の成果指標を集計
WITH base AS (
  SELECT
    dt,
    campaign_id,
    context_label,            -- 自社分類器の推定ラベル
    supply_cat,               -- 交換経由カテゴリ
    impressions,
    clicks,
    conversions,
    revenue
  FROM `project.dataset.daily_performance`
  WHERE dt BETWEEN DATE_SUB(CURRENT_DATE(), INTERVAL 28 DAY) AND CURRENT_DATE()
)
SELECT
  context_label,
  COUNT(*) AS days,
  SUM(impressions) AS imps,
  SAFE_DIVIDE(SUM(clicks), SUM(impressions)) AS ctr,
  SAFE_DIVIDE(SUM(conversions), SUM(clicks)) AS cvr,
  SAFE_DIVIDE(SUM(revenue), SUM(impressions)) AS rpm
FROM base
GROUP BY context_label
HAVING imps > 10000
ORDER BY rpm DESC;

この水準の集計を日次で回し、異常検知やトレンドブレイクの検出をジョブ化しておくと、モデルやポリシー更新のタイミングを逃しません。供給カテゴリと自社カテゴリの一致・不一致に分割して見ると、どちらの分類に寄せるべきかの実証が得られます。加えて、クリエイティブのトーンを文脈に合わせて可変にするダイナミック最適化は、コンテキストとの相性が良い運用です。クリエイティブの生成や選択に踏み込む場合は、ガバナンスと承認フローを先に設計し、ブランドセーフティの閾値と結びつけて一貫した判断ができる状態を目指してください。

導入・運用のポイントとROIの見立て

導入はスコアが答えを出しやすい領域から始めるのが良策です。媒体やカテゴリによっては学習データが少なく、精度が伸びにくい場合がありますが、その場合でもブランドセーフティと粗粒度のカテゴリ判定だけで十分な価値を出せることが多いのが実務の感触です。内製・外部のどちらを選ぶにせよ、レイテンシと監査性を最初からKPIに組み込み、サプライ側のカテゴリと自社推論の優先度ルールを文書化します。推論の説明可能性は営業・クライアント折衝でも強力な武器になります。

ROIの見立ては、到達規模の増分と、オーディエンスに依存しない継続配信の安定価値で捉えるのが実務的です。一般的なテキスト中心の媒体在庫では、文字N-gramと線形モデルの組み合わせでも実用水準に達することが多く、サーバーあたりのスループットはレイテンシ制約を満たす限り十分な水準になり得ます。事前キャッシュのヒット率が高い運用では、RTB側の追加レイテンシを単一桁ミリ秒に抑えられることがあります。画像や動画中心の在庫では、メタデータと周辺テキストの活用、あるいは軽量な視覚特徴の併用で段階的に拡張していくのが堅実です。

関連領域として、サーバーサイドでの信号整流は重要な土台です。

まとめ

Cookieレス環境における広告配信は、識別子の代替を探す発想から、文脈を丁寧に理解して使いこなす発想へと軸足を移しています。供給側が持つメタデータと、自社の機械学習による文脈推論を重ね合わせ、ブランドセーフティで土台を固める構成は、短期のスケールと中長期の持続性の両方に寄与します。本稿で示したテキスト抽出、N-gramベース分類、セーフティ判定、OpenRTB連携、そして効果測定の一連の実装は、初期のプロトタイプとして十分に機能し、将来的な高度化にも耐えられる作りです。

重要なのは、スコアの精度と同じくらい、そのスコアがどのように生まれ、どのように入札と運用に反映されるかをいつでも説明できる体制です。まずは既存キャンペーンの一部で文脈スコアのA/Bを走らせ、日次での指標監視とレビューを定着させてみませんか。次に取り組むべきは、カテゴリの粒度最適化と、クリエイティブのトーン適応です。小さく始めて、確実に積み上げる。この工程こそが、Cookieレス時代の配信を強くします。

参考文献

  1. Apple’s Safari now blocks all third-party cookies by default — The Verge
  2. Disable third-party cookies in Firefox (Enhanced Tracking Protection) — Mozilla Support
  3. Browser Market Share Worldwide — StatCounter Global Stats
  4. The Privacy Sandbox: Chrome’s third-party cookie deprecation — cookie countdown (Oct 2023) — Google Developers
  5. Will Targeted Advertising Survive Privacy Legislation? — VKTR
  6. OpenRTB 2.6 Specifications (Overview) — Smaato Developers
  7. Cookie deprecation timelines and CMA oversight (Privacy Sandbox) — Google Developers
  8. GARM Brand Suitability: Developing a Collaborative Interpretation of the Standard — IAB Tech Lab
  9. OpenRTB 2.6 Specifications — cat field (IAB Content Categories) — Smaato Developers
  10. OpenRTB 2.6 Specifications — pagecat field (Page-level categories) — Smaato Developers