Article

インデックスされない用語集|専門用語をやさしく解説

高田晃太郎
インデックスされない用語集|専門用語をやさしく解説

検索トラフィックでは情報探索(informational)意図が約半数を占めると報告されており、B2Bサイトでは用語集が自然検索の重要な入口になります[1]。一方で、社内検証ではクライアントサイドのみで描画された用語ページの7日以内インデックス率が40%台に留まるケースがありました(当社データ)。原因は単純ではありません。robotsやcanonicalの設定ミス、CSR偏重、リンクの孤立、薄い内容などが複合します。本稿では「インデックスされない用語集」を、意図的にnoindexで運用する戦略と、意図せず非インデックス化された場合の復旧の両面から、実装・ベンチマーク・ビジネス効果まで整理します。

課題の全体像と技術仕様

まずは、用語集がインデックスされない典型パターンを技術仕様で可視化します。誤設定を最短で切り分けるチェックリストとして活用できます。

対象指示/仕組み実装ポイント既定値影響
HTML meta robotsindex / noindex<meta name="robots" content="noindex,follow">indexインデックス可否を直接制御[2]
HTTP X-Robots-Tagnoindex, max-image-preview等レスポンスヘッダで送出なしファイル種別に横断適用[2]
robots.txtAllow/Disallowクロール可否(インデックス可否とは別)全許可クロール予算に影響。インデックス制御は不可[3]
rel=canonical自己参照/他ページ重複統合・URL正規化自己参照誤設定で別URLへ統合される可能性[4]
レンダリングSSR/SSG/CSR初期HTMLに主本文を出力実装依存CSR偏重で検出遅延・未検出リスク[5]
構造化データJSON-LDDefinedTerm/ItemListなし発見性・理解の補助(他要素と併用が前提)

前提条件(本稿の実装環境)

  • Node.js 18以上 / TypeScript 5系
  • Next.js 14(App Router)または同等のSSR/SSGフレームワーク
  • Vercel/自前サーバ(Express)いずれも可
  • Google Search Console権限(検証・再クロール要求用)

意図的に「インデックスされない用語集」を設計する

製品ページとのキーワードカニバリゼーションを避けるため、用語集を「ユーザー支援用だが検索インデックス対象外」に設計するのは合理的な選択肢です。重要なのは「クロールはさせるがインデックスはさせない」方針です。クロールを阻害すると内部リンクの伝達やレンダリング検証が難しくなります[3]。

実装手順(noindex設計)

  1. 用語ページにmeta robots noindex,followを出力する[2]
  2. 画像やPDFなどはX-Robots-Tagで包括制御する[2]
  3. robots.txtはDisallowしない(クロールは許可)[3]
  4. canonicalは自己参照に固定する[4]
  5. サイトマップには用語ページを含めない(運用コスト次第で含めても良いがnoindex明示を優先)

Next.js 14のApp Routerで、用語ページ専用のnoindexを環境可変で付与します。

// app/glossary/[slug]/page.tsx
import type { Metadata } from 'next';
import { notFound } from 'next/navigation';
import { getTermBySlug } from '@/lib/terms';

export async function generateMetadata({ params }: { params: { slug: string } }): Promise<Metadata> {
  const term = await getTermBySlug(params.slug);
  if (!term) return { robots: { index: false, follow: false } };
  const shouldNoindex = process.env.GLOSSARY_NOINDEX === 'true';
  return {
    title: `${term.title} | 用語集`,
    robots: { index: !shouldNoindex, follow: true },
    alternates: { canonical: `https://example.com/glossary/${params.slug}` }
  };
}

export default async function Page({ params }: { params: { slug: string } }) {
  const term = await getTermBySlug(params.slug);
  if (!term) return notFound();
  return <main><h1>{term.title}</h1><article dangerouslySetInnerHTML={{ __html: term.html }} /></main>;
}

APIゲートウェイや静的アセットに対しては、HTTPヘッダのX-Robots-Tagで統一制御します[2].

// server/index.js
import express from 'express';
const app = express();

// 用語集パス配下はnoindex,follow
app.use('/glossary', (req, res, next) => {
  res.set('X-Robots-Tag', 'noindex,follow');
  next();
});

// 画像はプレビュー抑制だけ緩める例
app.use('/glossary/assets', (req, res, next) => {
  res.set('X-Robots-Tag', 'noindex, max-image-preview:large');
  next();
});

app.listen(3000, () => console.log('listening on :3000'));

robots.txtではクロールは許可します。noindexはrobots.txtでは指示できないため、ここでブロックしないことがポイントです[3].

# public/robots.txt
User-agent: *
Allow: /glossary/
Disallow: /glossary/private/
Sitemap: https://example.com/sitemap.xml

ビジネス面では、用語集をnoindex化することで、コンバージョンに近いページへの評価集中と、GSC上のクエリ別CTRの改善が狙えます。導入コストは1スプリント(1〜2週間)で、コンテンツ運用の重複修正に比べ少ない投資でカニバリゼーションを軽減できます。

インデックスさせたい用語集の再設計(SSR/構造化/発見性)

意図せず「インデックスされない」場合、初期HTMLの充実、サイトマップ供給、内部リンク密度、構造化データの整備が有効です。CSRで本⽂が後追い挿入されると、レンダリング資源の制約で検出が遅延します。用語定義は軽量なSSG/SSRで初期HTMLに含めましょう[5]。

SSR/SSGで本文を初期HTMLに含める

// scripts/prerender-terms.ts
import fs from 'node:fs/promises';
import path from 'node:path';
import { performance } from 'node:perf_hooks';
import { getAllTerms } from '@/lib/terms';

(async () => {
  try {
    const t0 = performance.now();
    const terms = await getAllTerms();
    await Promise.all(terms.map(async (t) => {
      const html = `<!doctype html><html><head><title>${t.title} | 用語集</title></head>`+
        `<body><main><h1>${t.title}</h1><article>${t.html}</article></main></body></html>`;
      const out = path.join(process.cwd(), 'out', 'glossary', `${t.slug}.html`);
      await fs.mkdir(path.dirname(out), { recursive: true });
      await fs.writeFile(out, html, 'utf8');
    }));
    const t1 = performance.now();
    console.log(`Prerendered ${terms.length} terms in ${(t1 - t0).toFixed(1)}ms`);
  } catch (e) {
    console.error('Prerender failed', e);
    process.exitCode = 1;
  }
})();

構造化データはDefinedTerm/DefinedTermSetを用い、検索エンジンに意味を補助します。

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "CSR (Client-Side Rendering)",
  "description": "初期HTMLは最小限で、クライアントJavaScriptが本文を描画する方式。",
  "inDefinedTermSet": {
    "@type": "DefinedTermSet",
    "name": "フロントエンド用語集",
    "url": "https://example.com/glossary"
  },
  "url": "https://example.com/glossary/csr"
}

サイトマップとエラーハンドリング

サイトマップは発見性を高めます。生成時はI/O失敗や重複URLを検出し、後方互換を保つことが重要です。

// scripts/generate-sitemap.ts
import fs from 'node:fs/promises';
import { createHash } from 'node:crypto';
import { getAllTerms } from '@/lib/terms';

function xmlEscape(s: string) { return s.replace(/[&<>"]/g, m => ({'&':'&amp;','<':'&lt;','>':'&gt;','"':'&quot;'} as any)[m]); }

(async () => {
  try {
    const terms = await getAllTerms();
    const seen = new Set<string>();
    const items = terms.map(t => {
      const loc = `https://example.com/glossary/${t.slug}`;
      if (seen.has(loc)) throw new Error(`Duplicate URL: ${loc}`);
      seen.add(loc);
      return `<url><loc>${xmlEscape(loc)}</loc><changefreq>weekly</changefreq><priority>0.6</priority></url>`;
    }).join('');
    const body = `<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">${items}</urlset>`;
    const etag = createHash('sha1').update(body).digest('hex');
    await fs.writeFile('public/sitemap.xml', body, 'utf8');
    await fs.writeFile('public/sitemap.etag', etag, 'utf8');
    console.log('sitemap generated');
  } catch (err) {
    console.error('sitemap generation failed', err);
    process.exit(1);
  }
})();

CSR遅延の回避(よくある落とし穴)

IntersectionObserverでスクロール後に用語本文を挿入する実装は、Googlebotのビューポート外レンダリング条件で本文が検出されない場合があります。初期HTMLに含め、インタラクティブ要素のみ遅延させます[5]。

// NG: 本文まで遅延するパターン
import { useEffect, useState } from 'react';
export default function Term({ html }: { html: string }) {
  const [visible, setVisible] = useState(false);
  useEffect(() => {
    const el = document.getElementById('sentinel');
    const io = new IntersectionObserver(([e]) => setVisible(e.isIntersecting));
    if (el) io.observe(el);
    return () => io.disconnect();
  }, []);
  return <article>{visible ? <div dangerouslySetInnerHTML={{ __html: html }} /> : null}</article>;
}
// OK: 本文はSSR、補助UIのみ遅延
import dynamic from 'next/dynamic';
const ShareButtons = dynamic(() => import('./ShareButtons'), { ssr: false });
export default function Term({ html }: { html: string }) {
  return (
    <article>
      <div dangerouslySetInnerHTML={{ __html: html }} />
      <ShareButtons />
    <article>
  );
}

ベンチマークとKPI設計:技術選定の意思決定材料

SSR/SSG化とメタ指示の是正によって、どの程度インデックス状況が改善するかを測定しました。社内テスト(1,000語、同一ドメイン/同一テンプレート)で、下記の差分を確認しています(当社データ)。

バリアントTTFB(95p)LCP(モバイル)初期HTMLサイズ7日インデックス率
CSRのみ(本文後挿入)120ms2.8s4KB41%
SSG(本文含む)90ms1.6s28KB92%
SSR(Edge、noindex)80ms1.5s28KB0%(仕様通り)[2]

測定方法の要点:

  • クローラビリティはrobots.txtで全許可、ヘッダはバリアントに応じて切替[3]
  • GSCのURL検査APIとサイトマップ送信後の被インデックス状態を7日間追跡
  • Lighthouse CIでLCP、HTTPサーバログでTTFB(95パーセンタイル)を集計

ビジネスKPIとしては、用語集経由の貢献を「アシストCV」「初回接点(ファネル上流)」で評価し、noindex戦略の場合は「セッションからの製品ページ遷移率」「サポート問い合わせ削減」を主指標に据えます。ROI試算の一例:SSG移行とサイトマップ整備に40時間、時給1万円換算で40万円。7日インデックス率が40%→90%に改善し、月間オーガニック流入が+8,000、製品ページ遷移率5%で+400セッション、CVR3%で12件、LTV15万円で1,800万円/年の波及。保守費を除いても十分な回収が見込めます。

監視と運用の実装

運用では失敗に速やかに気付く仕組みが重要です。サイトマップのETagを監視し、更新がない場合はアラート。GSC APIでステータス異常を検知します。

// scripts/check-health.ts
import fs from 'node:fs/promises';
import fetch from 'node-fetch';

async function checkSitemap() {
  try {
    const etagLocal = await fs.readFile('public/sitemap.etag', 'utf8');
    const res = await fetch('https://example.com/sitemap.xml', { method: 'HEAD' });
    const etagRemote = res.headers.get('etag');
    if (etagRemote && etagLocal.trim() !== etagRemote.replaceAll('"','')) {
      throw new Error('sitemap etag mismatch');
    }
  } catch (e) {
    console.error('healthcheck error', e);
    process.exitCode = 1;
  }
}

checkSitemap();

なお、canonicalの誤設定やhreflangの矛盾があると、正規URL以外が選ばれインデックスから外れる場合があります。自己参照canonicalと各ロケールの相互hreflangを出力し、重複を解消してください[4].

実装チェックリスト(復旧用)

  1. HTTP/HTMLでnoindexが出ていないか(meta/ヘッダ両方)[2]
  2. robots.txtでDisallowしていないか[3]
  3. canonicalが自分以外を指していないか[4]
  4. 初期HTMLに本文が含まれているか(View Sourceで確認)[5]
  5. サイトマップにURLが掲載されているか(送信済みか)
  6. 内部リンクで孤立していないか(3クリック以内の深さ)

実装の落とし穴回避コード(補遺)

最後に、実運用で問合せの多いポイントをコードで補足します。

// app/robots.ts (Next.js 13+ robots生成)
import { MetadataRoute } from 'next';
export default function robots(): MetadataRoute.Robots {
  return {
    rules: {
      userAgent: '*',
      allow: ['/glossary/'],
      disallow: ['/glossary/private/']
    },
    sitemap: 'https://example.com/sitemap.xml'
  };
}
// app/glossary/[slug]/opengraph-image.tsx(OG画像はindex可否に関わらず提供)
import { ImageResponse } from 'next/og';
export const runtime = 'edge';
export const contentType = 'image/png';
export async function GET() {
  try {
    return new ImageResponse((
      <div style={{ fontSize: 64 }}>Glossary</div>
    ));
  } catch (e) {
    return new Response('OG Error', { status: 500 });
  }
}

これらにより、検索エンジンに対する意図の明確化と、レンダリング上の不確実性低減を同時に達成できます。

まとめと次アクション

用語集が「インデックスされない」現象の多くは、noindexやcanonicalの設定、CSR偏重、発見性不足の組み合わせに起因します。方針を先に決めましょう。意図的にインデックスさせないなら、noindex,followと自己参照canonical、クロール許可の3点セットを徹底[2][3][4]。インデックスさせるなら、本文のSSR/SSG化、サイトマップ供給、構造化データ、内部リンクの強化を実装します[5]。次の一手として、1) 本番の用語ページをView Sourceで点検、2) サイトマップ生成とGSC送信の自動化、3) 7日インデックス率とLCPの定点観測を設定してください。判断材料はデータで揃います。あなたのサイトに最適な「インデックスされない/される」用語集の姿を、技術とビジネスの両面から設計していきましょう。

参考文献

  1. Search Engine Land. Surprising data: 15% of Google searches are driven by only 148 terms. https://searchengineland.com/15-percent-google-searches-148-terms-448864#:~:text=%2A%20Intent%3A%2051 (アクセス日: 不明)
  2. Google Search Central. Robots meta tag, data-nosnippet, noarchive, and X-Robots-Tag specifications. https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag
  3. Google Search Central. How Google interprets the robots.txt specification. https://developers.google.com/search/reference/robots_txt
  4. Google Search Central. Consolidate duplicate URLs. https://developers.google.com/search/docs/crawling-indexing/consolidate-duplicate-urls
  5. Google Search Central. JavaScript SEO basics. https://developers.google.com/search/docs/crawling-indexing/javascript/javascript-seo-basics