このページで分かること
静的HTMLサイトでcanonicalを確認する方法、自己URL canonicalの考え方、query付きURL、wwwありなし、httpとhttpsの扱い、sitemapとの整合性を確認できます。
canonicalを確認する理由
同じ内容に複数URLでアクセスできる場合、どのURLを正規として扱いたいかを伝える必要があります。canonicalが間違うと、評価したいページとは別のURLを示してしまうことがあります。
Codexに任せられる作業
- 全HTMLにcanonicalがあるか確認する
- canonicalが自己URLか確認する
- sitemap掲載URLとcanonicalが合っているか確認する
- 末尾スラッシュの違いを確認する
- httpとhttpsが混ざっていないか確認する
- wwwありなしが混ざっていないか確認する
人間が確認する作業
サイト全体でどのURLを正規にするかは、人間が方針を決めます。Codexには現在の状態の一覧化を任せ、http/httpsやwwwの扱いはサーバー設定やドメイン方針と合わせて判断します。
よくある失敗
- 別ページのcanonicalをコピーしたまま残す
- トップページと下層ページでURL形式が混ざる
- sitemapはhttpsなのにcanonicalがhttpになる
- noindexとの違いを混同する
- query付きURLをそのまま正規URLにしてしまう
Codexへの指示文例
目的:
静的HTMLサイトのcanonicalを確認する
確認:
全HTMLにcanonicalがある
canonicalが自己URLになっている
sitemap.xml掲載URLと一致している
httpsで統一されている
末尾スラッシュが統一されている
noindexとの混同がない
停止:
.htaccess変更が必要そうな場合
サーバー設定の判断が必要な場合canonicalチェックリスト
- canonicalが1ページに1つだけある
- 自己URLを向いている
- sitemapと一致している
- httpsで統一している
- wwwの扱いが混ざっていない
- noindexと役割を混同していない
実務での使い方
静的サイトでページを追加する時は、HTMLを複製して作ることが多いため、canonicalのコピー残りが起きやすくなります。Codexには、新規ページのURL、canonical、sitemap掲載URLを並べて確認させると、ズレを早く見つけられます。
canonicalは「このページを見せたくない」という指定ではありません。見せたくないページの扱い、robots.txtの制御、noindexの扱いとは役割が違います。判断に迷う場合は、Codexに修正させる前に、現在の状態とリスクだけを報告させるのが安全です。
報告書に残すこと
報告書では、各ページのURL、canonical、sitemap掲載状況、http/https、wwwありなし、末尾スラッシュの扱いを一覧にします。サーバー設定や.htaccess変更が必要そうな場合は、変更せず停止条件として残します。
静的サイトで特に見るところ
静的HTMLでは、物理ディレクトリごとにindex.htmlを置く構成が多くなります。この場合、公開URLは通常ディレクトリ形式になり、canonicalもそのURLに合わせます。ファイル名付きURL、末尾スラッシュなしURL、query付きURLを混ぜると確認が難しくなります。
Codexには、ページURL、HTMLファイル、canonical、sitemapの4点を同じ表で確認させると、どこがズレているか判断しやすくなります。
canonicalのズレを調査した実践ログ
canonicalはすぐ直さず、内部リンク、sitemap、表示差分を確認してから最小修正するのが安全です。