Codexでrobots.txtを確認した実践ログ型ガイド｜sitemap行とブロック設定の見方

今回やった作業

今回の作業では、公開中サイトのrobots.txtを確認しました。目的は、sitemap行があるか、必要なページをDisallowしていないか、robots.txt自体が200 OKで取得できるかを見ることです。編集よりも確認を優先し、変更が必要かどうかを判断する作業として進めました。

作業前の状態

作業前の状態では、robots.txtを変更する必要があるかどうかが未確定でした。robots.txtは短いファイルですが、Disallowの指定を誤ると、必要なページがクロール対象から外れる可能性があります。そのため、最初から追記や修正をさせず、まず現在の内容を読み取る指示にしました。

作業前に問題だったこと

問題だったのは、robots.txtとnoindexが混同されやすいことです。robots.txtはクロール制御のためのファイルで、ページ単位のインデックス制御とは役割が違います。robots.txtだけを見て「indexされる」「noindexになる」と判断すると危険です。HTML側のrobots metaやcanonicalも別に確認する必要があります。

Codexに任せたこと

robots.txtの現在内容を確認
Sitemap行の有無を確認
AllowとDisallowの指定を整理
noindexとの違いを説明
公開URLで200 OKか確認
変更が必要ない場合は変更しない判断を報告

人間が判断したこと

人間側では、Disallowの指定がサイト運用上問題ないかを判断しました。Codexは構文や一般的な意味を整理できますが、どのディレクトリをクロールさせたいかはサイトの目的によって変わります。公開したいページがブロックされていないか、sitemap行が現在のsitemapを指しているかを見ました。

実際に使った指示文の考え方

指示文では、robots.txtの確認だけを依頼し、変更が必要な場合でも勝手に編集しないようにしました。特に、.htaccess、サーバー設定、DB、cronには触らないことを明記しました。robots.txtは軽そうに見える作業ほど、確認と編集を分ける方が安全です。

うまくいった点

うまくいった点は、robots.txtを「変更するファイル」ではなく「まず読むファイル」として扱えたことです。Sitemap行、Disallow、Allow、HTTPステータスをセットで見ることで、Search Console登録前の基本確認にもつながりました。変更不要と判断することも、立派な作業結果です。

詰まった点・危なかった点

危なかった点は、不要な追記をしてしまうことです。robots.txtは必要最低限で十分なケースもあります。問題がないのにルールを増やすと、あとでなぜその設定があるのか分かりにくくなります。また、robots.txtでブロックしたページは、ページ内のnoindexをクローラーが見られない場合もあるため、使い分けに注意が必要です。

作業後に確認したこと

作業後は、robots.txtの200 OK、Sitemap行、必要なページがDisallowされていないこと、sitemap.xmlの200 OK、HTML側のrobots meta確認が必要であることを整理しました。今回はrobots.txtを変更しない判断を維持しました。

次から使える指示文テンプレート

目的: robots.txtを安全に確認する
対象: robots.txt
やること:
- 現在の内容を読む
- Sitemap行を確認する
- Allow / Disallowを整理する
- 必要なページがブロックされていないか確認する
- noindexとの違いを説明する
やらないこと:
- 勝手に編集しない
- .htaccessを触らない
- サーバー設定を触らない
停止条件:
- Disallowの判断が不明
- 変更が必要そう
報告:
- 現在内容
- 問題の有無
- 変更が必要か

確認チェックリスト

robots.txt が 200 OK
Sitemap行がある
sitemap.xml が 200 OK
必要ページがDisallowされていない
noindexとは別に確認した
変更不要なら変更しない
.htaccessを触っていない
robots.txt変更前にバックアップ方針がある

注意書き

この記事は、実際の作業を一般化してまとめた実践ログ型ガイドです。具体的な案件名、内部情報、サーバーパス、秘密情報は掲載していません。作業対象サイトの条件や利用しているサービスの仕様は変わるため、実際に作業する前には現在の公式情報と自分の環境を確認してください。