robots.txt와 canonical을 점검하며 확인한 색인 기본 조건


Search Console에 사이트를 등록한 뒤에는 “구글이 실제로 이 페이지를 가져갈 수 있는가”를 확인해야 합니다.

Daejin Lab에서는 sitemap을 고친 뒤, 글 상세 페이지 기준으로 색인 기본 조건을 점검했습니다.

확인한 robots.txt

현재 robots.txt는 단순합니다.

User-agent: *
Allow: /

Sitemap: https://daejin-lab-blog.pages.dev/sitemap-index.xml

이 설정은 모든 검색엔진에게 사이트 접근을 허용하고, sitemap 위치를 알려줍니다.

canonical 확인

글 상세 페이지의 canonical은 현재 공개 URL을 가리켜야 합니다.

예를 들어 아래 글은:

https://daejin-lab-blog.pages.dev/blog/ai-agent-good-bad-tasks/

canonical도 같은 주소를 가리키는지 확인했습니다.

https://daejin-lab-blog.pages.dev/blog/ai-agent-good-bad-tasks/

이 값이 예전 도메인 후보나 다른 주소를 가리키면 검색엔진이 혼동할 수 있습니다.

noindex와 x-robots-tag

페이지 안에 noindex가 있으면 검색엔진이 색인하지 않을 수 있습니다. 서버 응답 헤더의 x-robots-tag도 마찬가지입니다.

점검 기준은 아래와 같습니다.

HTML 안에 noindex 없음
응답 헤더에 x-robots-tag 없음
HTTP 상태 200
content-type: text/html

Daejin Lab의 샘플 글에서는 이 조건이 정상으로 확인됐습니다.

sitemap과 함께 봐야 한다

색인 가능성은 robots.txt 하나만 보고 판단하기 어렵습니다. 아래를 같이 봐야 합니다.

robots.txt
sitemap-index.xml
sitemap-0.xml
canonical URL
noindex 여부
HTTP 상태 코드

이번 점검에서는 sitemap URL 27개가 정상적으로 확인됐고, 예전 daejinlab.com 주소도 남아 있지 않았습니다.

결론

정적 블로그에서 색인 문제가 생기면 글 내용보다 기술 설정을 먼저 확인해야 할 때가 있습니다.

Daejin Lab에서는 robots.txt, sitemap, canonical, noindex, 응답 헤더를 확인해 기본 색인 조건을 점검했습니다. Search Console 화면의 상태가 늦게 바뀌더라도, 사이트 쪽 기본 조건은 먼저 정상으로 맞춰두는 것이 중요합니다.