robots.txt와 canonical을 점검하며 확인한 색인 기본 조건
Search Console에 사이트를 등록한 뒤에는 “구글이 실제로 이 페이지를 가져갈 수 있는가”를 확인해야 합니다.
Daejin Lab에서는 sitemap을 고친 뒤, 글 상세 페이지 기준으로 색인 기본 조건을 점검했습니다.
확인한 robots.txt
현재 robots.txt는 단순합니다.
User-agent: *
Allow: /
Sitemap: https://daejin-lab-blog.pages.dev/sitemap-index.xml
이 설정은 모든 검색엔진에게 사이트 접근을 허용하고, sitemap 위치를 알려줍니다.
canonical 확인
글 상세 페이지의 canonical은 현재 공개 URL을 가리켜야 합니다.
예를 들어 아래 글은:
https://daejin-lab-blog.pages.dev/blog/ai-agent-good-bad-tasks/
canonical도 같은 주소를 가리키는지 확인했습니다.
https://daejin-lab-blog.pages.dev/blog/ai-agent-good-bad-tasks/
이 값이 예전 도메인 후보나 다른 주소를 가리키면 검색엔진이 혼동할 수 있습니다.
noindex와 x-robots-tag
페이지 안에 noindex가 있으면 검색엔진이 색인하지 않을 수 있습니다. 서버 응답 헤더의 x-robots-tag도 마찬가지입니다.
점검 기준은 아래와 같습니다.
HTML 안에 noindex 없음
응답 헤더에 x-robots-tag 없음
HTTP 상태 200
content-type: text/html
Daejin Lab의 샘플 글에서는 이 조건이 정상으로 확인됐습니다.
sitemap과 함께 봐야 한다
색인 가능성은 robots.txt 하나만 보고 판단하기 어렵습니다. 아래를 같이 봐야 합니다.
robots.txt
sitemap-index.xml
sitemap-0.xml
canonical URL
noindex 여부
HTTP 상태 코드
이번 점검에서는 sitemap URL 27개가 정상적으로 확인됐고, 예전 daejinlab.com 주소도 남아 있지 않았습니다.
결론
정적 블로그에서 색인 문제가 생기면 글 내용보다 기술 설정을 먼저 확인해야 할 때가 있습니다.
Daejin Lab에서는 robots.txt, sitemap, canonical, noindex, 응답 헤더를 확인해 기본 색인 조건을 점검했습니다. Search Console 화면의 상태가 늦게 바뀌더라도, 사이트 쪽 기본 조건은 먼저 정상으로 맞춰두는 것이 중요합니다.