SEO 실무자를 위한 구글 검색 시스템 정리 가이드

SEO 실무자를 위한 구글 검색 시스템 정리 가이드 SEO 실무자를 위한 구글 검색 시스템 정리 가이드

구글 SEO의 시작은 결국 구글을 깊이 이해하는 것에서 출발합니다. 저희 어센트코리아는 최근 방콕에서 열린 Google Search Central 컨퍼런스에 직접 참여하며 그동안 단편적으로 이해했던 구글 검색 시스템의 전체 구조를 단계별로 정리했습니다. 여기에 구글 컨퍼런스에서 공유된 가장 최신 정보와 인사이트를 더하여 실질적인 내용을 소개드리려고 합니다.

구글의 검색 시스템은 크게 3가지로 구성됩니다.

  1. 크롤링 (Crawling)
  2. 인덱싱 (Indexing)
  3. 서빙 (Serving)

1. 크롤링 (Crawling)

SEO 실무를 하다 보면, 우리는 종종 “왜 이 페이지는 검색결과에 안 나올까?”라는 의문을 품고는 합니다. 그 질문의 출발점은 언제나 크롤링입니다. 구글이 우리 페이지를 ‘봤는가’조차 확인하지 않았다면, 그 다음 단계는 존재할 수 없습니다.

크롤링이란 무엇인가?

크롤링은 Googlebot이 웹을 돌아다니며 새로운 페이지를 발견하고 수집하는 과정인데요. 이 작업은 크롤러가 알고 있는 기존 URL부터 시작해, 내부 링크나 외부 링크를 따라가며 새로운 콘텐츠를 탐색합니다. 또한 웹마스터가 제출한 sitemap이나 robots.txt 파일을 참고하여, 어디까지 접근 가능한지도 함께 판단합니다.
내 페이지가 구글에 잘 나오지 않는다면 두 가지를 확인해보세요. 1. 검색 엔진이 페이지를 잘 찾게 하려면 해당 페이지가 다른 페이지를 통해 자연스럽게 연결되어 있어야 합니다. 페이지 링크 발견될 수 있게 내부 링크가 잘 되어 있나요? (자연스러운 링크란, <a href=”page”>스타일의 링크로 되어 있는 경우를 말합니다.) 2. robots.txt에 Disallow 된 페이지는 아닌가요?

크롤링이 차단되는 주요 원인과 디버깅 사례

실제로 가장 흔하게 설정되어 있는 오류는 robots.txt에 JavaScript(.js), CSS 파일을 검색 엔진이 읽지 못하게 크롤링 제한 (Disallow) 해놓는 경우입니다. 리소스 파일들을 구글이 접근하지 못하게 할 경우 렌더링 후에 구현되는 콘텐츠를 읽지 못하게 되어 크롤링에서 배제될 수 있습니다. 혹시 js나 css 파일이 Disallow 되어 있다면 다음과 같이 수정해보세요.

User-agent: Googlebot
Allow: /js/
Allow: /css/

또한 가장 큰 오류가 HTTP 500 서버 에러가 지속되는 경우입니다. 500 에러는 크롤러의 크롤 빈도를 낮추기 때문에 그냥 넘어가서는 안 됩니다. 구글은 서버 오류가 반복되면 해당 도메인 전체의 크롤링 속도를 줄이며, 일정 기간 오류가 계속되면 색인에서 아예 제외하기도 한다고 말했습니다. 이런 에러가 지속적으로 발생할 경우 서버 상태를 복구한 후 정상화된 URL을 다시 수동 크롤링 요청을 진행해주세요.

크롤링은 단순히 “페이지가 읽혔는가”의 문제가 아닙니다. 검색 여정의 시작점이자, 검색 실적 부진을 가장 먼저 의심해봐야 하는 영역입니다. 크롤링이 차단되거나 지연되면, 아무리 좋은 콘텐츠도 세상에 노출될 기회를 잃게 됩니다. 실무에서 가장 자주 마주하는 이슈이자, 가장 먼저 점검해야 할 항목이 바로 크롤링이라고 할 수 있습니다.

2. 인덱싱 (Indexing)

크롤링이 페이지를 찾는 과정이라면 인덱싱은 그 페이지를 구글이라는 도서관 속에 저장하는 단계입니다. 크롤링과 인덱싱의 경계가 모호한 것 같지만 크롤링과 인덱싱은 명확히 다릅니다. 인덱싱은 단순 저장이 아니라 콘텐츠에 대한 종합적인 평가와 판단의 단계입니다. 구글 검색 인덱스에 등록되느냐의 여부에 따라 검색 했을 때 우리 콘텐츠가 나올 수도 있고 나오지 않을 수도 있습니다.

앞서 인덱싱은 단순히 ‘내용을 저장하는 일’이 아니라고 언급하였는데요. 실제로 단순히 텍스트 뿐 아니라 이미지, 동영상 등 멀티미디어를 인식하고 여러 페이지에 유사한 내용이 있는지 분석하며 대표 페이지를 결정하기도 합니다.

이번 컨퍼런스에서 구글의 Gary Illyes는 Google Search Central 세션에서 “인덱싱(Indexing)”에 영향을 주는 요소와 그렇지 않은 요소를 명확히 구분했습니다. 많은 SEO 실무자들이 혼동하는 영역이기도 하고 저도 같이 퀴즈를 풀면서 헷갈리는 기분이 들었습니다. 아래는 올해 7월 구글 컨퍼런스를 통해 구글 내부자가 직접 설명한 인덱싱에 영향을 미치는 요소입니다. 실제로 내가 아는 내용이 맞는지 한 번씩 체크해보세요.

Bernard III San Juan 의 사진

인덱싱에 영향을 주는 요소 (Indexing Factor)

  • Country: 사용자의 국가 설정에 따라 콘텐츠 인덱싱 여부가 달라질 수 있음
  • Language: 페이지의 주 언어가 명확히 인식되어야 인덱싱이 용이함
  • Security (HTTPS): 보안이 확보되지 않은 페이지는 인덱싱에서 불이익을 받을 수 있음
  • Core Web Performance: 핵심 웹 성능 지표(LCP, FID 등)는 인덱싱 여부에 영향을 줄 수 있음
  • Dofollow: 크롤러가 링크를 따라갈 수 있어야 인덱싱 대상에 포함 가능 (Default)
  • Hreflang: 언어 및 지역별 버전을 구분해 올바르게 인덱싱하게 함
  • Freshness: 콘텐츠의 최신성은 인덱싱 우선순위에 영향을 줌

인덱싱되지 않는 경우의 주요 원인

실무에서 자주 마주치는 인덱싱 문제를 몇가지 들어보겠습니다. 첫번째로 ‘나를 색인하지 말아달라’고 신호를 보내는 경우인데요. 페이지 내에 메타 태그로 noindex, nofollow를 설정한 경우 명시적으로 인덱싱을 막은 것이 됩니다. 검색에 노출되어야 하는 페이지에 혹시 noindex 코드가 들어가 있지 않은지 확인해보세요.

또한 낮은 품질의 콘텐츠도 인덱싱에서 탈락되는 주요 원인입니다. 특히 이커머스 사이트나 이벤트 페이지 , 프로모션 페이지는 대체로 화려하고 다양한 이미지들로 구현된 경우가 많은데요. 주요 콘텐츠가 텍스트로 읽히지 않고 이미지 내에서만 포함된 경우도 인덱싱 누락이 발생할 수 있습니다.

3. 서빙 (Serving)

서빙은 말 그대로 검색 사용자가 검색을 하게 되면 그 요청에 맞춰 검색 결과를 보여주는, 구성하는 단계입니다. 간단히 짠 하고 맛있는 음식이 나타나지 않듯이 서빙을 하기까지 수많은 과정이 있습니다. 서빙에 대한 내용은 너무나 방대하기 때문에 이번 글에서는 간단히 각 단계별로 의미하는 개념을 정리하고자 합니다.

파싱 (Parsing)

사용자의 검색 쿼리를 더 작은 키워드 단위로 분해하여 의미를 파악하는 단계입니다. 구글은 사용자의 쿼리를 더 작은 단위(핵심 키워드)로 분해해 의미와 의도를 파악합니다. 필요 없는 단어(불용어)는 제거하고, 중요한 키워드와 맥락(위치, 의도, 목적)을 알고리즘이 판별합니다. 예시와 같이 “홈페이지 만드는 법” 검색 시 “홈페이지”, “만드는”, “법” 등 주요 키워드를 추출하고, 사용자가 무엇을 원하는지 파악합니다.

매칭 (Matching)

파악된 키워드(및 그 유의어·관련어 포함)에 따라, 구글은 인덱스 내 수많은 웹페이지 중 연관성이 높은 콘텐츠를 선별합니다. 이 과정에서 구글은 키워드뿐 아니라 문맥, 관련성, 페이지의 메타데이터까지 종합적으로 비교해 매칭합니다. 따라서 “홈페이지 만드는 법”에 맞는 다양한 페이지가 검색 대상이 됩니다.

랭킹 (Ranking)

매칭된 수많은 결과물 중에서, 구글 알고리즘은 수백 가지 신호(키워드 연관성, 콘텐츠 품질, 신뢰도, 사용자의 의도, 최신성 등)를 조합해 검색 순위를 결정합니다. 더 유용하고 신뢰도 높은 콘텐츠가 상위에 노출되는 구조입니다. 구글은 여러 펙터들을 랭킹 요소로 정리하고 있습니다.

디스플레이 (Displaying)

사용자에게 결과를 보기 쉽고 이해하기 쉬운 형태로 보여주는 단계입니다. “홈페이지 만드는 법”을 검색하면, 구글은 제목, 스니펫(요약), 이미지, 별점 등 다양한 정보와 함께 결과를 표시하여 사용자가 어떤 결과를 클릭할지 쉽게 판단할 수 있도록 돕습니다.

마무리하며

구글 검색 시스템을 이해하는 것은 구글 SEO 최적화의 가장 기본이라고 할 수 있습니다. 크롤링, 인덱싱, 서빙의 작동 원리를 알고 Search Console을 효과적으로 활용한다면, 검색 성과를 더 정교하게 진단하고 개선할 수 있을 것입니다.