콘텐츠 vs 테크 – 무엇이 더 중요할까?
인텐트 마케팅 컨설팅 및 SEO 업무를 하면서 자주 듣는 질문이 있습니다.
“SEO에서 콘텐츠가 더 중요할까? 아니면 테크가 더 중요할까?”
구글의 Gary Illyes는 지난 7월 방콕에서 열린 Google Search Central Live Deep Dive 발표 중 ‘콘텐츠가 왕인가?’ 라는 질문에 이렇게 답했습니다.
“It’s pretty close because if you don’t have the content on the page, you’re not going to be retrieved. If you don’t have those tokens that the users are searching for, you’re not going to be retrieved. Yes, afterwards, there are some ranking signals that go up and down and might be important. But, without the content itself, you’re not going to get out of the index.”
다시 말해, 콘텐츠가 없으면 검색 결과에 노출될 기회조차 없어서 콘텐츠가 중요하지만, 그 이후에는 다양한 랭킹 신호들에 의해 랭킹이 결정된다는 것입니다. 따라서 이번 글에서는 콘텐츠가 왜 인덱싱에서 중요한지에 대해 살펴보겠습니다.
구글 검색 인덱스에서 메인 콘텐츠가 중요한 이유
구글은 페이지를 색인(index)하고 랭킹을 매길 때 가장 중요하게 보는 요소 중 하나로 메인 콘텐츠(main content)를 꼽습니다. 그렇다면 메인 콘텐츠란 정확히 무엇이며, 왜 그렇게 중요한 걸까요?
메인 콘텐츠가 왜 중요한가?
구글 검색 인덱싱에서 가장 핵심적인 요소는 바로 ‘메인 콘텐츠(Main Content)’, 즉 ‘센터피스(Centerpiece)’입니다. 메인 콘텐츠나 센터피스는 단순히 본문 텍스트만을 의미하지 않습니다. 메인 콘텐츠는 사용자가 해당 페이지에 방문한 목적을 달성하는 데 직접적인 도움을 주는 요소입니다. 예를 들어, 계산기 페이지에서는 계산기 기능 자체가, 제품 페이지에서는 제품 설명이나 이미지가, 그리고 정보성 콘텐츠라면 본문의 주요 텍스트가 메인 콘텐츠이자 센터피스가 됩니다.

구글은 페이지를 렌더링한 후, 화면 상에서 가장 핵심적인 정보가 담긴 영역을 센터피스로 인식하며, 이 영역에 있는 단어(토큰)에 더 높은 가중치를 부여합니다. 이를 통해 검색 결과에서 사용자 쿼리와의 매칭 정확도를 높이게 됩니다.
이 영역은 페이지의 중앙에 있을 수도 있고, 페이지 하단에 있더라도 사용자 목적에 부합하면 센터피스로 간주됩니다. 구글은 이 영역을 자동으로 감지하고 ‘센터피스 어노테이션(centerpiece annotation)’을 부여하며, 해당 콘텐츠가 인덱싱에 영향을 미치도록 합니다. 따라서 검색 최적화를 고려할 때는, 단순히 키워드를 많이 넣기보다는 핵심 키워드가 메인 콘텐츠(센터피스) 영역에 자연스럽게 포함되도록 설계하는 것이 중요합니다.
인덱싱의 시작, 핵심은 ‘토큰화’
구글은 웹페이지를 색인(index)에 저장할 때 HTML 코드를 그대로 넣지 않습니다. HTML은 대규모 검색 시스템에서 검색 효율성이 떨어지기 때문에, 구글은 페이지의 주요 콘텐츠를 분석해 ‘토큰(token)’ 단위로 분해합니다. 이를 토크나이제이션(Tokenization)이라고 합니다.

[Tokenization 예시]
“I like to eat”
→ [I], [like], [to], [eat]
“我喜欢吃东西”
→ [我], [喜欢], [吃], [东西]
언어마다 문장을 나누는 방식은 다릅니다. 단순히 글자나 띄어쓰기 기준이 아니라 ‘의미’를 기준으로 분리하는 것이 중요합니다. 예를 들어, Lord of the Rings(반지의 제왕)을 “Lord”, “of”, “the”, “Rings”로 각각 분리해 저장하면, 검색 시스템은 이 문장을 단순히 ‘반지’와 ‘제왕’에 관한 이야기로 잘못 해석할 수 있습니다. 반대로 이 문장을 하나의 엔티티(entity)로 토큰화하면, 검색 시스템은 이것이 특정 영화나 작품을 가리킨다는 사실을 정확히 이해합니다. 정확한 의미 단위의 토큰화가 이루어져야 검색 시스템이 페이지의 내용을 올바르게 이해하고, 관련 쿼리와 정확하게 매칭할 수 있습니다.
AI 검색에서도 중요한 센터피스 구조
흥미롭게도, 구글 검색의 센터피스(centerpiece) 개념은 AI 기반 검색에도 그대로 활용됩니다.
AI 시스템 역시 웹페이지를 이해할 때 아래의 과정을 거칩니다.
페이지 렌더링 → 시맨틱 구조 분석 → 토크나이제이션(tokenization) → 중요도 판단
여기서 ‘무엇이 중요한 정보인가’를 결정하는 기준으로 센터피스 개념을 적용합니다.
LLM(Large Language Model) 기반 AI는 방대한 텍스트를 효율적으로 요약하기 위해, 페이지의 메인 콘텐츠를 우선적으로 분석합니다. 사이드바나 푸터보다 핵심 본문을 먼저 읽는 것이죠. 또한, 검색 인덱스에서 검증된 토크나이저(tokenizer)를 그대로 사용하면 처리 속도와 정확도를 모두 높일 수 있습니다. 결국 AI든 검색 엔진이든, 핵심은 중심 콘텐츠를 먼저 파악하는 것이며, 그 기준이 바로 센터피스입니다.
왜 토크나이제이션이 중요한가? 포스팅 리스트 소개

웹페이지에서 추출한 모든 토큰은 단순 저장이 아니라 검색 효율성을 고려해 인덱스화됩니다. 이때 중요한 역할을 하는 것이 바로 포스팅 리스트(posting list)입니다. 포스팅 리스트란 각 토큰에 대해 해당 단어가 등장한 문서(URL)를 연결한 일종의 매핑 구조입니다. 사진의 예시처럼 ‘robots.txt’라는 토큰이 문서 2, 3, 5번에 등장했다면, 이 정보를 포스팅 리스트에 기록해두고, 나중에 해당 쿼리를 입력하면 전체 인덱스를 스캔하지 않고도 바로 관련 문서를 찾아낼 수 있습니다.
구글은 이렇게 수백억 개의 인덱스 행(row) 중에서도 200밀리초 이내에 결과를 찾아내야 하므로, 포스팅 리스트는 검색 속도를 획기적으로 끌어올리는 핵심 기술입니다. 이 구조는 모든 언어에 동일하게 적용되며, 쿼리를 토큰화한 후 각 토큰의 포스팅 리스트를 참조해 관련 문서를 빠르게 탐색합니다.
색인(인덱싱) 이전의 시그널 처리
구글은 단순히 페이지의 콘텐츠를 분석하는 데 그치지 않고, 인덱싱 단계에서 다양한 신호를 종합적으로 평가합니다. 이 신호들은 ‘이 페이지를 인덱스에 포함할 것인가?’를 결정짓는 중요한 판단 기준입니다.

언어 및 국가 신호 (Language & Country Signals)
구글은 페이지가 작성된 언어와 대상 국가를 파악해, 해당 지역 사용자에게 더 적합한 검색 결과를 제공합니다. 예를 들어, 독일어로 검색하는 사용자에게는 독일어 콘텐츠를, 태국어 사용자에게는 태국어 콘텐츠를 우선적으로 노출합니다.
최신성 신호 (Freshness Signals)
구글은 특정 주제나 검색 쿼리에 따라 신선한 정보가 더 중요하다고 판단할 때 최신성을 평가합니다. 뉴스, 이벤트, 신제품, 유행 주제 등에는 ‘최근 업데이트된 콘텐츠’를 선호합니다.
SafeSearch 신호 (Explicit Content Filtering)
구글은 사용자들이 원하지 않는 성인 콘텐츠, 폭력, 혐오 등 민감하거나 부적절한 내용을 사전에 걸러내기 위해 SafeSearch 신호를 사용합니다. 이 신호는 인덱싱보다는 실제 검색 결과 제공 단계에서 더 큰 영향을 미치지만, 인덱싱 시에도 기본 분류 작업이 이루어집니다.
스팸성 신호 (Spaminess Signals)
구글은 매일 약 400억 개의 스팸 페이지를 탐지하여, 순위 하락 또는 인덱싱 제외하며 검색 사용자 보호를 위한 필터링 작업을 수행합니다. 이 과정에 AI 기반의 SpamBrain 시스템이 활용되는데, 이는 자연어 처리 기반의 예측 모델로 정교한 스팸을 탐지합니다.
결국 중요한 건, 고객이 찾는 콘텐츠입니다
검색 인덱스의 작동은 토큰화된 콘텐츠와 그에 따른 메타 데이터, 포스팅 리스트 등 기술적 구조 위에 세워지지만, 그 출발점은 결국 사용자가 찾고자 하는 ‘좋은 콘텐츠’입니다. 페이지 내 모든 텍스트를 토큰으로 추출하고, 이를 메타 데이터와 함께 인덱싱한 뒤, 포스팅 리스트를 통해 초고속 검색을 가능하게 하는 구조는 결국 유의미한 정보를 담은 문서가 있어야만 가치가 있습니다. 즉, 콘텐츠의 본질이 충실히 담겨 있어야 그 다음 단계인 검색 시스템이 효과적으로 작동할 수 있습니다. 검색 품질을 높이고 싶다면, 먼저 고객이 원하는 정보를 명확하게 전달하는 콘텐츠부터 완성해야 합니다. 그 이후에야 비로소 검색 엔진의 다양한 시그널과 기술들이 제대로 의미를 발휘할 수 있습니다.
자료 출처:
해당 글은 2025년 7월 23-25일 3일간 방콕에서 개최된 Google Search Central Live Deep Dive Asia Pacific 2025 행사 참석 후 작성한 글입니다. 3일간의 세션 중 특히 24일에 진행된 인덱싱 데이에서 아래 세션들의 내용을 참고하여 작성했습니다.
- ‘Understanding What’s on a Page’ – Gary Illyes
- ‘Calculating (Some) Signals’ – Gary Illyes
- ‘How Does the Indexing Look Like’ – Gary Illyes