크롤링은 어떻게 작동하는가? – SEO 시작점 크롤링에 대한 이해

크롤링은 어떻게 작동하는가? – SEO 시작점 크롤링에 대한 이해 크롤링은 어떻게 작동하는가? – SEO 시작점 크롤링에 대한 이해

SEO를 이해하기 위해서는 검색 엔진이 작동하는 방식 중 가장 첫번째 과정이자 SEO의 시작점인 크롤링을 이해하는 것이 중요합니다. 검색엔진이 웹사이트의 콘텐츠를 발견하고 이해하는 첫 단계를 담당하기 때문입니다.

크롤링을 이해하기 위해서는 인터넷이 어떻게 작동하는가를 먼저 알아야합니다.

크롤링을 이해하기 위해서는 먼저 인터넷이 어떻게 작동하는지 알아야 합니다. 인터넷은 전 세계적으로 연결된 컴퓨터 시스템이며, TCP/IP와 같은 표준 통신 프로토콜을 사용하여 수십억 개의 장치를 연결하고 다양한 서비스를 제공합니다.

브라우저에 URL 입력하는 것은 서버에 요청하는 행위

key parts of the internet at search central live deep dive in Bangkok
Google Search Central Live 2025 in Bangkok
  • 어떻게 (How): 요청 방식을 의미하며, 웹에서는 주로 HTTP 프로토콜을 사용합니다.
  • 어디서 (Where): 특정 서버의 위치를 나타내며, DNS(Domain Name System)는 사람이 읽기 쉬운 URL을 컴퓨터가 이해하는 IP 주소로 변환하여 전화번호부와 같은 역할을 합니다.
  • 무엇을 (What): 서버에서 얻고자 하는 특정 리소스의 경로를 의미합니다.

서버는 요청 받은 후 HTTP 상태 코드를 포함한 응답을 반환

일반적인 HTTP 응답은 “200” 으로 정상임을 의미하며, 오류 발생시에는 “404”와 같은 코드, 리디렉션 시에는 “3xx”, 서버 오류시에는 “5xx” 코드를 반환합니다.

인터넷 작동방식의 핵심 개념과 크롤링의 연관성

  • 인터넷 작동 프로토콜: HTTP, DNS, TCP/IP
  • URL 구성: 프로토콜 (HTTP), 호스트 (서버 위치), 경로 (특정 리소스)
  • HTTP 상태 코드: 요청 성공/실패 여부를 나타내는 코드 (예: 200 성공, 404 찾을 수 없음)

크롤러는 본질적으로 사용자(브라우저)와 동일한 방식으로 인터넷에 연결하고 HTTP 요청을 보내 정보를 가져오는 “HTTP 클라이언트”이라는 사실을 아는 것이 크롤링의 구조를 파악하고 이해하는데 가장 중요한 개념입니다.

크롤링 구조 구성 요소

크롤링은 여러 구성 요소로 이루어져 있으며, Google 의 크롤러인 Googlebot은 특히 효율성을 높이기 위한 크롤링 구조를 갖추고 있습니다.

how crawling works in Google search central live deep dive in Bangkok
Google Search Central Live 2025 in Bangkok
  • HTTP 클라이언트 (크롤러): 인터넷에서 데이터를 가져오는 핵심 구성 요소입니다.
  • robots.txt 정책 준수: Google은 대규모 대역폭을 가지고 있으므로, 웹사이트에 과도한 부하를 주지 않기 위해 각 크롤러에 대한 제한을 설정합니다. 크롤러는 robots.txt 파일을 읽어 사이트 소유자가 크롤링을 허용하거나 금지하는 영역을 파악하고 이를 엄격히 준수합니다.
  • 스케줄러 (Scheduler): “무엇을 언제 크롤링할지” 결정하는 시스템입니다. 스케줄러는 URL 목록을 받아 우선순위에 따라 크롤러에 보냅니다. Google 검색의 경우, 품질이 높고 자주 변경되는 URL을 우선적으로 크롤링하도록 설정될 수 있습니다.
  • 크롤 큐 (Crawl Queue): “검색 어플라이언스가 크롤링을 기다리거나 기한이 지난 URL의 집합”입니다. 이 큐는 수백 조 개의 URL을 포함하는 방대한 데이터베이스입니다. 큐는 크롤러가 새 URL을 처리함에 따라 끊임없이 변동하는 동적인 시스템입니다.

우리가 온라인 상에 어떤 콘텐츠를 게시하기 위해서는 가장 먼저 이 구조를 이해하고 우리 콘텐츠가 크롤링될 수 있는 환경을 갖추는것이 바로 SEO 의 가장 시작점이 되는 것 입니다.

크롤 큐 (Crawl Queue)

검색엔진 크롤러가 문서를 크롤링하면서 콘텐츠 내 새 URL 을 발견하게 되면 크롤 큐로 보내게 됩니다. 크롤 큐의 의미는 검색 엔진이 크롤링할 URL을 관리하는 데이터베이스 목록입니다. 크롤링 대기 중이거나 크롤링 기한이 지난 URL들의 집합이기도 합니다.

웹사이트가 가진 특정 문서들의 최신성을 유지하기 위해서는 크롤 큐 데이터를 확인하여 검색 엔진이 새로운 문서 혹은 수정된 문서를 크롤링했는지 확인해볼 수 있습니다. Google 에서는 Crawl Queue snapshot 에 포함되는 데이터를 통해 우리 웹사이트 내 크롤링 된 문서, 크롤링 되지 않는 문서에 대한 데이터를 확인할 수 있습니다.

크롤러가 웹페이지를 다운로드할 때, 해당 페이지에 포함된 앵커 (링크) 에서 URL을 추출하여 크롤 큐에 넣게 됩니다. 그렇기 때문에 웹사이트 환경에서 크롤러빌리티를 최적화하기 위해서는 내부링크의 중요성이 더욱 강조되게 됩니다.

내부링크 구조에 대한 중요성

검색엔진은 콘텐츠를 크게 세가지 영역으로 나누어서 보게 됩니다.

When Google crawl document, they divide in three part which header, navigation, and main content
Google Search Central Live 2025 in Bangkok
  • Header (헤더)
  • Navigation (네비게이션)
  • Main content (메인 콘텐츠)

특히 특정 URL이 중요하다는 신호를 보내기 위해서 센터피스(Centerpiece)라고 불리는 메인 콘텐츠 영역에 앵커 태그를 활용하여 URL을 넣을 수 있도록 하여 크롤링, 인덱싱에서 더 우선 순위의 신호를 전달하는 방식을 권장했습니다.

사이트맵에 대한 완전한 이해

내부링크를 이미 구조적으로 잘 갖추었다면 검색 엔진 크롤러가 사이트맵을 참고하지 않아도 우리 도메인 내부 URL을 모두 읽을 수 있다고 구글은 밝혔습니다.
구조적으로 잘 갖추었다는 의미는 사이트 도메인의 가장 상위 폴더인 homepage 로 크롤러가 최초 접근하여 모든 내부링크를 따라서 우리 웹사이트가 가진 주요 문서들을 발견할 수 있도록 모든 길을 잘 만들어 두었다는 말입니다.
하지만 복잡한 내부링크 구조를 가졌다는 말은, 내부링크를 통해서 검색엔진 크롤러가 우리 사이트의 모든 URL 을 발견할 수 없기 때문에 보조적으로 사이트맵을 활용하게 됩니다.

사이트맵(sitemap.xml)은 단순히 사이트 소유자가 검색엔진이 가져오기를 원하는 URL 목록

구글의 검색팀 Gary 의 발언을 통해서 사이트맵의 역할이 조금 더 명확하게 살펴볼 수 있는데요. 주로 깊은 뎁스 때문에 크롤러가 바로 접근할 수 없는 URL들을 접근할 수 있도록 하거나, JavaScript를 활용하면서 모든 콘텐츠에 크롤러가 접근할 수 없게 되는 경우 URL 접근이 가능하도록 보완하는 역할로 사용하여 우리 웹사이트의 중요 문서들을 크롤링할 수 있도록 환경을 만들어줄 수 있습니다.

사이트맵은 URL 리스트뿐만 아니라 이미지, 비디오와 같은 파일을 발견할 수 있도록 리스트를 만들고 전달할 수 있는 역할을 하고있어 멀티미디어 자산을 가진 웹사이트는 활용하여 크롤러빌리티 (Crawlability) 를 최대한 확보하는 것을 권장합니다.