안녕하세요. 어센트 코리아 박건 프로입니다. 검색 엔진 최적화(SEO)를 이야기할 때 종종 등장하지만, 정확한 개념과 관리 방법, 미치는 영향에 대해 알기 어려운 주제 중 하나가 “크롤링 예산”입니다. 특히 페이지가 많은 대규모 웹사이트를 운영하고 있는 분들이라면 반드시 이해하고 효율적으로 관리할 수 있어야 하는데요.
며칠 전 Search Central Live Deep Dive 2025 방콕 행사에 참여해 Google이 말하는 크롤링 예산은 무엇인지 정확하게 정리했습니다.
1. 크롤링 예산 (Crawling Budget), 정확한 개념은 무엇일까?

크롤링 예산은 검색엔진(구글봇)이 특정 웹사이트에 할당하는 “한정된 리소스의 양”입니다. 웹사이트내 페이지를 얼마나 많이, 자주 크롤링할 지 결정하는데요. 이는 구글이 여러분의 사이트에 가지는 ‘관심’을 의미하기도 합니다. 예시와 함께 설명드리면 10개, 혹은 800개의 페이지를 구글봇이 크롤링했을 때, 그 양이 “크롤링 예산”인 것인데요.
크롤링이 무한하게 되지 않기에 사이트에서 원하는 페이지가 가끔 크롤링이 되고 있지 않은 문제가 발생하는 것은 알고 있는 사실입니다. 그럼 이 크롤링 예산의 구성 요소에 대해서도 알고 계셨나요?
2. 크롤링 예산, 어떻게 구성되어 있나?
2-1. 크롤링 속도 제한 (Crawl Rate Limit)

크롤링 속도 제한은 호스트 부하(Hostload)라고도 불립니다. 일반적으로 사이트가 기술적으로 다운되기 전, 얼마나 많은 초 당 요청을 처리할 수 있는지 알려주는 매트릭스입니다.
구글 관계자는 크롤링이 너무나 많이 발생해 사이트가 갑자기 다운되는 경우를 원치 않기에 제한이 존재한다고 말했는데요. 아래 요소에 의해 결정됩니다.
Driven by:
- 서버가 크롤러의 요청과 얼마나 빨리 연결되는지 (Connect time change)
- 서버가 크롤러의 응답에 첫번째 바이트를 보내기까지 걸리는 시간 (Time to first byte change)
- HTTP 429, 5xx 상태 코드
2-2. 크롤링 수요 (Crawl Demand)

크롤링 수요는 “구글이 특정 사이트를 얼마나 크롤링 하고 싶어하는지”를 의미합니다. 아래 3가지 요소에 의해 결정되는데요. 만약 구글봇이 품질 및 인기를 알 수 없는 페이지를 처음 발견할 경우 처음에는 상위 페이지에 따라 결정되지만 시간이 지나면서 유용하가도 판단하면 크롤링 수요가 점차 높아진다고 합니다.
Driven by:
- 사이트의 품질 (Quality of the site)
- URL 변경 빈도 (Change frequency of URLs)
- 인터넷 상 사이트의 인기도 (Poupularity of them on the internet)
사이트 규모와 무관하게 모두 동일한 크롤링 예산으로 시작해, 더 좋은 콘텐츠 및 유용한 콘텐츠가 나타날수록 크롤링 수요가 높아지는 것인데요. 이렇게 더 많은 페이지를 크롤링하다보면 몇가지 안좋은 신호에 따라 서버에 발생할 수 있는 과부하를 방지하기 위해 크롤링 제한(중지 혹은 속도가 느려짐)이 발생합니다.
3. 크롤링 예산, 내 웹사이트에서 낭비되고 있지 않을까? 체크리스트 4가지

자, 그럼 위와 같은 한정된 예산은 어떤 문제로 인해 소모가 이루어지고 있을까요?
- 무한 생성 URL (Infinite URL spaces)
- 서버 오류 (Server errors unrelated to server load)
- 불필요한 페이지 및 리소스 (Useless pages and resources)
사실 1,3번의 경우 연결되는 문제로 “URL 파라미터 값이 무한정 생성되는 경우”로 쉽게 말씀드릴 수 있는데요. “/calendars?d=7&m=2&y=27″과 같이 분명 동일한 페이지이지만 매개변수가 많아지는 경우입니다. 이는 Google Search Console에서도 크롤링된 페이지 패턴을 확인하면 발견할 수 있습니다.
추가적으로 HTTP 상태코드에 따른 크롤링 예산 소모에 대해서도 별도로 언급했는데요.
HTTP 상태 코드
- 1xx : 크롤링 예산에 영향 없음
- 2xx : 정상적인 상태로 크롤링-색인까지 이어지기에 예산 소모
- 3xx : 리디렉션 당 예산 소모 -> 모든 리디렉션에 예산이 소모된다면 불필요한 긴 리디렉션 구조일 경우 관리 필요 (최대 10단계로 해당 구조가 반드시 필요치 않을 경우 줄이는 것을 권장)
- 4xx (429 & soft 404는 해당 안됨) : 색인되지 않으며, 예산에도 영향 없음
**스케줄링에는 영향을 미칠 수 있기에 중요 페이지들의 크롤링 우선순위가 밀릴 수 있음 - 5xx : 서버에 문제가 발생해 요청을 처리할 수 없는 상태로, 크롤링 예산이 소모 -> 크롤링 속도 제한 영향
- 429 (Too many Requests) : 구글은 이를 500번대 오류와 동일하게 여기며, 서버에 너무 많은 요청을 보내고 있다고 판단 시 크롤링 속도 제한 영향
- soft 404 (Empty page) : 200코드로 응답되기에 동일하게 예산 소모 -> 필요치 않은 페이지의 경우 404 리디렉션 등의 조치 권장
4. 효율적인 크롤링 예산 관리 방법

위와 같은 문제 및 HTTP 상태 코드에 따라 크롤링 예산에 영향을 미치고 있다면 어떻게 관리해야할까요?
4-1. HTTP 캐시 제어
단어가 어렵게 느껴지실 수 있으나 크롤링되어야 할 페이지의 HTTP 상태 코드가 정상적인지 재확인하며, 필요치 않은 페이지에 리소스를 소모하고 있지 않은지 확인이 필요합니다.
4-2. 사이트 내 내부링크 빌딩 관리
불필요하거나, 중복된 페이지가 내부링크일 경우 중요한 콘텐츠를 효율적으로 발견하고 색인하는데 영향을 미치기에 4xx와 같은 페이지들이 혹시 내부 링크로 걸려있지 않은지 관리해야 합니다.
4-3. 중요한 페이지를 읽어갈 수 있도록 크롤러 제어
중요치 않은 페이지에 대해선 크롤링해가지 않도록 관리하고, 중요한 페이지의 경우 캐노니컬을 활용해 URL을 잘 읽어갈 수 있도록 제어해야 합니다. 파라미터값의 경우 정해진 패턴에서 벗어나지 않는지 확인이 필요합니다. 사실 이는 2번 내용의 연장선이라고 할 수 있으며, 위 이미지에 보이는 4번째 불필요한 페이지 제거에 대한 내용과도 일맥상통합니다.
참고 : 일반적으로 1,000 페이지 이하의 소규모 웹사이트는 위 내용에 대해 크게 걱정할 필요는 없습니다. 다만 그렇다고 불필요한 URL을 생성하거나 잘못된 설정을 하는 것을 의미하지는 않습니다!
웹사이트 크롤링 현황은 어떻게 확인할 수 있을까?

구글 서치 콘솔 -> 설정 -> 크롤링 통계에서 웹사이트의 크롤링 현황에 대해 확인할 수 있으니 모니터링과 동시에 문제를 해결해보시길 바랍니다.
A. 동일한 구글봇을 사용하고 있기에 기존과 달라지는 것은 없습니다.
A. 더 자주 크롤링된다고, 순위가 더 좋아지는 것은 아닙니다. 다만 역으로, 높은 순위에 위치할수록 해당 사이트/페이지가 더 중요하다고 판단하기에 더 자주 크롤링되는 것은 맞습니다.
참고 자료 : https://developers.google.com/search/blog/2017/01/what-crawl-budget-means-for-googlebot