SEO에서 LSI (혹은 LSA)는 과연 중요한 역할을 하는 것일까?

검색엔진최적화에서 LSI가 중요한 역할을 하는가?라는 질문은 광고주들이 자주 묻는 질문 중 하나이기도 하다.

토픽 모델 분석을 통해 SERP 상위에 게재된 웹 페이지의 메인 콘텐츠에 포함된 다양한 토픽과 주제를 찾아 이를 분석하여 콘텐츠 제작에 활용하는 것은 SEO 측면에서 아주 유용한 방식이지만, 단순히 LSI 키워드 툴이 제시한 LSI 키워드를 제작 중인 콘텐츠에 반영하면 SEO에 효과가 있다거나 혹은 그래야만 성과를 낼 수 있다고 주장하는 것은 틀린 주장이다.

SEO가 말하는 좋은 콘텐츠란 소비자의 질문에 충실하게 답하는 콘텐츠이다. 충실하게 답을 한다는 것은 검색한 사람이 기대한 다양한 포인트를 성실하게 답해나간다는 노력을 요구하는 것이다. 이 과정이 단순히 LSI툴에 제공하는 키워드를 이 쪽 저쪽에 적당히 사용하는 것으로 대치되어서는 안된다는 의미에서 이런 단순화된 LSI 키워드에 대한 맹신은 피해야만한다.

LSI 키워드 툴 예시 : LSI Graph ( https://lsigraph.com/ )

LSI 키워드는 레이턴트 시멘틱 인덱스에서 온 말로 일련의 문서들과 그 안에 들어간 단어들과의 관계를 분석하는 기술을 뜻한다. 이 접근 방법은 단어들이 의미상 가까우면 유사한 주제의 문장이나 문단에서도 발견될 것이란 가정에 근거한다. SEO에서 중요한 것은 검색자가 탐색하여 알고 싶어하는(의도한) 토픽이 웹문서에서 커버되고 있는가이다.

LSI는 문단 안의 키워드의 출현에만 집중하게 때문에 문법적 관계나 문장이 만들어내는 로직 그리고 단어간의 관계를 규정하는 전치사/구들과 단어들의 출현 순서 등을 고려되지 않기 때문에 명확한 한계를 가지고 있다.

이런 이유에서 LSI 툴에서 나오는 키워드를 그냥 문장에 많이 넣는 것으로 최근 구글 동향에 맞는 검색엔진최적화 시책을 하고 있다고 주장하면 곤란하다. LSI는 80년대 후반에 소개된 기술로 초기 검색엔진의 인덱싱 등에 많이 활용되었던 꽤 낡은 기술이다. 90년대와 2000년대를 지나며 LDA나 워드벡터를 이용하는 등의 토픽을 분석하는 많은 모델들이 소개되었고 검색엔진들 역시도 LSI에 머물지 않는다.

나는 자연어 분석이나 토픽모델 등에 전문가는 아니다. 하지만 SEO를 업으로 하는 사람으로서 구글이 궁긍적으로 좋은 콘텐츠를 검색한 사람의 탐색의도에 부합하는 콘텐츠로 보기 때문에 어떤 모델의 SEO에서의 활용성의 판단은 결과적으로 소비자가 만족하는 보다 좋은 콘텐츠가 만들어지는가? 아니면 지금 만들고 있는 콘텐츠를 단지 보다 좋은 콘텐츠로 보이게하는데에만 사용되는가로 결정되어야한다고 생각한다. 오랜 기다림 끝에 SEO에 대한 관심이 높아지고 있는 요즘 철지난 LSI 키워드 툴을 사용한 단순한 콘텐츠 SEO 잔기술로 시간 낭비 하는 마케터들이 나오지 않기를 바라는 맘으로 이 글을 올린다.