데이터 라벨링이란?
데이터 라벨링은 데이터에 의미 있는 태그나 레이블을 부여하는 과정입니다. 이는 머신러닝 모델을 학습시키기 위해 필수적인 작업입니다.
현재는 동영상 및 이미지 데이터에 대한 라벨링 작업이 많이 이루어지고 있는데요. 텍스트 데이터에 대한 라벨링도 못지않게 중요해지는 추세입니다. 특히, 자연어 처리(NLP) 모델을 학습시키기 위해 텍스트 데이터의 라벨링은 필수적이라고 볼 수 있는데요.
보통의 라벨링 작업은 데이터를 분류, 감정 분석, 개체명 인식 등 다양한 목적으로 사용되고 있는데, 검색 데이터도 데이터를 다양한 범주로 분류하고 태깅하는 과정으로 여러 인사이트를 제공할 수 있습니다.
검색 데이터 라벨링 소개: 키워드 리서치 (엔터프라이즈)
그렇다면, 검색 데이터의 라벨링 작업이 중요한 이유는 무엇일까요?
키워드를 특정 범주로 분류하여 피벗테이블이나 그래프로 시각화하는 것은 중요한 인사이트를 도출하기 위한 목적을 가지고 있습니다.
그렇기에 검색 데이터 라벨링은 사용자 의도를 정확히 파악하고, 이를 기반으로 맞춤형 검색 결과를 제공하는 데 중요한 역할을 합니다.
키워드 중에서 특정 토픽(주제) 또는 특정 키워드의 연평균 검색량, 월별 검색량, 연령 및 성별 비율 등을 확인할 수 있습니다. 현업에서 지금 바로 확인이 필요한 특정 키워드가 있다면 키워드 리서치를 통해 한 번의 검색 만으로 고객이 묻고 있는 어떤 토픽에 해당하는지 정량적인 데이터와 함께 손쉽게 파악할 수 있습니다.
그 뿐만 아니라, 누적된 검색 데이터를 확보하고 데이터 라벨링을 통해 마케팅 전략을 최적화하고, 고객의 요구를 정확히 이해하여 제품이나 서비스 개발에 반영할 수 있습니다.
일반 데이터 라벨링과 검색 데이터 라벨링은 무엇이 다를까요?
일반적인 데이터 라벨링 과정:
- 데이터 수집: 다양한 소스로부터 데이터를 수집합니다.
- 데이터 정제: 노이즈와 불필요한 정보를 제거합니다.
- 데이터 라벨링: 데이터에 적절한 레이블을 부여합니다.
- 데이터 검수: 라벨링된 데이터의 정확성을 검토하고 수정합니다.
- 데이터 적재: 라벨링된 데이터를 저장합니다.
검색 데이터 라벨링 과정:
- 데이터 수집: 검색 엔진 로그와 API를 통해 검색 데이터를 수집합니다.
- 데이터 정제: 중복된 검색 쿼리와 오류를 수정합니다.
- 데이터 라벨링: 키워드 매칭과 문맥 분석을 통해 검색 쿼리에 라벨을 부여합니다.
- 데이터 검수: 라벨의 정확성과 일관성을 검토하고 수정합니다.
- 데이터 적재: 라벨링된 검색 데이터를 저장합니다.
검색 데이터의 유형
아래는 일반적인 데이터 라벨링의 데이터 종류를 의미하는데요, 어센트코리아에서 제공하고 있는 검색 데이터(‘엔터프라이즈’)는 구글 및 네이버 검색엔진의 원천 데이터에 해당합니다. 이 원천 데이터를 소위 말하는 라벨링 데이터로 가공하는 작업을 통해 추후 인사이트 도출을 위한 형태의 데이터로 제공하고 있습니다.
- 원시 데이터(raw data): 가공되지 않은 상태의 검색 데이터
- 원천 데이터(source data): 검색 데이터를 얻은 원천 또는 출처 (예: 검색 엔진 로그)
- 라벨링 데이터(labeled data): 라벨링이 완료된 검색 데이터
처음 키워드의 범위를 지정할 때 우리는 시드 키워드(seed keywords)를 선정하게 됩니다. 시드 키워드는 관련 연관 키워드를 제공하기 위한 필수적인 키워드로 가장 넓은 범위의 키워드가 포함됩니다. 예를 들어, 대표적인 브랜드 키워드, 브랜드의 상품명, 서비스명이 포함되며, 더 넓은 범위의 시장조사를 통해 검색자가 많이 검색하는 핵심 키워드를 수집합니다.
데이터 라벨링 과정
데이터 라벨링 단계에서는 정제된 검색 데이터에 의미 있는 태그나 레이블을 부여하는 작업이 이루어집니다. 이 단계는 다음과 같은 세부 과정으로 나뉩니다:
- 키워드 매칭:
- 수집한 키워드와 일치하는 검색 쿼리를 찾아 라벨을 부여합니다. 예를 들어, 특정 브랜드 이름이 포함된 쿼리는 해당 브랜드로 라벨링됩니다.
- 문맥 분석:
- 검색 쿼리가 포함된 문맥을 분석하여 더 정확한 라벨을 부여합니다. 예를 들어, “애플”이라는 키워드가 포함된 쿼리가 애플 제품을 의미하는지, 아니면 과일인 사과를 의미하는지 문맥을 통해 판단합니다.
- 라벨링:
- 라벨링 작업은 키워드를 분류하는 작업인데요, 이 과정에서는 각 검색 쿼리를 개별적으로 검토하고, 적절한 라벨을 수작업으로 부여하거나, 기계 학습을 통해 키워드의 라벨을 부여하게 됩니다. 수작업으로 진행하게 될 경우 자동화 도구를 사용하는 것보다 시간이 많이 걸리지만, 높은 정확도를 보장합니다.
- 검수 및 수정:
- 초기 라벨링 작업이 완료되면, 추가 검수 과정을 통해 라벨의 정확성과 일관성을 확인합니다. 필요 시, 잘못된 라벨을 수정합니다.
- 라벨 일관성 검토:
- 부여된 라벨의 일관성을 검토하고, 필요한 경우 재검토하여 수정합니다. 이를 통해 라벨링의 정확성과 신뢰성을 높입니다.
- 품질 관리:
- 라벨링 작업의 품질을 관리하기 위해 주기적으로 검수 작업을 수행하고, 오류를 발견하여 수정합니다. 이 단계에서는 정확도, 일관성, 신뢰성을 확보하는 것이 중요합니다.
데이터 라벨링 작업이 완료된 후, 라벨링된 데이터는 전처리 및 적재 과정을 통해 최종 분석이나 모델 학습에 활용될 준비가 됩니다. 이를 통해 검색 데이터에서 의미 있는 인사이트를 도출하고, 보다 정확하고 맞춤형의 검색 결과를 제공할 수 있습니다.