인덱싱 기술은 검색엔진의 핵심 기술 중 하나입니다. 검색 엔진은 수집된 정보를 정리, 분류, 색인화하여 색인 라이브러리를 생성해야 하는데, 중국 검색 엔진의 핵심은 단어 분할 기술입니다. 단어 분할 기술은 특정 규칙과 어휘를 사용하여 문장의 단어를 분할하여 자동 색인 생성을 준비합니다. Indexing은 주로 Non-clustered 방식을 사용합니다. 이 기술은 언어 및 문자에 대한 이해와 관련이 많습니다.
(1) 문법 라이브러리를 저장하고 어휘와 협력합니다. 문장에서 단어를 분리하는 라이브러리.
(2) 어휘의 사용 빈도와 일반적인 배열도 저장해야 하는 어휘 데이터베이스를 저장합니다. 어휘는 광범위하므로 전문 문서 처리를 용이하게 하기 위해 다양한 전문 라이브러리로 나누어야 합니다.
(4) 단어로 나눌 수 없는 문장의 경우 각 문자를 단어로 처리합니다.
인덱서는 키워드에서 URL까지 관계 색인 테이블을 생성합니다. 인덱스 테이블은 일반적으로 어떤 형태의 역목록(inverted list)을 사용합니다. 즉, 해당 URL이 인덱스 항목으로 검색됩니다. 인덱스 테이블에는 문서에서 인덱스 항목이 나타나는 위치도 기록되므로 검색자가 인덱스 항목 간의 인접 관계 또는 긴밀한 관계를 계산하여 특정 데이터 구조로 하드 디스크에 저장할 수 있습니다.
다른 검색 엔진 시스템은 다른 색인 생성 방법을 사용할 수 있습니다. 예: Webcrawler는 전체 텍스트 검색 기술을 사용하여 웹 페이지의 모든 단어를 색인화합니다. Lycos는 페이지 이름, 제목 및 가장 중요한 100개의 주석 단어와 같은 선택적 단어만 색인화합니다. Infoseek는 개념 검색 및 구문 검색, 지원 및 부울을 제공합니다. , or, Near, Not과 같은 연산. 검색 엔진의 색인 방법은 크게 자동 색인, 수동 색인, 사용자 로그인의 세 가지 범주로 나눌 수 있습니다.