거미와 파충류의 원리와 기능

검색 엔진에 대한 큰소리는 적게 말해라. 텍스트 검색 엔진의 거미 크롤링 원리로 시작합시다.

1 초점 파충류 작동 방식 및 핵심 기술 개요?

웹 크롤러는 웹 페이지를 자동으로 추출하는 프로그램입니다. 인터넷에서 검색 엔진용 웹 페이지를 다운로드하는 것은 검색 엔진의 중요한 구성 요소이다. 기존 파충류는 하나 이상의 초기 웹 페이지의 URL 로 시작하여 초기 웹 페이지의 URL 을 가져옵니다. 웹 페이지를 등반하는 동안 시스템의 특정 중지 조건이 충족될 때까지 현재 페이지에서 새 URL 을 계속 추출하여 대기열에 넣습니다. 파충류에 초점을 맞추는 작업 흐름은 복잡하기 때문에 특정 웹 페이지 분석 알고리즘에 따라 주제와 무관한 링크를 필터링하고 유용한 링크를 유지하며 URL 대기열에 넣어 포착을 기다려야 합니다. 그런 다음 특정 검색 정책에 따라 대기열에서 다음 크롤링할 웹 페이지의 URL 을 선택하고 시스템의 특정 조건에 도달할 때까지 위 프로세스를 반복합니다. 또한 파충류가 기어오르는 모든 웹 페이지는 시스템에 저장되고, 어느 정도 분석 및 필터링되며, 사후 쿼리 및 검색을 위한 색인을 작성합니다. 초점 파충류의 경우 이 과정에서 얻은 분석 결과도 후속 크롤링 프로세스에 대한 피드백과 지침을 제공할 수 있습니다. -응?

초점 파충류는 일반 웹 파충류에 비해 세 가지 주요 문제를 해결해야 합니다.

(1) 대상의 설명이나 정의를 캡처합니다. -응?

(2) 웹 페이지 또는 데이터의 분석 및 필터링; -응?

(URL 에 대한 검색 정책. -응?

크롤링 대상의 설명과 정의는 웹 페이지 분석 알고리즘 및 URL 검색 전략을 개발하는 방법을 결정하는 기초입니다. 웹 페이지 분석 알고리즘과 후보 URL 정렬 알고리즘은 검색 엔진이 제공하는 서비스 형식과 파충류 크롤링 동작을 결정하는 열쇠입니다. 이 두 부분의 알고리즘은 밀접하게 연관되어 있다. -응?

2 대상 설명 캡처?

기존 초점 파충류의 캡처된 대상에 대한 설명은 대상 웹 페이지의 특징에 기반한, 대상 데이터 패턴 기반 및 영역 개념 기반의 세 가지 유형으로 나눌 수 있습니다. -응?

파충류는 대상 웹 페이지의 특징을 기준으로 크롤링, 저장 및 색인화되는 객체는 일반적으로 웹 사이트나 웹 페이지입니다. 시드 샘플을 얻는 방법에 따라 다음과 같이 나눌 수 있습니다.

(1) 미리 주어진 초기 시드 샘플 캡처 -응?

(2) 미리 주어진 웹 분류 디렉토리 및 분류 디렉토리에 해당하는 시드 샘플 (예: Yahoo! 분류 구조 등. -응?

(3) 사용자 행동에 의해 결정되는 대상 캡처 샘플은?

A) 사용자 탐색 중에 표시된 캡처 샘플을 표시합니다. -응?

B) 액세스 패턴 및 관련 샘플에 대한 사용자 로그를 마이닝합니다. -응?

여기서 웹 페이지의 특징은 웹 페이지의 내용 특성, 웹 페이지의 링크 구조 특성 등이 될 수 있습니다. -응?

기존 초점 파충류에 대한 설명 또는 정의는 대상 웹 페이지 기반 기능, 대상 데이터 패턴 기반 및 영역 기반 개념의 세 가지 유형으로 나눌 수 있습니다. -응?

파충류는 대상 웹 페이지의 특징을 기준으로 크롤링, 저장 및 색인화되는 객체는 일반적으로 웹 사이트나 웹 페이지입니다. 구체적인 방법은 (1) 미리 주어진 시드 샘플의 초기 수집으로 나눌 수 있습니다. (2) 미리 주어진 웹 분류 디렉토리 및 분류 디렉토리에 해당하는 시드 샘플 (예: Yahoo! 분류 구조 등. (3) 사용자 행동에 의해 결정된 목표 샘플을 수집하십시오. 여기서 웹 페이지의 특징은 웹 페이지의 내용 특성, 웹 페이지의 링크 구조 특성 등이 될 수 있습니다. -응?

대상 데이터 패턴을 기반으로 하는 파충류는 웹 페이지의 데이터를 대상으로 하며, 캡처된 데이터는 일반적으로 특정 패턴과 일치하거나 대상 데이터 패턴으로 변환하거나 매핑할 수 있습니다. -응?

또 다른 설명 방법은 대상 영역의 본체나 사전을 만들어 의미 관점에서 주제의 다양한 특징의 중요성을 분석하는 것입니다. -응?

3 네트워크 검색 정책?

웹 캡처 전략은 깊이 우선 순위, 폭 우선 순위 및 최적 우선 순위로 나눌 수 있습니다. 깊이 우선 순위는 많은 경우에 파충류의 갇힌 문제를 초래할 수 있다. 현재 일반적으로 사용되는 폭 넓은 우선 순위법과 최고의 우선 순위법. -응?

3. 1 폭 우선 검색 전략?

폭 우선 검색 전략이란 크롤링 중 현재 레벨이 완료된 후 다음 레벨의 검색을 수행하는 것을 말합니다. 이 알고리즘의 설계와 구현은 비교적 간단하다. 현재, 가능한 많은 홈페이지를 포괄하기 위해 일반적으로 폭 우선 검색 방법을 채택하고 있다. 광범위한 우선 검색 전략을 파충류에 적용하는 연구도 많다. 기본 아이디어는 초기 URL 에서 일정한 링크 거리 내에 있는 웹 페이지에 주제 관련성이 있을 확률이 높다는 것입니다. 또 다른 방법은 폭 우선 검색을 웹 필터링 기술과 결합하여 폭 우선 정책을 사용하여 웹 페이지를 먼저 캡처한 다음 관련 없는 웹 페이지를 필터링하는 것입니다. 이러한 방법의 단점은 웹 페이지 캡처가 늘어남에 따라 대량의 관련 없는 웹 페이지가 다운로드되어 필터링되고 알고리즘의 효율성이 떨어진다는 것이다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 성공명언) -응?

3.2 최고의 우선 순위 검색 전략은 무엇입니까?

최적 우선 순위 검색 전략은 특정 웹 페이지 분석 알고리즘에 따라 대상 웹 페이지와 후보 URL 의 유사성 또는 주제와의 관련성을 예측하여 평가할 가장 좋은 URL 을 하나 이상 선택합니다. 웹 페이지 분석 알고리즘에 의해 "유용한" 것으로 예측된 웹 페이지에만 액세스됩니다. 한 가지 문제는 파충류 크롤링 경로에 있는 많은 관련 웹 페이지가 무시될 수 있다는 것입니다. 최적의 우선 순위 전략은 부분적인 최적 검색 알고리즘이기 때문입니다. 따라서 특정 응용 프로그램과 결합하여 최적의 우선 순위를 높여야 로컬 최적에서 벗어날 수 있습니다. 네 번째 부분에서는 웹 페이지 분석 알고리즘에 대해 자세히 설명합니다. 연구에 따르면 이러한 폐쇄 루프 조정은 관련 없는 웹 페이지의 수를 30 ~ 90% 줄일 수 있습니다. -응?

4 페이지 분석 알고리즘?

웹 페이지 분석 알고리즘은 네트워크 토폴로지 기반, 웹 콘텐츠 기반 및 사용자 액세스 동작의 세 가지 유형으로 요약할 수 있습니다. -응?

4. 1 네트워크 토폴로지 기반 분석 알고리즘?

웹 페이지 간의 링크를 기반으로 알려진 웹 페이지 또는 데이터를 통해 웹 페이지 또는 웹 사이트와 같이 직접 또는 간접적으로 연결된 객체를 평가하는 알고리즘입니다. 웹 세분성, 웹 세분성, 웹 블록 세분성의 세 가지 범주로 나뉩니다. -응?

4.1..1웹 세분화 분석 알고리즘?

PageRank 와 HITS 알고리즘은 가장 일반적인 링크 분석 알고리즘으로, 둘 다 웹 페이지 간의 링크를 재귀적으로 계산하고 표준화하여 각 웹 페이지의 중요성을 평가합니다. PageRank 알고리즘은 사용자 액세스 동작의 무작위성과 Sink 웹 페이지의 존재를 고려하지만, 대부분의 사용자 액세스는 목적이 있습니다. 즉, 웹 페이지와 링크 및 쿼리 주제의 상관 관계는 무시됩니다. 이 문제를 해결하기 위해 HITS 알고리즘은 권위와 허브라는 두 가지 핵심 개념을 제시했다. -응?

링크 기반 크롤링 문제는 관련 페이지 항목 간의 터널링 현상입니다. 즉, 크롤링 경로에서 주제에서 벗어난 많은 페이지도 대상 페이지를 가리키고 로컬 평가 전략은 현재 경로의 크롤링 동작을 중단합니다. 문헌 [2 1] 은 대상 웹 페이지의 물리적 홉 수 반경 내에 있는 웹 토폴로지의 중심 계층 0 을 대상 웹 페이지로 설명하는 역방향 링크 기반 계층 컨텍스트 모델을 제시했습니다. 대상 웹 페이지의 물리적 홉 수에 따라 웹 페이지를 계층적으로 분류하고, 외부 웹 페이지에서 내부 웹 페이지로의 링크를 역방향 링크라고 합니다. -응?

4. 1.2 사이트 세분성 분석 알고리즘?

사이트 입도의 자원 검색 및 관리 전략도 웹 페이지 입도보다 간단하고 효과적입니다. 사이트 세분성 파충류 캡처의 관건은 사이트 구분과 사이트 순위 계산에 있다. SiteRank 는 PageRank 와 유사하게 계산되지만 웹 사이트 간의 링크는 어느 정도 추상화되어야 하며 특정 모델에서 링크의 가중치를 계산해야 합니다. -응?

웹 사이트는 도메인 이름 및 IP 주소별 두 가지 범주로 나눌 수 있습니다. 문헌 [18] 같은 도메인 이름 아래 서로 다른 호스트와 서버의 IP 주소를 나누고, 사이트 지도를 만들고, PageRank 와 같은 방식으로 SiteRank 를 평가하는 방법에 대해 설명합니다. 또한 각 사이트에 있는 여러 파일의 분포에 따라 SiteRank 의 분산 컴퓨팅과 함께 DocRank 를 생성하는 문서 다이어그램을 구성합니다. 문헌 [18] 분산 사이트 랭크 컴퓨팅은 단일 사이트의 알고리즘 오버헤드를 크게 줄일 뿐만 아니라 단일 사이트의 전체 네트워크 커버리지에 대한 단점을 극복했습니다. 한 가지 추가적인 장점은 일반적인 PageRank 사기가 SiteRank 를 속이기 어렵다는 것이다. -응?

4. 1.3 웹 블록 세분성 분석 알고리즘?

한 페이지에서 다른 페이지를 가리키는 링크가 여러 개 있는 경우가 많습니다. 이러한 링크 중 일부만 주제와 관련된 페이지를 가리키거나 한 페이지의 링크 앵커 텍스트에 따라 매우 중요합니다. PageRank 와 HITS 알고리즘에서는 이러한 링크가 구분되지 않아 웹 페이지 분석에 광고와 같은 소음 링크를 가져오는 경우가 많습니다. 웹 블록 레벨 (블록? 링크 분석 알고리즘의 기본 아이디어는 VIPS 웹 분할 알고리즘을 통해 웹 페이지를 여러 페이지 블록으로 나눈 다음 해당 페이지 블록에 대한 페이지를 만드는 것입니다. 어디 가? 가로막고 있어? 어디 가? 페이지의 링크 매트릭스로, 각각 z 와 x 로 기록됩니다. 그럼 페이지에? 어디 가? PageMap 의 페이지 블록 레벨 PageRank 는 무엇입니까? W? P = x × z; -응? 블록에 있어요? 어디 가? 상자 그림에 있는 블락랭크는 무엇인가요? W? B = z × X.? 블록 수준에서 PageRank 와 HITS 알고리즘을 구현한 결과 효율성과 정확도가 기존의 대응 알고리즘보다 우수함을 입증했습니다. -응?

4.2 웹 콘텐츠 기반 웹 페이지 분석 알고리즘?

웹 콘텐츠 기반 분석 알고리즘은 웹 콘텐츠의 특징 (텍스트, 데이터 등 리소스) 을 이용하여 웹 페이지를 평가하는 것을 말합니다. 웹 콘텐츠는 하이퍼텍스트에서 동적 페이지 (또는 숨겨진 웹) 데이터로 발전했으며, 이는 직접 보이는 페이지 데이터 (PIW) 의 약 400~500 배에 달하는 데이터 양입니다. 반면에 멀티미디어 데이터 및 웹 서비스와 같은 다양한 형태의 네트워크 자원도 점점 더 풍부해지고 있습니다. 따라서 웹 컨텐츠 기반 분석 알고리즘은 간단한 텍스트 검색 방법에서 웹 데이터 추출, 기계 학습, 데이터 마이닝, 의미 이해 등을 포괄하는 포괄적인 응용 프로그램으로 발전했습니다. 이 섹션에서는 웹 데이터의 형식에 따라 웹 컨텐츠 기반 분석 알고리즘을 세 가지 범주로 요약합니다. 첫 번째 범주는 텍스트와 하이퍼링크가 포함된 구조화되지 않거나 간단한 웹 페이지에 대한 것입니다. 두 번째는 RDBMS 와 같은 구조화된 데이터 소스에서 동적으로 생성된 페이지에 대한 데이터로는 직접 대량으로 액세스할 수 없습니다. 세 번째 유형의 데이터는 첫 번째 클래스와 두 번째 유형의 데이터 사이에 있으며, 특정 패턴이나 스타일로 표시되며 직접 액세스할 수 있습니다.