거미란 무엇인가?

인터넷 거미 [요약]' 거미' 프로그램이 등장하자 현대적 의미의 검색 엔진이 나타나기 시작했다. 사실 컴퓨터 로봇입니다. 즉, 인간이 달성할 수 없는 속도로 어떤 임무를 수행할 수 있는 소프트웨어 프로그램입니다. 정보 검색만을 전문으로 하는 로봇 프로그램이 거미처럼 인터넷을 기어다니고, 반복해서 지치지 않기 때문이다. 따라서 검색 엔진의 "로봇" 프로그램을 "거미" 프로그램이라고 합니다.

키워드: 웹 거미의 기원 원리 최적화

카탈로그

인터넷 거미란 무엇입니까?

인터넷 거미의 기원

인터넷 거미의 작동 원리

본문은 인터넷 거미로 시작한다

1. 인터넷 거미란 무엇입니까?

-인터넷 거미란 무엇입니까? 인터넷 거미는 매우 생동감 있는 이름이다. 인터넷을 거미줄에 비유하면 Spider 는 인터넷을 기어다니는 거미이다. 웹 거미는 링크 주소를 통해 웹 페이지를 찾고, 웹 사이트의 한 페이지 (일반적으로 홈 페이지) 로 시작하고, 웹 페이지의 내용을 읽고, 웹 페이지의 다른 링크 주소를 찾은 다음, 해당 사이트의 모든 웹 페이지를 캡처할 때까지 이러한 링크 주소를 통해 다음 웹 페이지를 찾는 등의 작업을 수행합니다. 인터넷 전체를 하나의 사이트로 본다면, 인터넷 거미는 이 원리를 이용하여 인터넷의 모든 페이지를 잡을 수 있다.

이런 관점에서 볼 때, 인터넷 거미는 웹 페이지를 잡는 프로그램이다.

인터넷 거미의 기원.

인터넷 거미의 기원을 알려면 검색 엔진으로 말해야 한다. 검색 엔진이란 무엇입니까? 검색 엔진의 기원은 무엇입니까? 이것은 인터넷 거미의 기원과 밀접한 관련이 있다.

검색 엔진 (Search engine) 은 인터넷에서 자동으로 정보를 수집하여 정리하여 사용자에게 제공하는 시스템입니다. 인터넷상의 정보는 연기와 바다처럼 뒤죽박죽이다. 모든 정보는 마치 바다 속의 외딴 섬과 같다. 웹 링크는 이 섬들 사이에 가로놓인 다리이며, 검색 엔진은 언제든지 찾아볼 수 있는 명확한 정보 지도를 그립니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 인터넷명언)

검색 엔진은 1990 이 프로토타입이 나타난 이후 사람들의 생활에 없어서는 안 될 부분이 되었다. 그것은 기술과 관념에 있어서 너무 많은 변화를 겪었다.

-14 년 전 1994 년 1 월, 검색 및 찾아보기 가능한 최초의 디렉토리 EINetGalaxy 가 출시되었습니다. 야후는 우리가 지금 알고 있는 구글과 바이두까지 그 이후에야 나타났다. 하지만 그들은 처음으로 검색 엔진인 게를 먹은 사람이 아니다. 검색 엔진의 프로토타입은 FTP 에서 파일 검색부터 나타난다. 그때는 월드 와이드 웹이 없었다. 당시 사람들은 손으로 홈페이지를 검색한 다음 거미 프로그램을 사용했다. 하지만 인터넷이 커짐에 따라 더 많은 홈페이지를 수집하는 방법, 시간을 단축하는 것이 당시의 난점과 중점으로 자리잡아 사람들의 연구의 초점이 되었다.

-검색 엔진의 프로토 타입이 처음 등장했습니다.

-추적하려면 검색 엔진의 역사가 월드 와이드 웹보다 더 길다. 인터넷이 등장하기 전부터 인터넷에는 사람들이 즐길 수 있는 많은 정보 자원이 있었다. 이러한 리소스는 주로 당시 익명 액세스가 허용된 다양한 FTP 사이트에 존재합니다. 사람들이 흩어진 FTP 자원에서 필요한 것을 쉽게 찾을 수 있도록 1990 년 캐나다 맥길 대학의 대학생 몇 명이 소프트웨어 Archie 를 개발했다. 검색 가능한 FTP 파일 이름 목록입니다. 사용자는 정확한 파일 이름 검색을 입력해야 합니다. 그러면 Archie 는 사용자에게 이 파일을 다운로드할 수 있는 FTP 주소를 알려 줍니다. Archie 는 실제로 큰 데이터베이스이며, 이 큰 데이터베이스와 연관된 검색 방법을 추가합니다. Archie 는 아직 검색 엔진이 아니지만 작동 원리로 볼 때 모든 검색 엔진의 시조이다.

월드 와이드 웹 (WorldWideWeb) 이 나타날 때 사람들은 html 을 통해 웹 페이지 정보를 전파할 수 있고, 인터넷의 정보는 두 배로 증가하기 시작한다. 사람들은 다양한 방법을 사용하여 쉽게 검색할 수 있도록 인터넷상의 정보를 수집, 분류 및 정리합니다. 요즘 사람들이 잘 알고 있는 웹사이트인 야후가 이런 환경에서 탄생했다. 스탠포드 대학에서 여전히 공부하고 있는 미국계 중국인 양치원과 그의 급우들은 인터넷에 푹 빠져 있다. 그들은 인터넷에서 재미있는 홈페이지를 수집하여 그들의 급우들과 공유한다. 나중에 1994 년 4 월, 그들은 함께 야후를 설립했다. 방문수와 포함 링크가 늘어남에 따라 야후 카탈로그는 간단한 데이터베이스 검색을 지원하기 시작했습니다. 그러나 야후의 데이터는 수동으로 입력되기 때문에 실제로 검색 엔진으로 분류할 수는 없다. 사실 검색 가능한 디렉토리일 뿐입니다.

거미 프로그램이 등장했을 때, 현대의 검색 엔진이 등장하기 시작했다. (윌리엄 셰익스피어, 거미, 거미, 거미, 거미, 거미, 거미, 거미, 거미, 거미) 사실 컴퓨터 로봇입니다. 즉, 인간이 달성할 수 없는 속도로 어떤 임무를 수행할 수 있는 소프트웨어 프로그램입니다. 정보 검색만을 전문으로 하는 로봇 프로그램이 거미처럼 인터넷을 기어다니고, 반복해서 지치지 않기 때문이다. 따라서 검색 엔진의 "로봇" 프로그램을 "거미" 프로그램이라고 합니다.

이 프로그램은 실제로 html 문서 간의 링크 관계를 이용하여 웹 페이지를 한 페이지씩 기어다니며 시스템에 캡처하여 분석하고 데이터베이스에 넣는 것입니다. 매튜 그레이는 처음으로 거미 프로그램을 개발한 사람이다. 그는 1993 에서 월드 와이드 웹 로버를 개발했다. 그것은 원래 인터넷에 있는 서버의 수를 집계하기 위해 만들어졌으며, 나중에는 웹 주소를 캡처하도록 발전했다. 현대 검색 엔진의 사상은 많은 사람들이 거미 프로그램을 개선한' 유람자' 에서 유래했다.

-Lycos 웹사이트는 7 월 20 일 발표됐다. 1994 는 먼저' 거미' 프로그램을 색인 프로그램에 액세스했다. "거미" 도입의 가장 큰 장점은 다른 검색 엔진의 데이터량을 훨씬 뛰어넘는다는 것이다. 그 이후로 거의 모든 주류 검색 엔진은' 거미' 를 이용하여 인터넷 정보를 수집했다. Infoseek 는 또 다른 중요한 검색 엔진이며 1994 년 말에야 대중 앞에 나타났다. 처음에 Infoseek 는 야후의 뒤를 잇는 무명 검색 엔진일 뿐이었다. 리코스, 독특한 혁신은 없습니다. 그러나 친숙한 사용자 인터페이스와 다양한 추가 서비스를 통해 사용자들 사이에서 명성을 얻었습니다. 2 월, 웹뷰 회사와 체결한 전략협정으로 강력한 검색 엔진이 됐다. 사용자가 웹브라우저의 검색 버튼을 클릭하면 Infoseek 의 검색 서비스가 팝업되고 Yahoo! 이 서비스를 제공하다. 1995 65438+2 월 15, Alta Vista 가 공식 온라인 상태입니다. 고급 검색 구문을 지원하는 최초의 검색 엔진으로서 이전의 모든 정보 검색 기술을 성공적으로 통합하고 벡터 공간 모델을 통해 어근 처리, 키워드 검색, 부울 논리, 쿼리 정렬 등의 주요 문제를 해결했습니다. 공식 공개에 앞서 알타비스타에는 20 만 명의 방문객이 있었는데, 단 3 주 만에 방문객 수가 하루 30 만 명에서 200 만 명으로 늘어났다. 그 성공은 사용자의 세 가지 요구 사항을 충족하는 데 있습니다. 온라인 색인은 이전 검색 엔진 중 어느 것보다 더 넓습니다. 검색 결과는 단 몇 초 만에 방대한 데이터베이스에서 사용자에게 반환될 수 있습니다. Alta Vista 팀은 처음부터 모듈식 설계 기술을 사용하여 웹 사이트의 트렌드를 추적하고 처리 능력을 지속적으로 확장할 수 있습니다. 당시 많은 검색 엔진 중에서 알타비스타는 눈에 띄어 온라인 검색의 대명사가 되었다. 구글은 이런 거인의 어깨에 서서 전복하고 창조한 것이다. 온라인 검색' 은 사람들이 인터넷을 하는 방식을 바꾸었다. 바로 현재 유명한 구글이다. 구글은 검색 엔진의 발명자가 아니며, 심지어 약간 뒤떨어져 있지만, 사람들이 수색을 좋아하게 한다.

-1998 9 월, 페기와 브린이 구글을 창립했을 때, 인터넷 검색 기능에 대한 업계의 이해는 하나의 키워드가 문서에 더 자주 나타날수록 검색 결과에서 그 문서의 순위가 더욱 두드러진다는 것이다. 이로 인해 문제가 발생합니다. 한 페이지가 키워드로 가득 차면 매우 두드러진 위치에 놓이지만 이러한 페이지는 사용자에게 의미가 없습니다. 페치와 브린은' 페이지 랭크' 기술을 발명하여 검색 결과를 배열했다. 즉, 이 페이지가 인터넷에서 연결된 빈도와 중요성을 조사하는 것이다. 인터넷에서 중요한 사이트가 이 페이지를 가리킬수록 이 페이지의 순위가 높아진다. A 페이지에서 B 페이지로 연결할 때 구글은 "A 페이지가 B 페이지에 투표했다" 고 생각한다. 구글은 홈페이지가 얻은 표수에 따라 홈페이지의 중요성을 평가한다. 하지만 구글은 단순한 표수 외에도 투표한 페이지를 분석해' 중요' 페이지에 투표한 표에 더 높은 가중치를 부여하며 다른 페이지의' 중요성' 을 높이는 데 도움이 된다. 구글은 복잡한 완전 자동 검색 방법으로 인적 요소가 검색 결과에 미치는 영향을 없앴습니다. 아무도 더 높은 등급의 홈페이지를 사는데 돈을 쓸 수 없어 홈페이지 순위의 객관적이고 공정한 것을 보장할 수 없다. 또한 동적 요약, 웹 스냅샷, 다중 문서 형식 지원, 지도 주식 사전 검색 등 통합 검색도 네티즌들의 주목을 받고 있습니다. 구글에 이어 다른 많은 검색 엔진이 이러한 서비스를 내놓았다. Fast(Alltheweb) 가 발표한 검색 엔진인 AllTheWeb 은 노르웨이에 본사를 두고 있으며 해외에서의 인지도는 구글과 거의 비슷하다. Alltheweb 은 플래시 및 pdf 검색, 다국어 검색, 뉴스 검색, 사진 검색, 비디오 검색, MP3 검색, FTP 검색을 지원하며 매우 강력한 고급 검색 기능을 제공합니다. 중국의 바이두는' 중국어를 더 잘 안다' 로 중국의 인터넷 관객을 끌어들여 6543.8+0 억이 넘는 중국어 웹 데이터베이스를 보유하고 있으며, 이들 웹 페이지의 수는 매일 수천만 속도로 증가하고 있다.

검색 엔진은 점점 사람들의 생활의 중요한 부분이 되고 있다. 자료 검색, 지도 확인, 음악 듣기, 생각지도 못한 것, 찾을 수 없는 것.

-검색 엔진의 세 가지 기본 원칙

-1. 거미 시스템 프로그램을 사용하여 자동으로 인터넷에 접속하고, 임의의 웹 페이지의 모든 웹 주소를 따라 다른 웹 페이지로 기어오르고, 이 과정을 반복하여 크롤링된 모든 웹 페이지를 수집합니다.

2. 색인 시스템 프로그램을 분석하여 수집된 웹 페이지를 분석하고, 관련 웹 페이지 정보를 추출하고, 특정 연관 알고리즘에 따라 대량의 복잡한 계산을 수행하여 각 웹 페이지가 웹 페이지 내용과 하이퍼링크의 각 키워드에 대한 연관성 (또는 중요성) 을 산출한 다음, 이러한 관련 정보를 이용하여 웹 인덱스 데이터베이스를 구축합니다.

3. 사용자가 검색할 키워드를 입력하면 검색 시스템 프로그램은 웹 색인 데이터베이스에서 해당 키워드와 일치하는 모든 관련 웹 페이지를 찾습니다. 상관도의 수치 순위, 연관성이 높을수록 순위가 높아진다. 마지막으로 페이지는 시스템 조직 검색 결과의 링크 주소와 페이지 내용 요약을 생성하여 사용자에게 반환합니다.

-말하자면, 당신은 검색 엔진과 인터넷 거미에 대해 초보적인 이해를 가지고 있을 것이다!

인터넷 거미의 작동 원리.

검색 엔진에 있어서, 인터넷의 모든 페이지를 잡는 것은 거의 불가능하다. 발표된 자료에 따르면 용량이 가장 큰 검색 엔진은 전체 웹 페이지 수의 40% 정도만 포착했다. 한 가지 이유는 크롤링 기술의 병목 현상으로 모든 웹 페이지를 트래버스할 수 없고, 많은 웹 페이지를 다른 웹 페이지의 링크에서 찾을 수 없기 때문입니다. 또 다른 이유는 스토리지 기술 및 가공 기술의 문제입니다. 페이지당 평균 크기가 20K 인 경우 (그림 포함) 1000 억 페이지의 용량은 100×2000G 바이트입니다. 저장할 수 있더라도 다운로드에 문제가 있습니다 (한 대의 기계가 초당 20K 를 다운로드하면 1 년에 340 대의 기계가 모든 페이지를 다운로드할 수 있습니다). 또한 데이터 양이 많기 때문에 검색을 제공할 때도 효율성에 영향을 미칠 수 있습니다. 따라서 많은 검색 엔진은 중요한 웹 페이지만 캡처하며, 수집할 때 중요성을 평가하는 주된 근거는 웹 페이지의 링크 깊이입니다.

-웹 페이지를 잡을 때 웹 거미는 일반적으로 폭 우선 순위와 깊이 우선 순위라는 두 가지 전략을 가지고 있습니다 (아래 그림 참조).

-폭 우선 순위는 웹 거미가 먼저 초기 페이지에 연결된 모든 페이지를 캡처한 다음 연결된 페이지 중 하나를 선택하여 해당 페이지에 연결된 모든 페이지를 계속 캡처하는 것을 의미합니다. 이것은 인터넷 거미가 병렬로 처리하고 자신의 크롤링 속도를 높일 수 있기 때문에 가장 일반적으로 사용되는 방법이다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 인터넷명언) 깊이 우선 (Depth-first) 은 웹 거미가 시작 페이지에서 시작하여 다른 링크를 추적하고 이 행을 처리한 후 다음 시작 페이지로 가서 링크를 계속 추적하는 것을 의미합니다. 이 방법의 장점 중 하나는 인터넷 거미를 위해 더 쉽게 설계할 수 있다는 것이다. 이 두 전략의 차이는 다음 그림에서 더욱 두드러집니다.

-모든 웹 페이지를 캡처할 수 없기 때문에 일부 웹 거미는 덜 중요한 웹 사이트에 대한 액세스 계층을 설정합니다. 예를 들어 위 그림에서 A 는 초기 홈페이지로 레벨 0, B, C, D, E, F 는 1 레벨, G, H 는 레벨 2, I 는 레벨 3 에 속한다. 웹 거미가 액세스 레벨 2 를 설정하면 웹 페이지 I 는 액세스되지 않습니다. 이로 인해 일부 웹 사이트의 일부 웹 페이지는 검색 엔진에서 검색할 수 있고 다른 웹 페이지는 검색할 수 없습니다. 웹 사이트 디자이너에게 평평한 웹 사이트 구조 설계는 검색 엔진이 더 많은 페이지를 잡는 데 도움이 됩니다.

-웹거미는 홈페이지를 방문할 때 데이터 암호화와 웹페이지 권한 문제가 자주 발생하는데, 일부 웹페이지는 회원권한이 있어야 접근할 수 있다. 물론, 웹 사이트 소유자는 프로토콜 (다음 섹션에서 설명) 을 통해 웹 스파이더 캡처를 차단할 수 있지만, 보고서를 판매하는 일부 웹 사이트의 경우 검색 엔진이 보고서를 검색할 수 있기를 원하지만 검색자가 무료로 볼 수는 없으므로 웹 거미에게 해당 사용자 이름과 암호를 제공해야 합니다. 웹 거미는 주어진 권한으로 이러한 페이지를 캡처하여 검색을 제공할 수 있습니다. 검색자가 웹 페이지 보기를 클릭하면 검색자도 적절한 권한 검증을 제공해야 합니다.

모든 인터넷 거미는 자신의 이름을 가지고 있으며, 그가 홈페이지를 잡을 때, 그는 웹사이트에 자신의 신분을 밝힐 것이다. 웹 거미가 웹 페이지를 잡을 때, 웹 거미의 신원을 식별하는 사용자 에이전트라는 필드가 있는 요청을 보냅니다. 예를 들어 구글 인터넷 거미의 로고로는 구글 봇, 바이두 인터넷 거미는 바이두스피더, 야후 인터넷 거미는 인코미 슬루프 (Inktomi Slurp) 이다. 웹사이트에 방문 기록이 있다면, 역장은 어떤 검색 엔진의 인터넷 거미가 왔는지, 언제 왔는지, 얼마나 많은 데이터를 읽었는지 알 수 있다. 역장이 거미 한 마리에 문제가 있다는 것을 알게 되면, 그 로고로 주인에게 연락할 수 있다.

웹 거미는 웹 사이트에 들어가고, 보통 특별한 텍스트 파일인 robots.txt 에 액세스합니다. 이 파일은 보통 웹 서버의 루트 아래에 있습니다. 예를 들면: //robots.txt .. 역장은 Robots.txt 를 통해 웹 거미가 액세스할 수 없는 디렉토리나 일부 웹 거미가 액세스할 수 없는 디렉토리를 정의할 수 있습니다. Robots.txt 의 구문은 매우 간단합니다. 예를 들어, 디렉토리에 제한이 없는 경우 User-agent: * 라는 두 줄로 설명할 수 있습니다

허용되지 않음:

물론 Robots.txt 는 단지 합의일 뿐이다. 웹 거미의 디자이너가 이 프로토콜을 준수하지 않으면 웹 거미가 특정 페이지를 방문하는 것을 막을 수는 없지만, 일반 웹 거미는 이러한 프로토콜을 준수하며 웹 거미가 특정 페이지를 잡는 것을 다른 방법으로 거부할 수도 있습니다.

-웹 페이지를 다운로드할 때 웹 거미는 웹 페이지의 HTML 코드를 인식하며 코드 섹션에는 메타 로고도 있습니다. 이러한 로고를 통해 웹 거미에게 이 웹 페이지를 캡처해야 하는지, 웹 거미라는 웹 페이지의 링크를 계속 추적해야 하는지 여부를 알릴 수 있습니다. 예를 들어 이 페이지는 잡을 필요가 없지만 페이지의 링크는 추적해야 합니다.

-검색 엔진에서 텍스트 파일로 처리되는 웹 페이지를 색인화합니다. 웹 거미의 경우 캡처된 웹 페이지에는 html, 그림, doc, pdf, 멀티미디어, 동적 웹 페이지 등 다양한 형식이 포함됩니다. 이러한 파일을 캡처한 후에는 해당 파일에서 텍스트 정보를 추출해야 합니다. 이러한 문서에 대한 정보를 정확하게 추출하는 것은 검색 엔진의 검색 정확도에 중요한 역할을 하고, 다른 한편으로는 웹 거미가 다른 링크를 올바르게 추적하는 데도 영향을 미친다. (윌리엄 셰익스피어, 검색어, 검색어, 검색어, 검색어, 검색어, 검색어, 검색어) 공급업체는 doc, pdf 등 전문 공급업체가 제공하는 소프트웨어 생성 문서에 적합한 텍스트 추출 인터페이스를 제공합니다. 웹 거미는 이러한 플러그인의 인터페이스만 호출하면 문서의 텍스트 정보 및 파일에 대한 기타 관련 정보를 쉽게 추출할 수 있습니다. 하지만 HTML 과 같은 문서는 다릅니다. HTML 에는 자체 문법이 있습니다. 명령 식별자마다 글꼴, 색상, 위치 등 다양한 형식을 나타내는 데 사용됩니다. 텍스트 정보를 추출할 때 이러한 식별자를 필터링해야 합니다. 식별자를 필터링하는 것은 어렵지 않습니다. 이러한 식별자에는 일정한 규칙이 있기 때문에 다른 식별자에 따라 해당 정보를 얻을 수 있습니다. 그러나 이러한 메시지를 식별할 때는 페이지의 글꼴 크기, 제목, 굵게 표시, 키워드 등과 같은 많은 레이아웃 정보를 동시에 기록해야 합니다. 이렇게 하면 웹 페이지에서 텍스트의 중요성을 계산하는 데 도움이 됩니다. 또한 HTML 페이지의 경우 제목과 본문 외에도 본문 텍스트와 무관한 광고 및 공용 채널 링크가 많이 있습니다. 페이지 내용을 추출할 때 이러한 쓸모없는 링크도 필터링해야 합니다. 예를 들어 웹 사이트에는 웹 사이트의 각 페이지에서 탐색 막대를 찾을 수 있기 때문에 제품 설명 채널이 있습니다. 탐색 막대 링크를 필터링하지 않으면 "제품 설명" 을 검색할 때 웹 사이트의 모든 페이지를 검색하게 되므로 많은 스팸이 생길 수 있습니다. 이러한 유효하지 않은 링크를 필터링하려면 많은 수의 웹 구조 규칙, * * * 기능 추출, 통합 필터링 등이 필요합니다. 특별한 결과가 있는 일부 중요한 사이트의 경우 별도로 처리해야 합니다. 이를 위해서는 인터넷 거미의 설계가 확장성이 있어야 한다.

-멀티미디어, 그림 등의 파일의 경우 일반적으로 연결된 앵커 텍스트 (링크 텍스트) 및 관련 파일 주석을 통해 파일의 내용을 결정합니다. 예를 들어, "장가이 사진" 이라는 링크 텍스트가 있고 그 링크가 BMP 형식의 그림을 가리킨다면, 웹 거미는 그 그림의 내용이 "장가이 사진" 이라는 것을 알게 될 것입니다. 이렇게 하면 검색 엔진이' 장가이' 와' 사진' 을 검색할 때 이 그림을 찾을 수 있다. 또한 많은 멀티미디어 파일에는 파일 속성이 있습니다. 이러한 속성을 고려하면 파일의 내용을 더 잘 이해할 수 있습니다.

동적 웹페이지는 줄곧 인터넷 거미의 난제였다. 동적 웹 페이지는 정적 웹 페이지와 비교하여 프로그램에서 자동으로 생성하는 페이지입니다. 이렇게 하면 웹 페이지의 스타일을 빠르게 통일적으로 바꿀 수 있고, 웹 페이지가 차지하는 공간도 줄일 수 있지만, 인터넷 거미를 잡는 데 문제가 있다는 장점이 있다. 개발 언어가 늘어남에 따라 ASP, JSP, PHP 등과 같은 동적 웹 페이지의 유형도 늘어나고 있습니다. 이러한 유형의 웹 페이지는 인터넷 거미에게 더 쉬울 수 있다. 일부 스크립팅 언어 (예: VBScript, JavaScript) 에서 생성된 웹 페이지는 웹 거미가 처리하기가 더 어렵습니다. 만약 그들이 이 페이지들을 잘 처리하고 싶다면, 인터넷 거미는 자신의 스크립트 해석기를 가지고 있어야 한다. 데이터베이스에 있는 많은 데이터의 웹 사이트에서는 해당 웹 사이트의 데이터베이스를 검색하여 정보를 얻어야 하기 때문에 웹 거미의 캡처에 큰 어려움을 겪고 있습니다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 데이터베이스, 데이터베이스, 데이터베이스, 데이터베이스) 이러한 웹 사이트의 경우, 웹 사이트 디자이너가 검색 엔진에서 이 데이터를 검색할 수 있도록 하려면 전체 데이터베이스 컨텐츠를 순회할 수 있는 방법을 제공해야 합니다.

웹 콘텐츠의 추출은 줄곧 인터넷 거미의 중요한 기술이었다. 전체 시스템은 일반적으로 플러그인 형태로 플러그인 관리 서비스 프로그램을 통해 서로 다른 플러그인을 사용하여 다양한 형식의 웹 페이지를 처리합니다. 이 방법의 장점은 확장성이 좋다는 것이다. 나중에 새로운 유형이 발견될 때마다 플러그인 관리 서비스 프로그램을 플러그인으로 보완할 수 있습니다.

-웹 사이트의 내용이 끊임없이 변하기 때문에 웹 거미도 자신이 캡처한 웹 페이지의 내용을 지속적으로 업데이트해야 하기 때문에 웹 거미가 일정한 주기로 웹 사이트를 스캔하여 어떤 페이지를 업데이트해야 하는지, 어떤 페이지가 새로 추가되었는지, 어떤 페이지가 이미 기한이 지난 죽은 링크인지 확인해야 한다. (윌리엄 셰익스피어, 윈스턴, 웹, 웹, 웹, 웹, 웹, 웹, 웹, 웹, 웹)

검색 엔진의 업데이트 주기는 검색 엔진의 리콜률에 큰 영향을 미칩니다. 업데이트 주기가 너무 길면 새로 생성된 웹 페이지를 찾을 수 없습니다. 주기가 너무 짧으면 기술은 실현하기 어렵고 대역폭과 서버 자원을 낭비할 수 있다. 모든 검색 엔진 사이트가 같은 주기에서 업데이트되는 것은 아니다. 일부 업데이트 양이 많은 중요 사이트의 경우 업데이트 주기가 짧습니다. 예를 들어, 일부 뉴스 사이트는 몇 시간마다 업데이트됩니다. 반면 일부 중요하지 않은 사이트의 경우 업데이트 주기가 길어 한두 달에 한 번 업데이트될 수 있습니다.

일반적으로 웹 거미가 웹 사이트 콘텐츠를 업데이트할 때 웹 페이지를 다시 캡처할 필요가 없습니다. 대부분의 웹 페이지의 경우 웹 페이지의 속성 (주로 날짜) 만 판단하면 됩니다. 얻은 속성을 마지막으로 검색된 속성과 비교합니다. 같은 경우 업데이트할 필요가 없습니다.

-이제 인터넷 거미의 작동 원리에 대한 초보적인 이해가 있습니다. 알게 되면 앞으로의 사이트 제작에서 거미의 크롤링 법칙을 고려해야 한다. 예를 들어, 웹 사이트 지도를 만드는 것이 중요합니다. 음, 만약 당신이 더 좋은 견해를 가지고 있다면, 여기에 붙여주세요. 불새는 너와 소통하기를 매우 원한다. * * * 우리는 웹 사이트 제작 기술을 연구하고, 우리 사이트가 표준에 부합하고, 사용자의 습관에 부합하도록 최선을 다할 것입니다!

현대 검색 엔진의 웹 페이지에 대한 중요성은 일반적으로 PR 값으로 수량화된다.

일반적으로 PR 값이 높을수록 검색 결과에서 순위가 높아집니다 (중요할수록 새로워진다). 현재 많은 사람들이 여러 가지 방법으로 자신의 웹사이트의 PR 값을 올리고 있다. 사이트 내부 최적화를 제외하고 대부분의 사람들은 외부 링크를 사용한다.

다음과 같습니다.

Pr (a) = (1-d)+d (pr (t1)/c (t1)+..

여기서 PR(A) 은 Pagerank 에 따라 외부 링크 사이트 t 1 을 나타냅니다. 시스템이 웹 사이트의 PR 점수에 추가됩니다. PR(t 1) 은 외부 체인 사이트 자체의 PR 점수를 나타냅니다. C(t 1) 는 외부 링크 사이트가 소유한 외부 링크 수를 나타냅니다. 한 사이트의 투표권은 사이트 PR 점수의 0.85 에 불과하며 0.85 의 가중치는 링크된 각 외부 사이트에 균등하게 분배된다는 점을 명심해야 합니다.

Akamarketing.com 이라는 웹사이트를 상상해 보십시오. 이 사이트는 XYZ.COM 에 연결되어 있습니다. PR 값이 4 이고 외부 링크 수가 9 인 사이트입니다. 계산 공식은 다음과 같습니다.

Pr (aka) = (1-0.85)+0.85 * (4/10)

PR(AKA) = 0. 15+0.85*(0.4)

PR(AKA) = 0. 15+0.34

PR(AKA) = 0.49 입니다

즉, 내 웹 사이트에서 PR 값이 4 이고 외부 링크 수가 9 인 웹 사이트 링크를 얻으면 내 웹 사이트에서 최종적으로 얻은 PR 값은 0.49 입니다.

내 웹 사이트에 PR 값이 8 인 링크가 있고 외부 링크 수가 16 인 경우 내가 얻은 PR 값은 다음과 같습니다.

Pr (aka) = (1-0.85)+0.85 * (8/16)

PR(AKA) = 0. 15+0.85(0.5)

PR(AKA) = 0. 15+0.425

PR(AKA) = 0.575

위의 두 가지 예는 외부 체인 사이트의 PR 값이 중요하다는 것을 보여 주며 사이트의 외부 체인 수도 고려해야 할 중요한 요소입니다.