网络爬虫技术的概述与研究

内容来自用户:Z_Arcueid
网络爬虫技术的概述与研究摘要网络爬虫，又被称为网页蜘蛛，网络机器人，随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问web的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。本文将对网络爬虫技术及其原理进行简单的介绍，并且给出实例。关键词网络爬虫聚焦爬虫网页抓取搜索策略URL一、网络爬虫的简介1、URL在介绍网络爬虫之前，先引入URL的相关知识。URL是URI的一个子集。它是UniformResourceLocator的缩写，译为“统一资源定位符”。通俗地说，URL是Internet上描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上，特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。URL的格式由三部分组成：・第一部分是协议(或称为服务方式)。・第二部分是存有该资源的主机相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：基于网页内容的分析算法指的是利用网页内容（文本、数据等资源）特征进行的网页评价。网页
爬虫技术概述网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：(1) 对抓取目标的描述或定义；(2) 对网页或数据的分析与过滤；(3) 对URL的搜索策略。

文章标签：

来自：网络爬虫是什么意思

本文链接：https://www.u1e.cn/baike/a/4a7965d9a025018670e709db [复制]