爬虫是用来干嘛的,怎么看待爬虫的繁殖,爬虫是用来干嘛的,怎么看待爬虫行为

  爬虫是用来干嘛的,怎么看待爬虫的繁殖,爬虫是用来干嘛的,怎么看待爬虫行为

  一、网络爬虫的定义网络爬虫,即网络蜘蛛,是一个很形象的名字。

  把互联网比作蜘蛛网,那么Spider就是在互联网上爬来爬去的蜘蛛。

  蜘蛛通过链接地址寻找网页。

  从网站的某一页(通常是首页)开始,阅读网页的内容,找到网页中的其他链接地址,

  然后通过这些链接地址寻找下一个网页,如此循环,直到这个网站的所有网页都被抓取。

  如果把整个互联网看成一个网站,那么网络蜘蛛就可以利用这个原理抓取互联网上的所有网页。

  这样,网络爬虫就是一个爬行程序,一个爬行网页的程序。

  网络爬虫的基本操作是抓取网页。

  那么如何才能随心所欲的得到自己想要的页面呢?

  先说网址。

  二、浏览网页的过程抓取网页的过程其实和读者平时用IE浏览器浏览网页是一样的。

  例如,如果您在浏览器的地址栏中键入www.baidu.com的地址。

  其实打开网页的过程就是浏览器作为浏览“客户端”向服务器发出请求,从服务器“抓取”文件到本地,然后进行解释和展示。

  HTML是一种标记语言,它使用标签来标记内容,解析和区分内容。

  浏览器的作用就是对获取的HTML代码进行解析,然后将原始代码转化为我们可以直接看到的网站页面。

  三、URI和URL的概念和举例简单地说,这个URL就是http://www.baidu.com在浏览器中输入的字符串。

  在了解URL之前,我们应该先了解URI的概念。

  什么是URI?

  网络上所有可用的资源,如HTML文档、图像、视频剪辑、程序等。由统一资源标识符(URI)定位。

  URI通常由三部分组成:

  访问资源的命名机制;

  存储资源的主机名;

  资源本身的名称,用路径表示。

  比如下面的http://www.why.com.cn/myhtml/html1223/. URI;我们可以这样解释它:

  这是一个可以通过HTTP协议访问的资源。

  位于主机www.webmonkey.com.cn上,

  通过路径“/html/html40”访问。

  四、URL的理解和举例

  URL是URI的子集。是Uniform Resource Locator的缩写,翻译为“统一资源定位器”。

  一般来说,URL是描述互联网上信息资源的字符串,主要用于各种WWW客户端程序和服务器程序中。

  URL可以用来以统一的格式描述各种信息资源,包括文件、服务器的地址和目录等。

  URL的一般格式是(方括号[]是可选的):

  协议://主机名[:端口] /路径/[;参数][?查询]#片段

  URL的格式由三部分组成:

  第一部分是协议(或服务方式)。

  第二部分是存储资源的主机的IP地址(有时包括端口号)。

  第三部分是主机资源的具体地址,如目录、文件名等。

  第一部分和第二部分由“://”符号分隔,

  第二部分和第三部分由“/”符号分隔。

  第一、二部分缺一不可,第三部分有时可以省略。

  五、URL和URI简单比较URI属于URL的较低层抽象,一种字符串文本标准。

  换句话说,URI属于父类,而URL属于URI的子类。URL是URI的子集。

  URI的定义是:统一资源标识符;

  URL的定义是:统一资源定位符。

  两者的区别在于,URI代表请求服务器的路径,并定义了这样的资源。

  URL还解释了如何访问这个资源(http://)。

  下面来看看两个URL的小例子。1.HTTP协议的URL示例:

  使用超文本传输协议HTTP为超文本信息服务提供资源。

  例如:http://www.peopledaily.com.cn/channel/welcome.htm

  它的电脑域名是www.peopledaily.com.cn。

  超文本文件(文件类型:html)是目录/频道中的welcome.htm。

  这是中国人民日报的电脑。

  例如:http://www.rol.cn.NET/talk/talk1.htm

  它的电脑域名是www.rol.cn.Net。

  超文本文件(文件类型:html)是目录/talk中的talk1.htm。

  这是莱德聊天室的地址,你可以进入莱德聊天室的1号房间。

  更多Python视频、源代码和资料可以免费获得,电话:725638078。

  2文件的URL

  用URL表示文件时,服务器模式用file表示,后面是主机IP地址、文件访问路径(即目录)、文件名等信息。

  有时可以省略目录和文件名,但不能省略“/”符号。

  例如:file://FTP . yoyodyne . com/pub/files/foobar . txt

  上面的URL代表了一个存储在主机ftp.yoyodyne.com上的pub/files/目录中的文件,它的文件名是foobar.txt

  示例:file://ftp.yoyodyne.com/pub

  代表主机ftp.yoyodyne.com上的目录/发布。

  示例:file://ftp.yoyodyne.com/

  表示主机ftp.yoyodyne.com的根目录。

  爬虫的主要处理对象是URL,根据URL地址获取所需的文件内容,然后进一步处理。

  因此,准确理解URL对于理解网络爬虫非常重要。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: