利用python爬取搜索内容,python 文件搜索

  利用python爬取搜索内容,python 文件搜索

  因为技术交流群(群号见文末)人数刚刚达到100人,为了吸引更多的人进入技术交流群,我从今天开始写一些有意思的项目。今天估计会有很多人需要这个东西,因为磁性链接被很多人认为是……(算了不说了,我是认真的人。

  )。

  磁钢棒

  在得到磁环之前,先了解一下磁环是什么?磁铁URI方案,简单地说:从“磁铁:”开始xt=urn:btih:"开头的字符串是磁链接;具体来说,“磁链接”的主要作用是识别【可以通过“点对点技术(即P2P)”下载的文件】。这种链接通过不同文件内容的哈希结果生成一个明文“数字指纹”来识别文件。而不是基于文件的位置或名称。

  仅仅知道什么是磁链接是远远不够的。我们也应该知道它在哪里。如果我们去整个互联网找一个磁性链接,那就像大海捞针,完全没有效率!其实磁链接有专门的网站,一般百度都能搜到btbook。我找到了https://www.btbook.tv/.的网站,这个网站的内容如图所示。

  查看URL设计正则表达式

  爬行之前,先搜索一下。我在这里搜的关键词是刺客信条(因为我是个认真的人。

  ),在搜索框输入“刺客信条”,点击搜索,跳转到新的页面,如图。

  观察网址。大致的格式应该是这样的“https://www.btbook.tv/search//keywords. html”。事实并非如此,因为磁性链接不止一页。如果向下滚动到末尾,将会看到如图所示的内容。

  这时候只要点开一个数字或者,看看其他页面的网址和第一页的区别。当你点击第二页的时候,你会发现网址已经变成了‘https://www.btbook.tv/search/关键词’/最后一个——‘页码’的格式。html ,所以让我们检查一下它有多少页。检查过程我就不详细解释了。经过测试,它有100页,但最后一页或几页可能是这样的。

  这就告诉我们它可能有异常,这就要求程序中必须有异常处理!

  现在先看正常情况,跳到第一页,按F12,内容出现如图。

  然后在上述网页的源代码中点击鼠标,再按Ctrl F打开搜索框。搜索您在源代码中输入的关键字。刺客信条里我在这里,然后找到对应的地方,如图。

  然后我们点击第一个标题,网页内容如图所示。

  先看URL,可以发现这里的URL就是超链接标签‘https://www.btbook.tv/.’的href对应的值,此时就可以很容易的写出正则表达式:r”。然后继续按F12,我们就重点说四件事:名字,大小,磁链接,雷电链接。这次和以前一样。找到名称、大小、磁链接、雷电链接、存储位置并写出相应的正则表达式。

  单线程爬虫实现磁力链接搜索神器

  为了方便起见,我们先说一下单线程爬虫。为了方便大家理解,代码中写了很多注释,实现代码如下:

  多线程爬虫实现磁力链接搜索神器

  有人觉得单线程速度太慢,想提高检索速度,用多线程爬虫。在使用多线程crawler之前,必须先创建多个线程。如果要使用多线程,必须在线程模块中导入Thread类。我们可以考虑为每个页面创建一个线程。实现代码如图所示。

  最后几点注意事项:第一,不要用分布式多线程爬虫。使用分布式多线程爬虫会造成服务器过载,可能导致服务器崩溃。我觉得不是分布式的,只是一个多线程的机器。其次,建议在凌晨实施这个程序,因为凌晨上网的人比较少;第三,我的程序用的是Python3.6的新特性字符串前缀F,如果版本太低,建议升级。其他原因,无法升级,自己尝试修改。

  今天的文章有不懂的可以加群。多线程爬虫实现磁链接搜索神器的代码也已经上传到群文件了。群号是822163725。备注:服装科学的酷蟒。你不提,就被拒绝了~!

  最后,欢迎大家扫码关注

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: