python爬虫实战教程——爬取起点网示例

PS:在一开始声明下。。。编者并不看网络小说

需要用到的知识与模块

基础内容

  • 基础的HTML与js知识(如果这两个都不会的话。。。先去w3cschool自学下吧,反正基础的也不难)
  • urllib与urllib2:URL模块。需要用这个模块获取网页内容
  • re:正则模块,需要用正则表达式来分析上面获取到的网页文件,用于提取ip和文本内容。(爬虫的核心模块)

高级内容

  • os模块中的fork方法:linux下设置多进程的方法
  • multiprocessing模块:由于在windows下无法使用fork方法,所以在windows中可以用这个模块来代替。而且这个模块中有Pool(对象池)这个类,可以用Pool来管理进程,对多进程的管理更加方便。

分析起点网的html格式

要制作一个网页爬虫的话就首先需要对网页进行分析。那么,就先来看一个例子吧:

我们先看一下《唐砖》这本小说的目录页面:

2015-04-03 07:29:09屏幕截图

从这里可以看到,我们可以把该页面的层次分为三层:小说标题、每一卷的标题和下面的章节标题,点击章节标题后就可以跳转到小说相应的位置。我们在这里需要做的就是从该页面中提取出每篇章节的链接,用于下一步的爬虫操作。

 

Continue reading “python爬虫实战教程——爬取起点网示例”

代码高亮测试

测试测试测试测试