安卓网络小说抓取
Ⅰ 使用pyspider抓取起点中文网小说数据
pyspider 是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。
本文就以抓取起点中文小说网的小说作品基础信息作为目标,讲解如何使用pyspider框架采集数据。
关于为何要选择起点作为目标,其一、笔者作为网文爱好者,也想收集起点小说作品信息,找些热门小说看;其二、起点作为比较成熟的小说网站,再反爬虫方面应该有对应策略,刚好练习一下爬虫怎么规避这些策略。
在阅读本文之前,建议先看一下文档及框架作者本人写的中文教程
pyspider 爬虫教程(一):HTML 和 CSS 选择器
pyspider 爬虫教程(二):AJAX 和 HTTP
pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面
安装很简单,如果已安装pip,直接执行命令
由于目前很多网站都是动态js生成页面,需要安装 PhantomJS 来获得js执行后的页面,而不是原本静态的html页面,我们再来装一下
待安装完成后,我们先看一下pyspider对应的可执行命令
在这里我们直接执行如下命令启动,更复杂的命令参看 文档
首先看一下启动成功后,浏览器访问127.0.0.1:5000地址的界面如下
点击Create,新建项目
点击生成的项目名,进入脚本编写&调试页面
先看一下对应的爬虫脚本
1.测试抓取时,运行一段时间后出现所有抓取链接均FetchError的报错,抓取失败
失败原因:未设置User-Agent 及 抓取速率太快,导致IP被封禁
解决办法:
1) 设置User-Agent,调整速率从1->0.7
2) 使用代理IP,防止被封禁,这里笔者尝试使用搭建 简易免费代理IP池 ,但是由于免费代理大多不可用,会导致抓取不稳定,还是决定放弃使用
2.笔者本来是打算通过不断抓取下一页的链接,来遍历所有小说作品的,可是由于这部分是JS动态生成的,虽然使用phantomjs,能解决这个问题(具体见作者教程3),但是使用phantomjs会导致抓取效率变低,后来还是选择采用固定首尾页数(PAGE_START,PAGE_END)的方法
3.当使用css选择器有多个数据时,怎么获取自己想要的
比如在小说详细页,有字数,点击数,推荐数三个
其css selector均为 .book-info > p > em,要获取对应的次数只能使用pyquery的.eq(index)的方法去获取对应的文本数据了
4.如果遇到抓取的链接是https,而不是http的,使用self.crawl()方法时,需要加入参数validate_cert =False,同时需要确保pyspider --version 版本再0.3.6.0之上
具体解决方法,可以查看如下链接:
PySpider HTTP 599: SSL certificate problem错误的解决方法
简单数据分析之二
采用 SCWS 中文分词 对所有作品名字进行分词统计,得到出现频率最高的排行
看起来如果写小说,起个『重生之我的神魔异世界』这类标题是不是吊炸天
简单数据分析之三
简单统计一下起点作者的作品数排序
武侠精品应该是起点的官方作者号吧,不然194本作品也太恐怖了
也发现了不少熟悉的大神,比如唐家三少,流浪的蛤蟆,骷髅精灵等,有些作品还是可以看看的
Ⅱ 小说全搜阅读小说,经常有某个章节出现本章节未抓取到正文,请尝试在书架检查更新的提示
1、更新其实不起任何作用。
2、这是因为小说全搜软件有bug。更新也改变不了。
3、应该还有种情况是,小说全搜搜到的小说,就不是完整版。怎么更新都无济于事。
4、最好的办法,是在网上从新找网站下载pdf版。txt版一般很少有不出错讹及至错漏的。pdf原版制作,则很少有错讹。
Ⅲ 如果爬取一个小说网站以后,如何做到更新内容的爬取并且存储
有一个标记库,记录的目标小说网站目标小说的最新文章id,一般url最后一段数字或者页面的html里面包含。
定时去读取这个最新文章页面,如果当前这个页面是最新的文章,没有更新,那么网页上的下一章那个连接是#(也就是页面本身),有的是跳转到本小说的章节目录,根据情况判断,如果小说更新了,下一章的按钮连接就变话了,根据下一章的id去读取,并更新数据库的标记
Ⅳ 怎么抓取电子书啊
======支持原创,解你所难=====呵呵, 不多唠叨,进入正题1软件取书:【网络取书 V1.1.0.6】网络取书 说明信息新版本1.1.0.6,2007年3月9日更新,修正几个失效的网站,新支持两个站点。紫宸殿论坛和天涯社区为新类型(字符数量这个参数控制作者所贴文章的最小字数,小于这个数字的帖子将不记录到采集后的文件里面,这个数字主要是控制作者回复一些阅读者的无关内容,太大的话会造成缺失的文字增多,请大家自己斟酌)。『网络取书』是一个小工具,使用它你可以方便快捷的从各大热门书站(新浪、搜狐、起点……)获取版面优美的文本格式电子书,是使用PDA、MP4、MP3和手机等移动设备来阅读书籍的好帮手,当然你也可以在电脑上门阅读。软件使用很简单,一般你可以拷贝文章任意章节的链接在『起始页面』里面,如果是支持的网站,程序就会自动选择,然后点击“开始”按钮,就可以获取从该章节开始到结尾的文本内容了。中途你也可以点击『停止』按钮来中断取书进程。这就是『网络取书』的简单使用说明下载页面: http://download.enet.com.cn/html/033592006083001.html#todown2复制就是把文章框起来,点住鼠标左键别动,把你像要的内容框起来,然后右键,复制,再创建个记事本,粘贴就好啦3网站下书如果楼主要看的是网络小说,那不妨到网站去下载,全又省事本人一直在用的:飞酷: www.feiku.com推荐值:★★★★★很高兴帮你回答!谢谢!
Ⅳ 使用网络取书、小说阅读器、魔爪抓取晋江VIP小说!谁帮我解决抓文难的问题,我加100!!!
复制粘贴不就好了,一边打开 Word文档, 一边打开晋江网,然后登录选取所要复制粘贴的章节,然后点鼠标把要复制的内容选中,然后点击复制,最后再打开Word文档粘贴就行了, 一次并以此类推把你所要想要粘贴的内容全部都选中,挨个复制粘贴到word文档中,然后存就行了,如果登录登陆晋江网不能够选中复制粘贴的话,那么只有通过电脑或者手机截图,然后下一个专门可以用图片转化成文字的app,或者是那种软件,然后通过截屏使用图转换成文字,然后就能够把它变成txt的形式了。 反正我不知道别人是怎么做的,我一般在晋江网或起点网或者是潇湘等等网站花钱买的那个书买的章节,然后我一般都是看完之后直接复制粘贴到Word文档中,然后把它保存就行了 。 希望可以帮助你。
Ⅵ 可以搜任何小说的软件
1、番茄
功能齐全的小说阅读软件,软件里面收集的书籍小说特别多,能满足各个年龄段的所有人,这个软件简直就是为爱阅读的你量身打造的,更何况还开通了阅读赚钱模式。