當前位置:首頁 » 玄幻小說 » 安卓網路小說抓取

安卓網路小說抓取

發布時間: 2023-08-10 12:52:45

Ⅰ 使用pyspider抓取起點中文網小說數據

pyspider 是國人開發的相當好用的爬蟲框架。雖然網上教程不是很多,但是文檔詳細,操作簡單,非常適合用來做爬蟲練習或者實現一些抓取數據的需求。

本文就以抓取起點中文小說網的小說作品基礎信息作為目標,講解如何使用pyspider框架採集數據。

關於為何要選擇起點作為目標,其一、筆者作為網文愛好者,也想收集起點小說作品信息,找些熱門小說看;其二、起點作為比較成熟的小說網站,再反爬蟲方面應該有對應策略,剛好練習一下爬蟲怎麼規避這些策略。

閱讀本文之前,建議先看一下文檔及框架作者本人寫的中文教程
pyspider 爬蟲教程(一):HTML 和 CSS 選擇器
pyspider 爬蟲教程(二):AJAX 和 HTTP
pyspider 爬蟲教程(三):使用 PhantomJS 渲染帶 JS 的頁面

安裝很簡單,如果已安裝pip,直接執行命令

由於目前很多網站都是動態js生成頁面,需要安裝 PhantomJS 來獲得js執行後的頁面,而不是原本靜態的html頁面,我們再來裝一下

待安裝完成後,我們先看一下pyspider對應的可執行命令

在這里我們直接執行如下命令啟動,更復雜的命令參看 文檔

首先看一下啟動成功後,瀏覽器訪問127.0.0.1:5000地址的界面如下

點擊Create,新建項目

點擊生成的項目名,進入腳本編寫&調試頁面

先看一下對應的爬蟲腳本

1.測試抓取時,運行一段時間後出現所有抓取鏈接均FetchError的報錯,抓取失敗
失敗原因:未設置User-Agent 及 抓取速率太快,導致IP被封禁

解決辦法:
1) 設置User-Agent,調整速率從1->0.7
2) 使用代理IP,防止被封禁,這里筆者嘗試使用搭建 簡易免費代理IP池 ,但是由於免費代理大多不可用,會導致抓取不穩定,還是決定放棄使用

2.筆者本來是打算通過不斷抓取下一頁的鏈接,來遍歷所有小說作品的,可是由於這部分是JS動態生成的,雖然使用phantomjs,能解決這個問題(具體見作者教程3),但是使用phantomjs會導致抓取效率變低,後來還是選擇採用固定首尾頁數(PAGE_START,PAGE_END)的方法

3.當使用css選擇器有多個數據時,怎麼獲取自己想要的
比如在小說詳細頁,有字數,點擊數,推薦數三個
其css selector均為 .book-info > p > em,要獲取對應的次數只能使用pyquery的.eq(index)的方法去獲取對應的文本數據了

4.如果遇到抓取的鏈接是https,而不是http的,使用self.crawl()方法時,需要加入參數validate_cert =False,同時需要確保pyspider --version 版本再0.3.6.0之上
具體解決方法,可以查看如下鏈接:
PySpider HTTP 599: SSL certificate problem錯誤的解決方法

簡單數據分析之二
採用 SCWS 中文分詞 對所有作品名字進行分詞統計,得到出現頻率最高的排行

看起來如果寫小說,起個『重生之我的神魔異世界』這類標題是不是吊炸天

簡單數據分析之三
簡單統計一下起點作者的作品數排序
武俠精品應該是起點的官方作者號吧,不然194本作品也太恐怖了
也發現了不少熟悉的大神,比如唐家三少,流浪的蛤蟆,骷髏精靈等,有些作品還是可以看看的

Ⅱ 小說全搜閱讀小說,經常有某個章節出現本章節未抓取到正文,請嘗試在書架檢查更新的提示

1、更新其實不起任何作用。
2、這是因為小說全搜軟體有bug。更新也改變不了。
3、應該還有種情況是,小說全搜搜到的小說,就不是完整版。怎麼更新都無濟於事。
4、最好的辦法,是在網上從新找網站下載pdf版。txt版一般很少有不出錯訛及至錯漏的。pdf原版製作,則很少有錯訛。

Ⅲ 如果爬取一個小說網站以後,如何做到更新內容的爬取並且存儲

有一個標記庫,記錄的目標小說網站目標小說的最新文章id,一般url最後一段數字或者頁面的html裡麵包含。

定時去讀取這個最新文章頁面,如果當前這個頁面是最新的文章,沒有更新,那麼網頁上的下一章那個連接是#(也就是頁面本身),有的是跳轉到本小說的章節目錄,根據情況判斷,如果小說更新了,下一章的按鈕連接就變話了,根據下一章的id去讀取,並更新資料庫的標記

Ⅳ 怎麼抓取電子書啊

======支持原創,解你所難=====呵呵, 不多嘮叨,進入正題1軟體取書:【網路取書 V1.1.0.6】網路取書 說明信息新版本1.1.0.6,2007年3月9日更新,修正幾個失效的網站,新支持兩個站點。紫宸殿論壇和天涯社區為新類型(字元數量這個參數控製作者所貼文章的最小字數,小於這個數字的帖子將不記錄到採集後的文件裡面,這個數字主要是控製作者回復一些閱讀者的無關內容,太大的話會造成缺失的文字增多,請大家自己斟酌)。『網路取書』是一個小工具,使用它你可以方便快捷的從各大熱門書站(新浪、搜狐、起點……)獲取版面優美的文本格式電子書,是使用PDA、MP4、MP3和手機等移動設備來閱讀書籍的好幫手,當然你也可以在電腦上門閱讀。軟體使用很簡單,一般你可以拷貝文章任意章節的鏈接在『起始頁面』裡面,如果是支持的網站,程序就會自動選擇,然後點擊「開始」按鈕,就可以獲取從該章節開始到結尾的文本內容了。中途你也可以點擊『停止』按鈕來中斷取書進程。這就是『網路取書』的簡單使用說明下載頁面: http://download.enet.com.cn/html/033592006083001.html#todown2復制就是把文章框起來,點住滑鼠左鍵別動,把你像要的內容框起來,然後右鍵,復制,再創建個記事本,粘貼就好啦3網站下書如果樓主要看的是網路小說,那不妨到網站去下載,全又省事本人一直在用的:飛酷: www.feiku.com推薦值:★★★★★很高興幫你回答!謝謝!

Ⅳ 使用網路取書、小說閱讀器、魔爪抓取晉江VIP小說!誰幫我解決抓文難的問題,我加100!!!

復制粘貼不就好了,一邊打開 Word文檔, 一邊打開晉江網,然後登錄選取所要復制粘貼的章節,然後點滑鼠把要復制的內容選中,然後點擊復制,最後再打開Word文檔粘貼就行了, 一次並以此類推把你所要想要粘貼的內容全部都選中,挨個復制粘貼到word文檔中,然後存就行了,如果登錄登陸晉江網不能夠選中復制粘貼的話,那麼只有通過電腦或者手機截圖,然後下一個專門可以用圖片轉化成文字的app,或者是那種軟體,然後通過截屏使用圖轉換成文字,然後就能夠把它變成txt的形式了。 反正我不知道別人是怎麼做的,我一般在晉江網或起點網或者是瀟湘等等網站花錢買的那個書買的章節,然後我一般都是看完之後直接復制粘貼到Word文檔中,然後把它保存就行了 。 希望可以幫助你。

Ⅵ 可以搜任何小說的軟體

1、番茄

功能齊全的小說閱讀軟體,軟體裡面收集的書籍小說特別多,能滿足各個年齡段的所有人,這個軟體簡直就是為愛閱讀的你量身打造的,更何況還開通了閱讀賺錢模式。

熱點內容
風水先生小說免費閱讀 發布:2025-05-14 20:27:03 瀏覽:8
以完結的修真小說 發布:2025-05-14 20:08:20 瀏覽:129
完結小說長篇 發布:2025-05-14 20:08:11 瀏覽:652
明星的禁忌小說推薦 發布:2025-05-14 20:01:56 瀏覽:111
夏至未至小說百度閱讀 發布:2025-05-14 19:59:26 瀏覽:884
推好看的小說附網盤 發布:2025-05-14 19:42:47 瀏覽:765
鬼吹燈第二部小說閱讀 發布:2025-05-14 19:39:57 瀏覽:850
重生末世的完結小說排行榜前十名 發布:2025-05-14 19:34:05 瀏覽:584
您好墨先生小說全文 發布:2025-05-14 19:31:25 瀏覽:64
女性偵探小說推薦 發布:2025-05-14 19:25:03 瀏覽:179