八爪魚采集器官方版是一款網(wǎng)頁數(shù)據(jù)采集器,能夠?qū)Ω鞣N不同類型的網(wǎng)頁進行大量的數(shù)據(jù)采集工作,八爪魚采集器官方版類型涵蓋廣泛,金融類、交易類、社交網(wǎng)站、電商商品等的網(wǎng)站數(shù)據(jù)都能夠被規(guī)范性的采集下來,并且可以被導出,軟件界面十分簡潔明晰,并且軟件使用起來方便快捷,是一款非常實用,且又功能性強大的軟件,讓繁瑣復雜的工作變得簡單有趣!
功能介紹
簡單來講,使用八爪魚可以非常容易的從任何網(wǎng)頁精確采集你需要的數(shù)據(jù),生成自定義的、規(guī)整的數(shù)據(jù)格式。八爪魚數(shù)據(jù)采集系統(tǒng)能做的包括但并不局限于以下內(nèi)容:
1. 金融數(shù)據(jù),如季報,年報,財務報告, 包括每日最新凈值自動采集;
2. 各大新聞門戶網(wǎng)站實時監(jiān)控,自動更新及上傳最新發(fā)布的新聞;
3. 監(jiān)控競爭對手最新信息,包括商品價格及庫存;
4. 監(jiān)控各大社交網(wǎng)站,博客,自動抓取企業(yè)產(chǎn)品的相關評論;
5. 收集最新最全的職場招聘信息;
6. 監(jiān)控各大地產(chǎn)相關網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車網(wǎng)站具體的新車二手車信息;
8. 發(fā)現(xiàn)和收集潛在客戶信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個平臺發(fā)布,其他平臺自動更新。
模板采集
模板采集模式內(nèi)置上百種主流網(wǎng)站數(shù)據(jù)源,如京東、天貓、大眾點評等熱門采集網(wǎng)站,只需參照模板簡單設置參數(shù),就可以快速獲取網(wǎng)站公開數(shù)據(jù)。
智能采集
八爪魚采集可根據(jù)不同網(wǎng)站,提供多種網(wǎng)頁采集策略與配套資源,可自定義配置,組合運用,自動化處理。從而幫助整個采集過程實現(xiàn)數(shù)據(jù)的完整性與穩(wěn)定性。
云采集
由5000多臺云服務器支撐的云采集,7*24小時不間斷運行,可實現(xiàn)定時采集,無需人員值守,靈活契合業(yè)務場景,幫你提升采集效率,保障數(shù)據(jù)時效性。
API接口
通過八爪魚API,可以輕松獲取八爪魚任務信息和采集到的數(shù)據(jù),靈活調(diào)度任務,比如遠程控制任務啟動與停止,高效實現(xiàn)數(shù)據(jù)采集與歸檔?;趶姶蟮腁PI體系,還可以無縫對接公司內(nèi)部各類管理平臺,實現(xiàn)各類業(yè)務自動化。
自定義采集
針對不同用戶的采集需求,八爪魚可提供自動生成爬蟲的自定義模式,可準確批量識別各種網(wǎng)頁元素,還有翻頁、下拉、ajax、頁面滾動、條件判斷等多種功能,支持不同網(wǎng)頁結(jié)構的復雜網(wǎng)站采集,滿足多種采集應用場景。
便捷定時功能
簡單幾步點擊設置,即可實現(xiàn)采集任務的定時控制,不論是單次采集的定時設置,還是預設某一天或是每周每月的定時采集,都可以同時對多個任務自由進行設置,根據(jù)需要對選擇時間進行多重組合,靈活調(diào)配自己的采集任務。
全自動數(shù)據(jù)格式化
八爪魚內(nèi)置了強大的數(shù)據(jù)格式化引擎,支持字符串替換、正則表達式替換或匹配、去除空格、添加前綴或后綴、日期時間格式化、HTML轉(zhuǎn)碼等多項功能,采集過程中全自動處理,無需人工干預,即可得到所需格式數(shù)據(jù)。
多層級采集
很多主流新聞、電商類的網(wǎng)站,里面包含一級商品列表頁,也包含二級商品詳情頁,還有三級評論詳情頁面;不論網(wǎng)站有多少層級,八爪魚都可以不限制層級的采集數(shù)據(jù),滿足各類業(yè)務采集需求。
在本站下載最新安裝包,一鍵安裝,完成即可使用
V8.6.2
采集與數(shù)據(jù)導出
新增“自動導出到本地文件”功能。本地或云采集完成后,自動導出已采集的數(shù)據(jù)文件(Excel、Csv、Html、Json、Xml)到本地電腦
新增本地采集“等待運行”狀態(tài)。批量設置本地定時自動采集的時候,超出同時啟動任務數(shù)限制時自動進入排隊等待采集
新增查看本地采集歷史采集信息。點擊任務列表的“電腦圖標”可以查看最近一次的采集歷史信息
優(yōu)化手動導出到數(shù)據(jù)庫配置流程和交互
自動入庫工具
新增入庫計劃批量操作(啟/停、刪除、設置)
新增入庫信息字段內(nèi)容(任務名稱、數(shù)據(jù)庫類型、執(zhí)行周期)
新增支持直接修改入庫計劃配置信息
新增錯誤日志提醒小紅標
優(yōu)化入庫工具操作交互界面
企業(yè)版本協(xié)作
企業(yè)版主賬號通過任務列表“篩選器”查看企業(yè)成員賬號任務狀態(tài)
企業(yè)版主賬號支持管理企業(yè)成員賬號的任務:啟/停止、復制、定時、導出數(shù)據(jù)等
其它
新增觸發(fā)器條件“為空”的判斷
修復部分任務無法采集、列表無數(shù)據(jù)的故障
修復本地采集日志信息重復和順序錯亂的問題
優(yōu)化修復其它已知bug問題
如何使用八爪魚采集器采集單個網(wǎng)頁?
首先打開八爪魚采集器→點擊快速開始→新建任務,進入到任務配置頁面:
選擇任務組,自定義任務名稱和備注;
上圖配置完畢之后,選擇下一步,進入到流程配置頁面,往流程設計器中拖入一個打開網(wǎng)頁的步驟;
選中瀏覽器中的打開網(wǎng)頁步驟,在右邊的頁面URL中輸入網(wǎng)頁URL并點擊保存,系統(tǒng)會在軟件下方的瀏覽器中自動打開對應網(wǎng)頁:
下面進行數(shù)據(jù)字段的提取,點擊瀏覽器中需要提取的字段,然后在彈出的選擇對話框中選擇抓取這個元素的文本;
上述操作之后,系統(tǒng)會在頁面的右上方顯示我們將要抓取的字段;
接下來配置頁面中其他需要抓取的字段,配置完成之后修改字段名稱;
修改完成之后點擊上圖中的保存按鈕,再點開圖中的數(shù)據(jù)字段可以看到,系統(tǒng)將會顯示最終的采集列表;
點擊上圖中的下一步→下一步→啟動單機采集(調(diào)試模式),進入到任務檢查頁面,以確保任務的正確性;
點擊開始單機采集,系統(tǒng)將會在本地執(zhí)行采集流程并顯示最終采集的結(jié)果;
白菜蘿卜:
可視化所現(xiàn)即所得操作,無須編程能力,即可采集任意網(wǎng)頁數(shù)據(jù)
爺是香坊大呲花:
提供分布式云采集增值服務,支持高并發(fā)大存儲采集,還挺好用!
關于為什么八爪魚采集器云采集無法使用:
云采集是八爪魚提供的通過云服務器集群進行多節(jié)點采集的一個采集模式,它可以提高采集效率,
并且可以高效的避開各種網(wǎng)站的IP封鎖策略。
但目前八爪魚的免費版以及專業(yè)版用戶,是不支持云采集功能的,所以無法啟動云采集進行數(shù)據(jù)采集。
云采集功能目前只支持旗艦版及私有云的用戶使用。
網(wǎng)友評論