當(dāng)下軟件園 / 匯聚當(dāng)下最新最酷的軟件下載站!
當(dāng)下軟件園

您的位置: 首頁 > 網(wǎng)絡(luò)軟件 > 網(wǎng)頁輔助 > 爬山虎采集器 V2.4.9.0 官方版

  爬山虎采集器是一款新一代智能化的網(wǎng)頁采集工具,智能分析、可視化界面,一鍵采集無需編程,支持自動生成采集腳本,可以采集互聯(lián)網(wǎng)99%的網(wǎng)站。軟件簡單易學(xué),通過智能算法+可視化界面,隨心所欲,抓取自己想到的數(shù)據(jù)。只要輕松點擊鼠標(biāo),就能采集網(wǎng)頁上的數(shù)據(jù)。

爬山虎采集器

【軟件特色】

  一鍵提取數(shù)據(jù)

  簡單易學(xué),通過可視化界面,鼠標(biāo)點擊即可抓取數(shù)據(jù)

  快速高效

  內(nèi)置一套高速瀏覽器內(nèi)核,加上HTTP引擎模式,實現(xiàn)快速采集數(shù)據(jù)

  適用各種網(wǎng)站

  能夠采集互聯(lián)網(wǎng)99%的網(wǎng)站,包括單頁應(yīng)用Ajax加載等等動態(tài)類型網(wǎng)站

【功能介紹】

  向?qū)J?/p>

  簡單易用,輕松通過鼠標(biāo)點擊自動生成

  腳本定時運(yùn)行

  可按照計劃定時運(yùn)行,無需人工

  獨創(chuàng)高速內(nèi)核

  自研的瀏覽器內(nèi)核,速度飛快,遠(yuǎn)超對手

  智能識別

  對于網(wǎng)頁中的列表、表單結(jié)構(gòu)(多選框下拉列表等)能夠智能識別

  廣告屏蔽

  定制的廣告屏蔽模塊,兼容AdblockPlus語法,可添加自定義規(guī)則

  多種數(shù)據(jù)導(dǎo)出

  支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等

爬山虎采集器

【使用流程】

  輸入采集網(wǎng)址

  打開軟件,新建任務(wù),輸入需要采集的網(wǎng)站地址。

  智能分析,全程自動化提取數(shù)據(jù)

  進(jìn)入到第二步后,爬山虎采集器全自動智能分析網(wǎng)頁,并且從中提取出列表數(shù)據(jù)。

  導(dǎo)出數(shù)據(jù)到表格、數(shù)據(jù)庫、網(wǎng)站等

  運(yùn)行任務(wù),將采集到的數(shù)據(jù)導(dǎo)出為Csv、Excel以及各種數(shù)據(jù)庫,支持api導(dǎo)出。

爬山虎采集器

【常見問題】

  問:如何過濾列表中的前N個數(shù)據(jù)?

  1、有時我們需要對采集到的列表進(jìn)行過濾,比如過濾掉第一組數(shù)據(jù)(在采集表格時,過濾掉表格列名)

  2、點擊列表模式菜單中的,設(shè)置列表xpath

  問:如何抓包獲取Cookie,并且手動設(shè)置?

  1、首先,使用谷歌瀏覽器打開要采集的網(wǎng)站,并且登陸。

  2、然后按下 F12,會出現(xiàn)開發(fā)者工具,選擇 Network

  3、然后按下F5,刷新下頁面, 選擇其中一個請求。

  4、復(fù)制完成后,在爬山虎采集器中,編輯任務(wù),進(jìn)入第三步,指定HTTP Header。

【更新日志】

  優(yōu)化網(wǎng)頁表格數(shù)據(jù)的識別,可按照表格列名自動命名字段

  優(yōu)化時間提取

  修復(fù)當(dāng)有自定義字段,沒有匹配到不保存數(shù)據(jù)的問題

  添加時間戳變量

  計劃任務(wù),每間隔分鐘增加開始秒

軟件特別說明

標(biāo)簽: 網(wǎng)頁采集

其他版本下載
網(wǎng)友評論
回頂部 去下載

關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們

Copyright ? 2005-2024 m.daaijiaoyu.cn.All rights reserved.

浙ICP備2024132706號-1 浙公網(wǎng)安備33038102330474號