網(wǎng)友評(píng)分:
5分
飛騰反黃軟件 V2.3.0.1010 官方版
全能模擬王自動(dòng)點(diǎn)擊軟件 V17.1.1 綠色最新版
Sangfor WebShellKiller(網(wǎng)站暗鏈檢測(cè)工具) V3.3.0.2 綠色免費(fèi)版
Easy Web Editor(可視化網(wǎng)頁(yè)制作軟件) V2016.40.1 官方版
Google Web Designer(網(wǎng)頁(yè)編輯器) V8.0.3.0603 官方版
Advanced PDF Page Extractor(PDF頁(yè)面提取軟件) V1.5 官方版
Fiddler4網(wǎng)頁(yè)抓包軟件 V5.0.2 官方版
我要看vip視頻Chrome插件 V1.4.1 綠色版
XPath2Doc 是一個(gè)半自動(dòng)采集網(wǎng)頁(yè)生成Word docx文件的工具,帶企查查、天眼查采集配置,使用XPath2Doc需要自己在WebBrowser窗口里面手工登錄,并找到需要的數(shù)據(jù)頁(yè)面,然后點(diǎn)擊程序按鈕進(jìn)行采集,所以是個(gè)半自動(dòng)的網(wǎng)頁(yè)數(shù)據(jù)填充Docx工具。
網(wǎng)頁(yè)的每個(gè)元素,都可以表示成為XPath語(yǔ)句,所以我們可以讀取瀏覽器打開(kāi)的網(wǎng)站頁(yè)面源代碼,通過(guò)XPath語(yǔ)句得到網(wǎng)頁(yè)元素中的文本。
XPath語(yǔ)句的獲取辦法:
通常我們可以使用谷歌的Chrome瀏覽器打開(kāi)網(wǎng)站頁(yè)面,按F12調(diào)出開(kāi)發(fā)者工具界面,在ELements選項(xiàng)卡下,隨著鼠標(biāo)的移動(dòng)可以看到網(wǎng)頁(yè)內(nèi)容被陰影覆蓋,點(diǎn)開(kāi)三角符號(hào),可以更進(jìn)一步定位準(zhǔn)確的位置,直到找到最終需要的數(shù)據(jù)位置。在找到的文本上點(diǎn)鼠標(biāo)右鍵,在彈出的菜單中,選擇Copy-Copy XPath,然后粘貼到記事本即可得到需要的XPath語(yǔ)句。
這里需要說(shuō)明一點(diǎn):如果拷貝出來(lái)的XPath語(yǔ)句中有/tbody會(huì)影響采集,程序內(nèi)部對(duì)此問(wèn)題進(jìn)行了處理,但可能會(huì)在某些特殊情況下還是會(huì)影響數(shù)據(jù)采集,可以手工去掉。
1、本程序工作需要三個(gè)配置文件:General.ini,自定義.ini,自定義模板.docx。后兩個(gè)文件名自己定義。
General.ini文件中定義了INI文件和Docx模板文件的存放目錄,可以不填,默認(rèn)是程序所在目錄。
自定義.ini、自定義模板.docx是軟件使用者自己創(chuàng)建的網(wǎng)頁(yè)采集XPath語(yǔ)句及最后生成文件所用的Docx模板,具體設(shè)置方法請(qǐng)看ini文件中的說(shuō)明。注意,Docx模板文件中的“@<#0001#>@”之類的字符是在INI文件中定義的用于替換網(wǎng)頁(yè)采集內(nèi)容的標(biāo)記字符串。ini文件中定義了替換關(guān)鍵字的前后綴和模板文件名。
2、使用本程序前,請(qǐng)先建立好你自己的INI配置文件和Docx模板文件。(具體可以參見(jiàn)附帶的企查查、天眼查兩個(gè)配置文件和起訴書模板)
需要說(shuō)明的是,模板文件支持對(duì)文檔的不同部分使用不同的網(wǎng)址進(jìn)行采集,注意Url的設(shè)置。
啟動(dòng)程序--選擇模板--點(diǎn)擊采集數(shù)據(jù)按鈕旁邊的黑色三角符號(hào),點(diǎn)開(kāi)下拉菜單,點(diǎn)擊需要采集的部分。等候?yàn)g覽器加載網(wǎng)頁(yè)完畢,手工輸入需要查詢的內(nèi)容,點(diǎn)擊查詢,找到數(shù)據(jù)的具體頁(yè)面,然后點(diǎn)擊采集數(shù)據(jù)按鈕,觀察右側(cè)的列表中是不是已經(jīng)得到需要的數(shù)據(jù)。繼續(xù)點(diǎn)開(kāi)下拉菜單,選擇下一個(gè)需要采集的部分,如果網(wǎng)址發(fā)生了變化要等候?yàn)g覽器加載完畢,找到需要的數(shù)據(jù)頁(yè)面。點(diǎn)擊采集數(shù)據(jù)按鈕觀察右側(cè)列表中是不是得到了第二部分的數(shù)據(jù)。如此反復(fù),直到數(shù)據(jù)全部采集完畢。
如果前后兩部分的網(wǎng)址相同,在點(diǎn)擊下一部分的下拉菜單之前,要先在瀏覽器中重新查詢新的數(shù)據(jù),等新數(shù)據(jù)頁(yè)面出來(lái)之后在點(diǎn)擊下拉菜單選擇下一部分進(jìn)行采集。(網(wǎng)址相同的情況下,點(diǎn)擊下一部分會(huì)直接從網(wǎng)頁(yè)取數(shù)據(jù),如果瀏覽器沒(méi)有換頁(yè)面,數(shù)據(jù)就錯(cuò)了。)如果某個(gè)部分需要重新采集,請(qǐng)先點(diǎn)擊下拉菜單中的該部分名稱,然后點(diǎn)擊采集按鈕重復(fù)采集該部分(此時(shí)可以隨意改變?yōu)g覽器的數(shù)據(jù)頁(yè)面,得到的就是不同公司數(shù)據(jù))。
列表中采集得到的數(shù)據(jù)結(jié)果如果有偏差,可以單擊自行修改。XPath語(yǔ)句如果有什么錯(cuò)誤,也可以自己修改看測(cè)試結(jié)果(XPath語(yǔ)句在修改后會(huì)立即重新抓取瀏覽器的數(shù)據(jù),所以瀏覽器最好是有效數(shù)據(jù)頁(yè)面),在程序中修改的XPath語(yǔ)句,不會(huì)保存到INI文件中,請(qǐng)自行手工保存。
如果列表中數(shù)據(jù)無(wú)誤,預(yù)覽窗口中的Docx模板內(nèi)容也正確,則可以點(diǎn)擊創(chuàng)建文檔按鈕,填寫要生成的文件名,本軟件會(huì)使用抓取到的網(wǎng)頁(yè)數(shù)據(jù)替換模板中的索引字符串,自動(dòng)生成Docx文檔。
需要說(shuō)明的是,右下角的Docx預(yù)覽窗口不能完整的支持Word文檔,對(duì)不標(biāo)準(zhǔn)的文檔可能會(huì)出現(xiàn)文本缺失或者錯(cuò)位現(xiàn)象。遇到這種情況,可以忽略,或者將模板文件改成規(guī)范的文本格式(單倍行距)。
標(biāo)簽: XPath2Doc 數(shù)據(jù)采集器
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2024 m.daaijiaoyu.cn.All rights reserved.
浙ICP備2024132706號(hào)-1 浙公網(wǎng)安備33038102330474號(hào)