網(wǎng)友評(píng)分:
5分
搜貓軟件是款功能強(qiáng)大的網(wǎng)絡(luò)蜘蛛工具。用戶可以通過(guò)這款軟件快速抓取網(wǎng)站上的所有網(wǎng)頁(yè)地址,將網(wǎng)頁(yè)下載并寫到本地文件夾,或者寫進(jìn)數(shù)據(jù)庫(kù)中。同時(shí),它還可以幫助用戶分析網(wǎng)頁(yè)數(shù)據(jù),非常好用。
基于目標(biāo)網(wǎng)頁(yè)特征的爬蟲所抓取、存儲(chǔ)并索引的對(duì)象一般為網(wǎng)站或網(wǎng)頁(yè)。根據(jù)種子樣本獲取方式可分為:
(1)預(yù)先給定的初始抓取種子樣本;
(2)預(yù)先給定的網(wǎng)頁(yè)分類目錄和與分類目錄對(duì)應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;
(3)通過(guò)用戶行為確定的抓取目標(biāo)樣例,分為:(a)用戶瀏覽過(guò)程中顯示標(biāo)注的抓取樣本;(b)通過(guò)用戶日志挖掘得到訪問(wèn)模式及相關(guān)樣本。
其中,網(wǎng)頁(yè)特征可以是網(wǎng)頁(yè)的內(nèi)容特征,也可以是網(wǎng)頁(yè)的鏈接結(jié)構(gòu)特征,等等。
基于目標(biāo)數(shù)據(jù)模式:基于目標(biāo)數(shù)據(jù)模式的爬蟲針對(duì)的是網(wǎng)頁(yè)上的數(shù)據(jù),所抓取的數(shù)據(jù)一般要符合一定的模式,或者可以轉(zhuǎn)化或映射為目標(biāo)數(shù)據(jù)模式。
基于領(lǐng)域概念:另一種描述方式是建立目標(biāo)領(lǐng)域的本體或詞典,用于從語(yǔ)義角度分析不同特征在某一主題中的重要程度。
抓取目標(biāo)的描述和定義是決定網(wǎng)頁(yè)分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁(yè)分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁(yè)抓取行為的關(guān)鍵所在。這兩個(gè)部分的算法又是緊密相關(guān)的。
標(biāo)簽: 搜貓 網(wǎng)頁(yè)搜索
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2025 m.daaijiaoyu.cn.All rights reserved.
浙ICP備2024132706號(hào)-1 浙公網(wǎng)安備33038102330474號(hào)