123,123,123

您的位置：首頁 > 網(wǎng)絡(luò)軟件 > 搜索引擎 > Apache Nutch(Java搜索引擎工具) V2.3 官方版

Apache Nutch(Java搜索引擎工具) V2.3 官方版 版本

軟件大?。?/span>7.21M
軟件語言：英文
軟件類型：國外軟件
軟件授權(quán)：免費(fèi)軟件
更新時(shí)間：2018-05-05
軟件類別：搜索引擎
應(yīng)用平臺：Win2003,WinXP,Vista,Win7,Win8

網(wǎng)友評分：分?jǐn)?shù) 9.4分

軟件非常好（94%）軟件不好用（6%）

網(wǎng)友評論下載地址收藏該頁

7.21M

相關(guān)軟件

　　Apache Nutch是一個(gè)開放源代碼的Java搜索引擎框架，它提供了運(yùn)行自己的搜索引擎所需要的全部工具，包括全文搜索和Web爬蟲，使用Nutch不僅可以建立自己內(nèi)部網(wǎng)的搜索引擎，同時(shí)也可以針對整個(gè)網(wǎng)絡(luò)建立搜索引擎。

Apache Nutch

【軟件特色】

　　1、Nutch致力于讓每個(gè)人能很容易，同時(shí)花費(fèi)很少就可以配置世界一流的Web搜索引擎

　　2、每個(gè)月取幾十億網(wǎng)頁

　　3、為這些網(wǎng)頁維護(hù)一個(gè)索引

　　4、對索引文件進(jìn)行每秒上千次的搜索

　　5、提供高質(zhì)量的搜索結(jié)果

【功能特點(diǎn)】

　　1、支持將起始URL集合注入到Nutch系統(tǒng)之中

　　2、支持生成片段文件，其中包含了將要抓取的URL地址

　　3、根據(jù)URL地址在互聯(lián)網(wǎng)上抓取相應(yīng)的內(nèi)容

　　4、解析所抓取到的網(wǎng)頁，并分析其中的文本和數(shù)據(jù)

　　5、根據(jù)新抓取的網(wǎng)頁中的URL集合來更新起始URL集合，并再次進(jìn)行抓取

　　6、同時(shí)，對抓取到的網(wǎng)頁內(nèi)容建立索引，生成索引文件存放在系統(tǒng)之中

Apache Nutch

【使用教程】

　　1、首先先運(yùn)行軟件，選擇File -> Import Project ->選擇apache-nutch-1.9文件夾，確定后選擇Import project from external model(Eclipse)

　　2、一直點(diǎn)擊next到結(jié)束，成功將項(xiàng)目導(dǎo)入project中去

　　3、源碼導(dǎo)入工程后，并不能執(zhí)行完整的爬取。Nutch將爬取的流程切分成很多階段，每個(gè)階段分別封裝在一個(gè)類的main函數(shù)中。在外面通過Linux Shell調(diào)用這些main函數(shù)，來完整爬取的流程。下面我們來運(yùn)行Nutch中最簡單的流程：Inject。我們知道爬蟲在初始階段，是需要人工給出一個(gè)或多個(gè)url，作為起始點(diǎn)（廣度遍歷樹的樹根）。Inject的作用，就是把用戶寫在文件里的種子(一行一個(gè)url，是TextInputFormat)，插入到爬蟲的URL管理文件(crawldb，是SequenceFile)中。

　　4、接下來我們按照Nutch默認(rèn)的配置，需要修改Nutch的配置文件，為插件文件夾指定一個(gè)絕對路徑，修改conf/nutch-default.xml文件內(nèi)容，并且保存到工程中

　　5、接下來我們就可以開始對指定的網(wǎng)站的信息進(jìn)行完整的爬取了