當下軟件園 / 匯聚當下最新最酷的軟件下載站!
當下軟件園
您的位置: 首頁 > 網絡軟件 > 搜索引擎 > Apache Nutch(Java搜索引擎工具) V2.3 官方版
Apache Nutch(Java搜索引擎工具) V2.3 官方版 版本
  • 軟件大?。?/span>7.21M
  • 軟件語言:英文
  • 軟件類型:國外軟件
  • 軟件授權:免費軟件
  • 更新時間:2018-05-05
  • 軟件類別:搜索引擎
  • 軟件官網:http://m.daaijiaoyu.cn
  • 應用平臺:Win2003,WinXP,Vista,Win7,Win8

網友評分: 分數(shù) 9.4

軟件非常好(94% 軟件不好用(6%

  Apache Nutch是一個開放源代碼的Java搜索引擎框架,它提供了運行自己的搜索引擎所需要的全部工具,包括全文搜索和Web爬蟲,使用Nutch不僅可以建立自己內部網的搜索引擎,同時也可以針對整個網絡建立搜索引擎。

Apache Nutch

【軟件特色】

  1、Nutch致力于讓每個人能很容易,同時花費很少就可以配置世界一流的Web搜索引擎

  2、每個月取幾十億網頁

  3、為這些網頁維護一個索引

  4、對索引文件進行每秒上千次的搜索

  5、提供高質量的搜索結果

【功能特點】

  1、支持將起始URL集合注入到Nutch系統(tǒng)之中

  2、支持生成片段文件,其中包含了將要抓取的URL地址

  3、根據(jù)URL地址在互聯(lián)網上抓取相應的內容

  4、解析所抓取到的網頁,并分析其中的文本和數(shù)據(jù)

  5、根據(jù)新抓取的網頁中的URL集合來更新起始URL集合,并再次進行抓取

  6、同時,對抓取到的網頁內容建立索引,生成索引文件存放在系統(tǒng)之中

Apache Nutch

【使用教程】

  1、首先先運行軟件,選擇File -> Import Project ->選擇apache-nutch-1.9文件夾,確定后選擇Import project from external model(Eclipse)

  2、一直點擊next到結束,成功將項目導入project中去

  3、源碼導入工程后,并不能執(zhí)行完整的爬取。Nutch將爬取的流程切分成很多階段,每個階段分別封裝在一個類的main函數(shù)中。在外面通過Linux Shell調用這些main函數(shù),來完整爬取的流程。下面我們來運行Nutch中最簡單的流程:Inject。我們知道爬蟲在初始階段,是需要人工給出一個或多個url,作為起始點(廣度遍歷樹的樹根)。Inject的作用,就是把用戶寫在文件里的種子(一行一個url,是TextInputFormat),插入到爬蟲的URL管理文件(crawldb,是SequenceFile)中。

  4、接下來我們按照Nutch默認的配置,需要修改Nutch的配置文件,為插件文件夾指定一個絕對路徑,修改conf/nutch-default.xml文件內容,并且保存到工程中

  5、接下來我們就可以開始對指定的網站的信息進行完整的爬取了

【更新日志】

  V1.9更新:

  1、增加了可爬取的數(shù)據(jù)類型

  2、增加對Web爬蟲的管理功能

  3、解決了一些格式上的已知問題

  4、修復了一些bug,優(yōu)化了軟件界面

  5、優(yōu)化了軟件性能

軟件特別說明

標簽: 搜索引擎 編程框架

其他版本下載
網友評論
回頂部 去下載

關于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們

Copyright ? 2005-2024 m.daaijiaoyu.cn.All rights reserved.

浙ICP備06019006號-1 浙公網安備33038102330474號