網(wǎng)友評(píng)分: 5.8分
AntConc 是一款專業(yè)強(qiáng)大的語料庫檢索軟件。軟件擁有索引,詞表生成,主題詞計(jì)算,搭配和詞族提取等多種功能,能夠非常有效的進(jìn)行文本分析。適用于語料庫語言學(xué)、翻譯學(xué)、外語教學(xué)等領(lǐng)域的研究者。
使用多個(gè)工具的批處理文本文檔
這些可以像快速的單詞計(jì)數(shù)器一樣簡單到詳細(xì)的語言分析工具。ANTCONC在兩者之間取得良好的平衡,并允許用戶同時(shí)加載和處理多個(gè)文本文檔。該程序與大多數(shù)標(biāo)準(zhǔn)文本文檔格式兼容,包括TXTS、HTMLs和XMLS。
這個(gè)工具的一個(gè)有趣的特點(diǎn)是加載整個(gè)文件夾,除了單個(gè)文件的能力。這使得人們可以快速地完成檔案和文檔目錄的工作。一旦加載了兩個(gè)或多個(gè)文件,用戶就可以處理各種各樣的工具。
基于詞頻的簡單圖形顯示
總之,可以使用七個(gè)實(shí)用程序來分析源文檔,包括協(xié)調(diào)模塊、文件查看器和集群工具。與他們一起,可以搜索常用詞和短語的文檔。使用條形碼類型的繪圖,甚至可以查看公共項(xiàng)目的位置,在主機(jī)文本文件內(nèi)。
一個(gè)顯著且更具擴(kuò)散性的工具是“集群/N-gram”模塊。有了它,可以搜索語料庫的N長度集群。這是一種有用的方法,用于檢測在所有源文件中使用的相似但不相同的單詞。一旦滿足他們的分析,用戶可以將所有結(jié)果導(dǎo)出到文本、Excel和HTML格式。
模糊檢索:
?。?)一個(gè)單詞的多種變化形式的檢索;
?。?)多個(gè)單詞的逐一檢索;
?。?)單詞的前綴或后綴檢索;
?。?)某種長度或某個(gè)長度范圍(長度就是字母數(shù)量)的單詞的檢索;
?。?)某種單詞組合模式或句型的檢索。
“豎線”,也就是“|”,在正則表達(dá)式(模糊檢索)中的意思是“或者”,因此某個(gè)詞或某兩三個(gè)詞的屈折形式的檢索,可以用下面的表達(dá)法(首先勾上“regex”這個(gè)選項(xiàng)喲):
但是,如果你要檢索的單詞也往往成為其他單詞的一部分的話,上面的做法就會(huì)出現(xiàn)嚴(yán)重偏差,例如你想要檢索off,這個(gè)詞就容易出現(xiàn)在其他單詞的開始或中間位置:
因此,必須指定在“off”的前后必須有一個(gè)空格,而空格在正則表達(dá)式中就是“\s”,也就是“反斜線與字母s”,這里的字母s就是space(“空格”)這個(gè)英語單詞。
英語單詞的主要形式是多個(gè)字母所組成,雖然也有一些單詞是字母與數(shù)字構(gòu)成,或者是“純數(shù)字”構(gòu)成。所以,絕大多數(shù)情況下,純粹字母構(gòu)成的單詞是我們關(guān)注的對(duì)象。
用正則表達(dá)式來表達(dá)一個(gè)字母,就是“[a-zA-Z]”,這里的方括號(hào)就是表示方括號(hào)里面的所有內(nèi)容只是一個(gè)字符而已,a-z就是所有的小寫字母中的某一個(gè),A-Z就是所有的大寫字母中的某一個(gè),而[a-zA-Z]就表示“一個(gè)大寫或小寫字母”。那么,英語單詞的開始和結(jié)束有什么特征呢?最主要的特征就是前后都有一個(gè)空格,而空格的正則表達(dá)式就是“\s”,也就是反斜線后面有一個(gè)字母s。所以,要檢索“4個(gè)字母組成的單詞”就是下面的表達(dá),即“\s[a-zA-Z]{4}\s”:
要檢索“4個(gè)或5個(gè)或6個(gè)字母組成的單詞”就是下面的表達(dá),即“\s[a-zA-Z]{4,6}\s”:
要檢索“6個(gè)或更多字母組成的單詞”就是下面的表達(dá):
要檢索ful結(jié)尾的單詞,就是(表達(dá)式中的“+”表示至少1個(gè)的意思):
要檢索ful或less結(jié)尾的單詞,就是:
要檢索“un”為前綴的單詞,就是:
要檢索“the * of”這種結(jié)構(gòu),這里的*表示某個(gè)單詞,就用“\sthe\s[a-zA-Z]+\sof\s”:
要檢索“the * * * of”這種結(jié)構(gòu),這里的3個(gè)*表示3個(gè)單詞,就用“\sthe\s([a-zA-Z]+\s){3}of\s”,這里的圓括號(hào)就表示把圓括號(hào)里面的內(nèi)容重復(fù)多次,重復(fù)的次數(shù)在后面的{}里面用數(shù)字進(jìn)行指定:
要檢索“ed結(jié)尾的動(dòng)詞與ly結(jié)尾的副詞的搭配”,就用“\s[a-zA-Z]+ed\s[a-zA-Z]+ly\s”:
標(biāo)簽: AntConc 文本分析 文獻(xiàn)檢索
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2024 m.daaijiaoyu.cn.All rights reserved.
浙ICP備06019006號(hào)-1 浙公網(wǎng)安備33038102330474號(hào)