97超级碰碰碰久久久_精品成年人在线观看_精品国内女人视频免费观_福利一区二区久久

淺談校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文

時(shí)間:2022-07-03 08:15:02 設(shè)計(jì) 我要投稿
  • 相關(guān)推薦

淺談校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文

  論文關(guān)鍵詞:信息集成 異構(gòu)數(shù)據(jù) odi nutch lucene

淺談校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文

  論文摘要:高校校園網(wǎng)信息資源數(shù)量巨大,各信息發(fā)布系統(tǒng)的相互獨(dú)立及多種異構(gòu)數(shù)據(jù)源的使用對在校園網(wǎng)范圍內(nèi)進(jìn)行統(tǒng)一的信息檢索設(shè)置了障礙,系統(tǒng)著重解決由非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)形成的多數(shù)據(jù)源的集成與整合問題,在nutch搜索引擎基礎(chǔ)上利用lucene接口對多種源數(shù)據(jù)建立索引,構(gòu)建多數(shù)據(jù)源全文信息檢索平臺,從而有效地實(shí)現(xiàn)全網(wǎng)信息檢索并提高檢索速度和精度。

  一、引 言

  隨著校園信息化進(jìn)程的不斷深入,校園網(wǎng)上信息資源的數(shù)量迅速膨脹,各種相互獨(dú)立的信息發(fā)布系統(tǒng)在提高效率的同時(shí),也為校園網(wǎng)范圍內(nèi)統(tǒng)一的信息檢索設(shè)置了障礙,校園網(wǎng)信息資源主要包括兩類數(shù)據(jù):一類是非結(jié)構(gòu)化文本數(shù)據(jù),以網(wǎng)頁文件、文本文件、電子郵件等形式存儲在多個(gè)信息系統(tǒng)當(dāng)中:另一類是結(jié)構(gòu)化數(shù)據(jù),以數(shù)據(jù)記錄的形式存儲在不同的異構(gòu)數(shù)據(jù)庫之中。由于各獨(dú)立信息系統(tǒng)間沒有相互連接的渠道,快速檢索校園網(wǎng)內(nèi)部信息存在著較大困難。如何設(shè)計(jì)一個(gè)穩(wěn)定而高效的架構(gòu),能夠?qū)Χ喾N信息數(shù)據(jù)源進(jìn)行集成與整合,實(shí)現(xiàn)全網(wǎng)范圍內(nèi)全文信息檢索成為校園信息化過程中一個(gè)重要研究課題。

  校園網(wǎng)信息檢索技術(shù)大體可分為三個(gè)發(fā)展階段:第一階段是基于數(shù)據(jù)庫查詢方式的結(jié)構(gòu)化數(shù)據(jù)檢索,應(yīng)用于信息發(fā)布系統(tǒng)內(nèi)部的檢索功能,通常是通過匹配標(biāo)題、作者和摘要等字段來實(shí)現(xiàn)信息檢索。由于受到數(shù)據(jù)庫性能、檢索效率等因素影響,不能實(shí)現(xiàn)基于匹配正文內(nèi)容的全文檢索,因此該階段檢索方式從檢索范圍到檢索性能及效果都并不能完全滿足現(xiàn)階段用戶的需要:第二階段是將基于互聯(lián)網(wǎng)的搜索引擎技術(shù)應(yīng)用于校園網(wǎng),構(gòu)建校園網(wǎng)信息檢索平臺。主要采用開源lueene提供的全文檢索功能和基于lucene索引管理、存儲和檢索技術(shù)之上的nutch搜索引擎技術(shù)。這兩種方式能夠?qū)崿F(xiàn)對非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)的檢索,應(yīng)用在網(wǎng)站站內(nèi)索引、企業(yè)內(nèi)部文檔管理及知識管理系統(tǒng)等多方面,對應(yīng)用系統(tǒng)內(nèi)部全文信息檢索取得了較好的效果,但要實(shí)現(xiàn)校園網(wǎng)全網(wǎng)范圍內(nèi)多系統(tǒng)綜合信息檢索還有待進(jìn)一步完善與改進(jìn):當(dāng)前校園網(wǎng)信息檢索技術(shù)已經(jīng)發(fā)展到多系統(tǒng)多數(shù)據(jù)源信息檢索階段,通過多種方式將各種數(shù)據(jù)源統(tǒng)一建立索引進(jìn)行檢索,對于非結(jié)構(gòu)化文本的web頁面信息采用網(wǎng)絡(luò)爬蟲方式獲取數(shù)據(jù),對于結(jié)構(gòu)化文檔數(shù)據(jù)源可通過lucene接口和nutch插件機(jī)制與第三方類庫相結(jié)合來進(jìn)行文檔分析處理,對于數(shù)據(jù)庫資源通過lucene數(shù)據(jù)庫訪問接口來獲取數(shù)據(jù)記錄并建立索引。目前校園網(wǎng)信息檢索平臺大多是以檢索功能為核心通過上述方式與多數(shù)據(jù)源集成的輻射狀架構(gòu),該種架構(gòu)雖可實(shí)現(xiàn)全網(wǎng)多數(shù)據(jù)源檢索,但檢索平臺與各應(yīng)用系統(tǒng)耦合度高,系統(tǒng)整體穩(wěn)定性和可擴(kuò)展性較差,數(shù)據(jù)安全和數(shù)據(jù)質(zhì)量較低。

  針對上述問題,本系統(tǒng)將數(shù)據(jù)采集和數(shù)據(jù)集成作為平臺整體架構(gòu)的基礎(chǔ),將oracle數(shù)據(jù)集成工具odi用于對多數(shù)據(jù)源結(jié)構(gòu)化數(shù)據(jù)的抽取、轉(zhuǎn)換和處理,從而提供一個(gè)統(tǒng)一的全局共享數(shù)據(jù)源,對非結(jié)構(gòu)化文本數(shù)據(jù)提供對word、pdf、ppt及xml等多種格式化文檔解析的支持、以上述工作為基礎(chǔ),系統(tǒng)將分散分布、非結(jié)構(gòu)化、異構(gòu)的信息資源統(tǒng)一整合,提供給校園網(wǎng)用戶統(tǒng)一的全文信息檢索平臺。

  二、系統(tǒng)體系結(jié)構(gòu)

  多數(shù)據(jù)源校園網(wǎng)信息檢索系統(tǒng)分為數(shù)據(jù)采集層和信息檢索層兩層體系架構(gòu),數(shù)據(jù)采集層以oracle全局?jǐn)?shù)據(jù)庫為核心向下通過odi集成各異構(gòu)數(shù)據(jù)庫數(shù)據(jù),并通過網(wǎng)絡(luò)爬蟲和非結(jié)構(gòu)化文本數(shù)據(jù)解析來實(shí)現(xiàn)多數(shù)據(jù)源數(shù)據(jù)采集,向上通過數(shù)據(jù)庫接口為上層應(yīng)用提供數(shù)據(jù):信息檢索層采用以lueene為基礎(chǔ)的nutch搜索引擎實(shí)現(xiàn)信息索引和檢索。系統(tǒng)共包括異構(gòu)數(shù)據(jù)庫集成、異構(gòu)文檔解析、信息分類模塊、信息索引模塊、信息檢索模塊和系統(tǒng)管理模塊六部分,系統(tǒng)體系結(jié)構(gòu)如圖1所示。

  校園網(wǎng)信息檢索技術(shù)并不是簡單地將開源搜索引擎技術(shù)應(yīng)用于校園網(wǎng),而是針對校園網(wǎng)內(nèi)部數(shù)據(jù)特點(diǎn)設(shè)計(jì)相應(yīng)的解決方案。異構(gòu)數(shù)據(jù)庫集成模塊從系統(tǒng)底層做好結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)的高效獲取和有效組織。校園網(wǎng)內(nèi)信息發(fā)布以web網(wǎng)站為主要方式,對其進(jìn)行信息檢索一是采用網(wǎng)絡(luò)爬蟲方式進(jìn)行數(shù)據(jù)采集:二是通過lucene數(shù)據(jù)庫接口與各異構(gòu)數(shù)據(jù)庫相連采集數(shù)據(jù),第一種方式雖然操作簡單,但在數(shù)據(jù)采集質(zhì)量和深度上都有所不足,并沒有充分利用校園網(wǎng)信息數(shù)據(jù)存儲的特點(diǎn):第二種方式雖然在數(shù)據(jù)來源上有所改進(jìn),但在系統(tǒng)的穩(wěn)定性、耦合程度和可擴(kuò)展性上都存在不足,從各異構(gòu)數(shù)據(jù)庫中獲取的數(shù)據(jù)無法進(jìn)一步加工處理,從而導(dǎo)致對上層應(yīng)用的支持有限。校園網(wǎng)內(nèi)數(shù)據(jù)雖然表現(xiàn)為web網(wǎng)頁等非結(jié)構(gòu)化文本形式,但其數(shù)據(jù)來源大都存儲在結(jié)構(gòu)化數(shù)據(jù)庫中。通過獲取對各業(yè)務(wù)異構(gòu)數(shù)據(jù)庫的查詢管理權(quán)限,系統(tǒng)將oracle數(shù)據(jù)集成工具odi代替網(wǎng)絡(luò)爬蟲和數(shù)據(jù)庫訪問接口,從底層實(shí)現(xiàn)對多個(gè)異構(gòu)數(shù)據(jù)庫的統(tǒng)一管理,使系統(tǒng)具有更加穩(wěn)定和高效的數(shù)據(jù)來源。異構(gòu)文檔解析模塊實(shí)現(xiàn)對pdf、office等文檔的解析功能,通過插件機(jī)制提取各種格式化文檔的文本信息進(jìn)行處理。信息分類模塊按照信息來源的部門、發(fā)布時(shí)間等提供分類信息檢索,實(shí)現(xiàn)信息的高級檢索功能。信息索引模塊對多種數(shù)據(jù)源數(shù)據(jù)建立索引,并進(jìn)行索引優(yōu)化以減少索引文件的數(shù)量,并且能在搜索時(shí)減少讀取索引文件的時(shí)間。信息檢索模塊為校園網(wǎng)用戶提供統(tǒng)一的信息檢索的平臺,可以快速定位用戶所需資源,及時(shí)有效地獲取信息。系統(tǒng)管理模塊針對不同資源,設(shè)置不同的訪問權(quán)限,按照用戶權(quán)限決定可以訪問的資源。

  三、系統(tǒng)主要功能模塊

  1.oracle數(shù)據(jù)集成工具(odi)

  odi(oracle data integrator)是oracle公司采用elt理念進(jìn)行數(shù)據(jù)抽取、加載、轉(zhuǎn)換的數(shù)據(jù)集成中間件工具,其最大特點(diǎn)是提出了知識模塊的概念。odi將一些場景(如文件加載到數(shù)據(jù)庫,從mysql數(shù)據(jù)庫抓取數(shù)據(jù)到oracle數(shù)據(jù)庫等)的詳細(xì)實(shí)現(xiàn)步驟使用jvthon腳本語言結(jié)合數(shù)據(jù)庫sql語句錄制成詳細(xì)的步驟記錄下來,形成知識模塊,odi中共有超過100種主流數(shù)據(jù)庫引擎和應(yīng)用系統(tǒng)的知識模塊,基本上包含了普通應(yīng)用所涉及的所有場景,因此odi可以實(shí)現(xiàn)對校園網(wǎng)內(nèi)多種異構(gòu)數(shù)據(jù)庫的支持。在一個(gè)數(shù)據(jù)集成任務(wù)中,odi通過聲明設(shè)計(jì)運(yùn)用接口和關(guān)系圖等概念聲明數(shù)據(jù)集成規(guī)則,使集成的邏輯和技術(shù)層面分離,底層的技術(shù)方面由知識模塊描述和定義,系統(tǒng)只需要把重點(diǎn)放在集成任務(wù)規(guī)則的制定上面,再將制定好的集成規(guī)則封裝為一個(gè)服務(wù)模型。發(fā)布和訂閱該模型便可實(shí)現(xiàn)類似于數(shù)據(jù)增量定時(shí)更新的功能,異構(gòu)數(shù)據(jù)庫集成模塊示意如圖2所示。

  系統(tǒng)以全局?jǐn)?shù)據(jù)庫為核心通過odi工具對校園網(wǎng)內(nèi)異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和加載,集成后的數(shù)據(jù)質(zhì)量得到了提高,對異構(gòu)數(shù)據(jù)源的處理也得到了加強(qiáng)。在對數(shù)據(jù)處理的過程中提取了信息的標(biāo)題、作者、正文、發(fā)布時(shí)間、url地址等字段,可定時(shí)對各異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行增量更新操作,從而替代利用網(wǎng)絡(luò)爬蟲獲取信息數(shù)據(jù)。oracle全局?jǐn)?shù)據(jù)庫可以集成校園網(wǎng)內(nèi)大部分信息發(fā)布系統(tǒng)的數(shù)據(jù)并提供給信息索引和檢索模塊。

  2.lucene與nutch

  lucelle不是一個(gè)完整的搜索引擎,而是一個(gè)用于實(shí)現(xiàn)全文檢索的軟件庫,采用java語言開發(fā),提供了檢索內(nèi)核,其設(shè)計(jì)原理是索引檢索,任何信息資源只要被轉(zhuǎn)換成文本格式都可以被檢索。nutch是lucene得到廣泛應(yīng)用和認(rèn)可后出現(xiàn)的搜索引擎系統(tǒng),內(nèi)部使用了lucene的索引檢索技術(shù),并進(jìn)一步封裝了網(wǎng)絡(luò)爬蟲和分布式處理等模塊從而成為一個(gè)完整的應(yīng)用系統(tǒng)。本系統(tǒng)以nutch為基礎(chǔ),既應(yīng)用了nuteh系統(tǒng)的完整性,減少了不必要的開發(fā),又可靈活使用lucene接口,豐富系統(tǒng)功能。

  對于非結(jié)構(gòu)化文本信息,系統(tǒng)對office文檔采用了poi插件方式,用pdfbox插件來實(shí)現(xiàn)對pdf文檔的讀取,并將上述插件集成到nutch當(dāng)中。信息檢索的基礎(chǔ)是文本分析,而文本分析在很大程度上依賴于分詞模塊對語言的處理。nutch自帶的cjk分詞模塊對中文分詞的效率和準(zhǔn)確度上不能滿足實(shí)際需要。為此。在對比了je分詞、paoding分詞和ictclas分詞等多款中文分詞模塊后,paoding分詞由于其開源性和良好的分詞效果被本系統(tǒng)采用,并通過nuteh的插件機(jī)制集成到系統(tǒng)當(dāng)中。

  3.信息索引與檢索

  為滿足用戶全網(wǎng)檢索和分類分部門檢索信息的需要,并提高檢索效率,信息索引模塊首先對每個(gè)數(shù)據(jù)源建立索引文件提供給分類檢索用戶,然后通過優(yōu)化索引提供給全網(wǎng)檢索用戶。優(yōu)化索引就是將多個(gè)索引文件合并成單個(gè)文件的過程,目的是為了減少索引文件的數(shù)量,并且能在搜索時(shí)減少讀取索引文件的時(shí)間。nutch中的indexwrite類提供了optimize方法實(shí)現(xiàn)該優(yōu)化操作。利用nutch中的multisearcher類可實(shí)現(xiàn)對優(yōu)化后索引的全網(wǎng)檢索功能,檢索結(jié)果會以一種指定的順序合并起來。

  針對校園網(wǎng)用戶信息檢索的特點(diǎn)。綜合考慮信息相關(guān)度、時(shí)效性和訪問量等因素后,系統(tǒng)采用了自定義的排序機(jī)制,文檔文本相關(guān)度作為信息檢索的主要排序依據(jù),信息發(fā)布時(shí)間和訪問次數(shù)作為重要的排序因子,系統(tǒng)通過lucene的激勵(lì)因子boost值來改變文檔得分,從而調(diào)整文檔的出現(xiàn)順序。系統(tǒng)為校園網(wǎng)用戶提供了通用檢索和高級檢索功能,通用檢索在用戶輸入檢索信息的關(guān)鍵字后可檢索出所需信息:高級檢索功能為用戶提供了更為詳細(xì)的檢索條件,用戶可根據(jù)需要對信息進(jìn)行更加精細(xì)的檢索。系統(tǒng)管理功能除對用戶權(quán)限進(jìn)行管理外還對信息檢索結(jié)果進(jìn)行屏蔽和進(jìn)一步處理。

  四、系統(tǒng)運(yùn)行環(huán)境

  考慮到開發(fā)調(diào)試和維護(hù)的方便性,系統(tǒng)在測試運(yùn)行期間采用了windows平臺。上層在開源nutch搜索引擎的基礎(chǔ)上進(jìn)行開發(fā),采用myeclipse作為開發(fā)平臺,用java語言實(shí)現(xiàn),因此具有跨平臺特性。但由于運(yùn)行nutch自帶的腳本命令需要linux環(huán)境,所以必須首先安裝cygwin來模擬這種環(huán)境。為了確保nutch1.0版本能夠正確運(yùn)行,java虛擬機(jī)需采用jdk1.6以上的版本,運(yùn)用websphere6.0作為檢索平臺的容器。系統(tǒng)底層采用oracle 10g作為全局?jǐn)?shù)據(jù)庫。數(shù)據(jù)集成工具odi版本為10.1.3,與數(shù)據(jù)庫安裝在同一臺服務(wù)器上。

  五、結(jié)束語

  校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)將oracle數(shù)據(jù)集成工具odi引入到數(shù)據(jù)采集模塊,實(shí)現(xiàn)了對校園網(wǎng)內(nèi)各信息發(fā)布系統(tǒng)后臺異構(gòu)數(shù)據(jù)庫的有效整合與集成,改變了以往主要通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的方式,提高了數(shù)據(jù)來源的精度與質(zhì)量,又通過nutch插件機(jī)制實(shí)現(xiàn)了對非結(jié)構(gòu)化文本的解析。從而為信息索引與檢索打下了良好的基礎(chǔ)。信息檢索模塊基于nutch搜索引擎技術(shù)并充分利用lucene接口實(shí)現(xiàn)了靈活高效的全網(wǎng)信息檢索系統(tǒng)

  該系統(tǒng)為校園網(wǎng)用戶提供了方便快捷的信息檢索平臺,整合了校園網(wǎng)信息資源,實(shí)現(xiàn)了信息共享,對校園信息化建設(shè)起了很好的推進(jìn)作用。

  經(jīng)過對系統(tǒng)測試運(yùn)行期間性能的測試,信息檢索時(shí)間和精度都得到了較大的提升,信息檢索的廣度和深度也有了很大提高,滿足了校園網(wǎng)用戶的需要、今后的工作是在信息檢索功能的基礎(chǔ)上進(jìn)一步研究校園網(wǎng)輿情監(jiān)測技術(shù),完善系統(tǒng)功能,在提高校園信息化程度的同時(shí)為建設(shè)積極向上的校園網(wǎng)絡(luò)文化起到較好的推動作用。

  參考文獻(xiàn):

  [1]王雪松lucene+nutch搜索引擎[m]北京:人民郵電出版社,2008

  [2]邱哲,符滔滔,王雪松,開發(fā)自己的搜索引擎lucellc+heritrix,北京:人民郵電出版社,2010

  [3]oracle,oracle data integrator技術(shù)白皮書,北京:oracle公司2008

  [4]王洋oracle data integrator使用手冊,北京:神州數(shù)碼有限公司,2008

  [5]劉期勇,基于lucene的多數(shù)據(jù)源全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),重慶:重慶大學(xué),2008

  [6]黃少林,王華,張玉紅,蔣一峰,基于lucene的索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),現(xiàn)代情報(bào),2009,29(7):169-171

【淺談校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文】相關(guān)文章:

多波束通信設(shè)備設(shè)計(jì)與實(shí)現(xiàn)論文07-04

淺談自動化出卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文07-03

淺談書籍設(shè)計(jì)的論文07-02

淺談品牌與設(shè)計(jì)論文07-03

淺談多媒體設(shè)計(jì)的論文07-03

淺談多媒體教學(xué)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)07-01

淺談如何實(shí)現(xiàn)班級的自主管理論文07-03

淺談基于ZigBee 嵌入式智能家居控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文07-03

淺談信息技術(shù)與學(xué)科整合論文07-03

淺談建筑設(shè)計(jì)欣賞論文07-03