97超级碰碰碰久久久_精品成年人在线观看_精品国内女人视频免费观_福利一区二区久久

數(shù)據挖掘分析《紅樓夢》

時間:2022-07-10 19:32:58 其他 我要投稿
  • 相關推薦

數(shù)據挖掘分析《紅樓夢》

 

背景介紹:生活的真諦是什么?是從每個人自己不同愛好、不同擅長、不同的品味中,感受對于生活的獨特理解和個性化發(fā)現(xiàn)。所謂賭徒的生活的真諦就是下注時的快感;作家的生活的真諦就是用文學作品解剖生活;數(shù)學家生活的真諦就是探索和欣賞數(shù)學里的奧秘;舞女的生活真諦就是在燈紅酒綠中體會人性的另一面;萬法歸宗呀,蕓蕓眾生只有看問題的角度不同,沒有絕對的對錯和高低。就象本文即將分享的一個用數(shù)據分析方法部分解密《紅樓夢》的前后作者一樣,《紅樓夢》后40回作者到底是曹雪芹還是另有其人?這個論題作為紅學研究最熱烈的話題當然并不是完全可以用純粹的數(shù)學推理來解決的,但是這里分享的數(shù)學分析方法和思路,卻是實實在在可以讓有緣之人當作休閑的小食,不求充饑,但求有趣,從不同的角度和不同的視線觀察生活,就是人生的好享受。

2007年10月10日南京“現(xiàn)代快報”報道,南京林業(yè)大學湯庚國教授另辟鼷徑,從海棠文化出發(fā),分析《紅樓夢》前80回與后40回的差異。湯教授主要從人文花卉方面進行分析,發(fā)現(xiàn)《紅樓夢》前80回有16回涉及海棠,而后40回只有4回涉及海棠,以此說明前后差距明顯。受湯教授的啟發(fā),東南大學數(shù)學系的韋博成先生(博導)從數(shù)學統(tǒng)計的專業(yè)角度對湯先生的發(fā)現(xiàn)進行數(shù)學證明,通過兩個獨立二項總體等價性檢驗,經過漸近正態(tài)公式計算,有92%的把握認為“前80回對于海棠花的關注程度大于后40回對于海棠花的關注程度”。根據該統(tǒng)計方法,韋博成先生再接再厲,對于《紅樓夢》中的若干重要的情景描述進行量化,得到相應的數(shù)據集。有了數(shù)據集就可以進行數(shù)理統(tǒng)計分析,比較前80回與后40回在文風上的差異,結果表明,《紅樓夢》前80回與后40回在某些重要的情景描述上確實有非常顯著的差異。研究者韋博成先生再三再四強調,他只是從數(shù)據分析的角度指出兩者的差異,尚不能說明《紅樓夢》前80回與后40回作者的不同,因為“這涉及到許多人文與社會方面的問題,這是數(shù)理統(tǒng)計方法所無能為力的。”

本數(shù)據分析的目的:用數(shù)理統(tǒng)計的方法(具體來說是兩個獨立二項總體等價性檢驗)來分析《紅樓夢》前80回與后40回在幾個重要的情景指標(包括飲食描寫、醫(yī)藥描寫、詩詞描寫、花卉描寫、樹木描寫,這里“描寫”主要指出現(xiàn)的頻率)的差異,并據此反映的文風來判斷《紅樓夢》前后兩大部分的差異的顯著性。至于這種顯著性是否能推導出作者的不同,并不是本研究的目的,說白了,本數(shù)據分析研究只是數(shù)學愛好者借助自己對數(shù)學的愛好,表達對生活的有趣看法,娛自己娛他人,僅此而已,讀者不應求全責備!

本數(shù)據分析的數(shù)據準備:研究時收集的各個情景指標的數(shù)據,所采用的《紅樓夢》書稿來自北極星書庫,研究者將十回放一個文件,共生成12個word文件。對于書稿中有關花卉、樹木、飲食、醫(yī)藥、詩詞等方面的內容,采用人工查閱與關鍵詞搜索相結合的方法,以人工查閱為主,最后列表給出每一回涉及的上述五個指標的出現(xiàn)頻數(shù)。另外,本研究特別注意“偽數(shù)據”的刪除。比如統(tǒng)計作者對于花卉的描述頻數(shù),但是書中也有一些“偽數(shù)據”(雖然也是花卉,但是與情景無關,比如梅花糕、桃花廟、海棠紅的棉襖等等,這些所謂的花卉并不是本研究所要記錄的,所以是“偽數(shù)據”,這些數(shù)據是不計入本研究統(tǒng)計資料的。

分析思路:在《紅樓夢》中,對于許多情景都是有非常深入的刻畫和描寫的,比如飲食描寫,全書有40余回涉及到飲食文化的方方面面。本研究不考慮人文社會方面的問題,致力于數(shù)據分析統(tǒng)計,應用數(shù)理統(tǒng)計方法研究前80回和后40回的文風上的差異。以飲食為例,《紅樓夢》前80回有34回涉及飲食方面的描寫,后40回有8回涉及飲食描寫,根據這個數(shù)據,作者考慮以下等價性假設檢驗問題。原假設H0:“前80回與后40回對于飲食描寫的關注程度相同!; 對立假設H1:“前80回對于飲食描寫的關注程度大于后40回對飲食描寫的關注程度! 通過Fisher精確條件檢驗或者漸進正態(tài)檢驗,可以發(fā)現(xiàn)上述哪個假設更加有理由有把握是真的。

分析的結論:研究表明,飲食和花卉的顯著性最高,即有充分的理由(99%)認為,前80回與后40回在飲食與花卉的描述上有明顯的差異,其判錯的概率不到1%;對于醫(yī)藥、樹木、這兩個指標,有90%的把握認為,前80回與后40回在這些指標的描述上是有差異的;不過,對于詩詞的描述,并沒有充分的理由發(fā)現(xiàn)前80回與后40回的差異。

[數(shù)據挖掘分析《紅樓夢》]相關文章:

1.數(shù)據挖掘分析《紅樓夢》

【數(shù)據挖掘分析《紅樓夢》】相關文章:

銷售數(shù)據的分析方法07-25

大數(shù)據分析07-20

數(shù)據分析報告07-28

大數(shù)據分析07-25

多維數(shù)據分析方法04-07

數(shù)據分析主管的職責01-13

數(shù)據分析工作職責07-28

數(shù)據分析簡歷模板02-17

數(shù)據分析報告【推薦】03-07

【推薦】數(shù)據分析報告03-01