- 相關(guān)推薦
看透數(shù)據(jù)的真相的方法
在我們的工作、生活中,經(jīng)常能接觸到各種各樣的數(shù)據(jù)、調(diào)查結(jié)果,這些數(shù)據(jù)和結(jié)果都是正確的嗎?哪些數(shù)據(jù)有誤導(dǎo)性?哪些數(shù)據(jù)有限定條件?哪些數(shù)據(jù)不可以比較?本次分享告訴大家如何解讀數(shù)據(jù),如何看透數(shù)據(jù)的真相!
【案例一】樣本的代表性
1936年《青年文摘》對(duì)美國總統(tǒng)大選的結(jié)果進(jìn)行預(yù)測(cè),結(jié)果失敗,問題出在調(diào)查方法上(調(diào)查對(duì)象是其讀者,調(diào)查方法為電話調(diào)查)。1936年有能力購買電話和訂閱雜志的人并不能代表所有的選民,至少在經(jīng)濟(jì)上,他們是一個(gè)極其特殊的群體,是有偏的,事實(shí)后來證實(shí)他們有許多人是共和黨的選民。但是如果調(diào)查選擇的樣本是代表性的,能代表全部選民那么調(diào)查就能得到準(zhǔn)確的預(yù)測(cè)結(jié)果。
l 蓋洛普為什么預(yù)測(cè)美國大選的結(jié)果很準(zhǔn)確?他們采用抽樣調(diào)查方法,在全國各州按比例選擇調(diào)查對(duì)象對(duì)總體有很強(qiáng)的代表性 。
【案例二】樣本量是否足夠?
我們來調(diào)查“喜歡大番茄的人多還是小番茄的人多”,究竟調(diào)查10個(gè)人、20個(gè)人還是100個(gè)人得出的結(jié)論是準(zhǔn)確的呢?我們選擇多少個(gè)人作為調(diào)查對(duì)象,即需要多少個(gè)樣本量的決定因素有很多,總體的大小,總體內(nèi)部的變異程度等等。總體的大小很容易理解,調(diào)查全市市民和調(diào)查一個(gè)班級(jí)哪個(gè)需要的樣本量大呢?顯然是前者。至于總體內(nèi)部的變異程度,舉個(gè)例子,如果總體只有100個(gè)人且這100個(gè)人差異不大,或許十幾個(gè)樣本就已經(jīng)足夠了,但是如果這100個(gè)人每個(gè)人差異性都很大呢?是不是要選取更多的樣本才能更真實(shí)反映100個(gè)人的情況呢?
舉一個(gè)用研的例子:對(duì)于整個(gè)淘寶網(wǎng)買家的調(diào)研,基本上我們要保障1500的樣本量,而對(duì)于某一類目賣家的調(diào)研可能幾百就足夠了(比如機(jī)票等類目賣家較少)。
PS:抽樣經(jīng)驗(yàn):1500以上的樣本量基本就能很好地代表總體,無論總體有多大。
【案例三】敏感、隱私話題
對(duì)于一些敏感、隱私的話題,被調(diào)查者對(duì)于你的提問可能不會(huì)反映最真實(shí)的情況。如果采納這些不真實(shí)的信息,會(huì)使得調(diào)查結(jié)果不準(zhǔn)確,比如圖中詢問“您更喜歡閱讀哪本雜志?”,可能有很多人明明更喜歡閱讀《東周刊》卻選擇《鳳凰周刊》,原因在于擔(dān)心選擇前者可能會(huì)被大家認(rèn)為是一個(gè)喜歡偷窺隱私的人。因此對(duì)于敏感隱私的話題,不必面對(duì)面調(diào)查,可以采用集體填答問卷的形式或者電話調(diào)查的方式,并且說明我們的保密原則,結(jié)果就會(huì)好很多。另外有些隱私話題不用直接詢問,可以從不同角度確認(rèn)這些信息,例如詢問“每月您的消費(fèi)支出水平”,我們可以通過詢問“購買哪些品牌的衣服”“經(jīng)常去哪兒就餐”等問題從側(cè)面收集資料。
【案例四】平均數(shù)的陷阱
假設(shè)你是某個(gè)小型制造企業(yè)的3個(gè)合伙人之一,到了月底給企業(yè)的90個(gè)職工發(fā)了99000元,你和合伙人每人共獲得5500元的工資,最后還余下21000元作為利潤可供你們3個(gè)合伙人平分。你會(huì)選擇哪一種表述公示呢? 肯定是后者,因?yàn)轱@得收入分配更公平,但其實(shí)每個(gè)人拿到的錢還是和前者一樣。因此需要特別注意這些平均數(shù)背后的真相。 l 國家統(tǒng)計(jì)局發(fā)布《2009年國民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)》,其中稱“70個(gè)大中城市房屋銷售價(jià)格上漲1.5%”,數(shù)字公布之后,引起了代表委員和社會(huì)輿論的廣泛質(zhì)疑。從數(shù)字看起來房價(jià)上漲很少,但為何與我們的感受不一致,主要原因還是在于平均數(shù),這一數(shù)字對(duì)房屋種類、地區(qū)、地段、樓層、朝向、時(shí)點(diǎn)等因素而差異較大的樣本進(jìn)行綜合平均統(tǒng)計(jì),過度消除了價(jià)格變化。
l 統(tǒng)計(jì)局公布1月CPI數(shù)字,因?yàn)榇汗?jié)假期央行再度加息,市場(chǎng)曾預(yù)期1月CPI必將再創(chuàng)新高,甚至有望接近6%數(shù)字,可實(shí)際數(shù)字4.9%卻讓人頗為意外。原因就是統(tǒng)計(jì)局CPI統(tǒng)計(jì)的新權(quán)重:居住類、醫(yī)療保健類、娛樂教育文化類價(jià)格權(quán)重上升,食品類權(quán)重下降。而食品類價(jià)格卻是百姓感受最明顯的一個(gè)指標(biāo),因此平均時(shí)權(quán)重差異也使得我們感受與數(shù)字之間產(chǎn)生差異。
【案例五】一樣的數(shù)據(jù),不一樣的圖形
為了讓沒有直接接觸數(shù)據(jù)的人也能直觀地感受到其中的一些信息,人們發(fā)明了各種各樣漂亮的統(tǒng)計(jì)圖表。但是就是“客觀”的圖表里面也存在著各種各樣的陷阱。在制作統(tǒng)計(jì)圖表時(shí),一個(gè)常用的欺騙手法便是改變統(tǒng)計(jì)圖形的坐標(biāo)尺度,從而改變了整個(gè)圖形的增長趨勢(shì)或是陡峭程度。 天平兩側(cè)的圖是用同一組數(shù)字繪制的,只是改變了縱坐標(biāo)的刻度范圍,卻使得兩幅圖看起來具有完全不同的增長趨勢(shì)。 此圖反映了某年9月27日某時(shí)的黃金價(jià)格走勢(shì)。上面兩幅圖描述的是相同時(shí)間段的黃金價(jià)格走勢(shì),顯然,左邊的金價(jià)急升更容易讓人產(chǎn)生激動(dòng)的心情。即使標(biāo)出了橫縱軸的刻度,這兩幅圖給普通人留下的第一印象也大不一樣。
【案例六】 結(jié)論的使用范圍、限定條件
對(duì)于這一則廣告,從廣告詞來看,此感冒藥效果很好,但是在這里我們需要問兩個(gè)問題:在人的喉嚨里會(huì)不會(huì)發(fā)揮作用?這些細(xì)菌是感冒細(xì)菌嗎?顯然如果廣告詞沒有標(biāo)明結(jié)論的限定條件,我們并不能就此認(rèn)為此感冒藥到底有何效果。因此我們特別要關(guān)注有些結(jié)論的限定條件,并不是所有條件下結(jié)論都成立。 正是由于結(jié)論受到很多條件的限制,我們?cè)谡{(diào)查中如果要得到較為穩(wěn)定的結(jié)論,則需要探究一些較為穩(wěn)定的現(xiàn)象。用戶的行為經(jīng)常在發(fā)生變化,如果我們僅僅是關(guān)注用戶的行為,可能我們要不停地去做重復(fù)的調(diào)查,但是除了行為外,其實(shí)很多用戶需求層面的東西是比較穩(wěn)定的,我們的調(diào)研也會(huì)重點(diǎn)關(guān)注這些方面,行為會(huì)變但是需求層面的東西會(huì)比較穩(wěn)定,因此我們不會(huì)僅僅設(shè)計(jì)一些很操作層面的問題,拿酒店頻道舉例,我們不會(huì)只提問“您為什么在查詢之后預(yù)訂我們的酒店”,我們還會(huì)詢問“您經(jīng)常去哪些渠道預(yù)訂酒店”“您經(jīng)常住哪一類型的酒店”等等,從各個(gè)方面去看用戶最內(nèi)在的需求。
【案例七】口徑不同的數(shù)字不可比較
如果告訴圖中所示信息,你肯定會(huì)認(rèn)為美國海軍的死亡率低于紐約市民。但是大家想一下:美國海軍與紐約市民的年齡結(jié)構(gòu)是一致的嗎?海軍都是青壯年而紐約市民中很一部分是死亡率極高的老年人,這兩個(gè)人群的死亡率可以比較嗎?顯然是不行的。國家統(tǒng)計(jì)局公布2009年上半年,中國城鎮(zhèn)單位在崗職工平均工資為14638元,與上年同期相比增加了1674元,增長12.9%。有網(wǎng)民稱,統(tǒng)計(jì)數(shù)據(jù)與自己的收入不符。為何數(shù)字公布與網(wǎng)民感受不符呢?關(guān)鍵在于納入國家統(tǒng)計(jì)局口徑的不是所有勞動(dòng)人口,而是城鎮(zhèn)國有單位、集體單位和股份合作、聯(lián)營、有限責(zé)任公司、股份有限公司、外資和港澳臺(tái)商投資單位的員工,不包括私營單位、個(gè)體工商戶和靈活就業(yè)人員,而往往低收入人群廣泛存在于漏掉那部分人群中。因此在看到一個(gè)統(tǒng)計(jì)結(jié)論時(shí)一定要仔細(xì)辨清其統(tǒng)計(jì)口徑。
【案例八】真的是因果關(guān)系嗎?
如果給出全班所有成員的成績,又給出是否抽煙的情況,你發(fā)現(xiàn)抽煙的學(xué)生成績都比較差,你是否就能得出“抽煙導(dǎo)致低分”的結(jié)論呢?抽煙與低分之間可能還有性格、家庭等各方面的因素。兩個(gè)變量一起變動(dòng)只能代表他們相關(guān)但不能代表他們是因果關(guān)系。
此圖給出了兩種很容易被我們誤解為A與B之間有因果關(guān)系的情況,雖然A與B同時(shí)變動(dòng),但是他們的變動(dòng)都是由Z引起的,而不是本身的因果關(guān)系,這樣的情況我們需要特別注意。 總結(jié)以上八個(gè)案例,特別提示大家注意以下問題: 根據(jù)抽樣得出的結(jié)論一定要采用具有代表性的樣本 在樣本量足夠時(shí)誤差才會(huì)較小,結(jié)論才會(huì)可靠 對(duì)敏感隱私問題需要多方驗(yàn)證 看到平均數(shù)時(shí)首先問問是平均了什么? 同一種數(shù)據(jù)的不同展現(xiàn)方式帶來的陷阱 大部分結(jié)論都有其限定條件和適用范圍 口徑不一致的數(shù)據(jù)不能拿來比較 兩個(gè)數(shù)字同時(shí)變化并不能用于說明因果關(guān)系如果在看到很多數(shù)據(jù)以及結(jié)論的時(shí)候想到了以上八個(gè)問題,并且在心中回答出以下四個(gè)問題:“研究方法科學(xué)嗎?”、“表達(dá)方式有誤嗎?”、“這些數(shù)字可以比較嗎?”、“結(jié)論有限定條件嗎?”,那么恭喜大家練成了火眼金睛,不用害怕掉入任何數(shù)字的陷阱了!
[看透數(shù)據(jù)的真相的方法]相關(guān)文章:
【看透數(shù)據(jù)的真相的方法】相關(guān)文章:
銷售數(shù)據(jù)的分析方法07-25
配件庫存分析數(shù)據(jù)的方法07-10
銷售數(shù)據(jù)分析的方法07-03
銷售數(shù)據(jù)分析方法07-03
多維數(shù)據(jù)分析方法04-07
數(shù)據(jù)分析常用方法07-26
數(shù)據(jù)分析與辦公軟件:數(shù)據(jù)分析方法07-10
數(shù)據(jù)分析技巧和方法07-10