97超级碰碰碰久久久_精品成年人在线观看_精品国内女人视频免费观_福利一区二区久久

孤立點(diǎn)分析在稅務(wù)審計(jì)上的發(fā)展運(yùn)用

時(shí)間:2022-07-02 18:53:26 稅務(wù) 我要投稿
  • 相關(guān)推薦

關(guān)于孤立點(diǎn)分析在稅務(wù)審計(jì)上的發(fā)展運(yùn)用

  孤立點(diǎn)分析在稅務(wù)審計(jì)上的發(fā)展運(yùn)用

  引言

  審計(jì)作為一種獨(dú)立性的經(jīng)濟(jì)監(jiān)督活動(dòng),對(duì)被審計(jì)單位相關(guān)經(jīng)濟(jì)活動(dòng)具有特有的制約和促進(jìn)作用。審計(jì)的職能就是通過(guò)對(duì)數(shù)據(jù)的檢查,監(jiān)察財(cái)務(wù)收支的真實(shí)、合法性,總結(jié)效益情況,同時(shí)發(fā)現(xiàn)和揭示重大問(wèn)題或風(fēng)險(xiǎn)隱患。近年來(lái),隨著經(jīng)濟(jì)建設(shè)的不斷發(fā)展,稅務(wù)審計(jì)的任務(wù)也越來(lái)越重,在日積月累的數(shù)據(jù)量的不斷增加下,使用原有的審計(jì)也難以滿足實(shí)際要求。隨著審計(jì)技術(shù)運(yùn)用的不斷深入,內(nèi)部審計(jì)人員感覺(jué)可發(fā)現(xiàn)的審計(jì)線索少了,問(wèn)題越來(lái)越隱蔽。而以往的分析技術(shù)傾向于發(fā)現(xiàn)個(gè)案的存在,但對(duì)審計(jì)對(duì)象的整體風(fēng)險(xiǎn)情況無(wú)法進(jìn)行全面的把握。對(duì)審計(jì)部門困擾的主要有以下問(wèn)題,一是由于各單位業(yè)務(wù)逐步出現(xiàn)了高度電子化,數(shù)據(jù)海量化,關(guān)注廣泛化,產(chǎn)品衍生化,環(huán)境多樣化的情況,讓審計(jì)效率明顯降低。二是審計(jì)在其執(zhí)行過(guò)程中,所用的工具和程序都是基于事先的審計(jì)假設(shè),而審計(jì)假設(shè)則是由審計(jì)人員通過(guò)以往的正常情況或者發(fā)展趨勢(shì)進(jìn)行人工分析得出判斷和說(shuō)明,但是由于個(gè)人的經(jīng)驗(yàn)和知識(shí)是有限的,隨著時(shí)間的發(fā)展,業(yè)務(wù)流程的更新,產(chǎn)品和技術(shù)的產(chǎn)生,造成了模型相對(duì)滯后,對(duì)面新的情況和海量的數(shù)據(jù)著手困難[1]。針對(duì)這些問(wèn)題,人們逐步開始利用數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行解決。本文主要描述基于數(shù)據(jù)挖掘的孤立點(diǎn)分析在稅務(wù)審計(jì)方向上的發(fā)展與運(yùn)用。

  1 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。它可以進(jìn)行歷史數(shù)據(jù)的查詢和遍歷,發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中對(duì)象演變特征或?qū)?象發(fā)展趨勢(shì),也能找出過(guò)去數(shù)據(jù)潛在的關(guān)系,從而進(jìn)行信息的挖掘,還可以根據(jù)過(guò)去的數(shù)據(jù)對(duì)未來(lái)進(jìn)行預(yù)測(cè)和分類。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別就是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘現(xiàn)階段在稅務(wù)審計(jì)中主要應(yīng)用了聚類技術(shù)、分類與預(yù)測(cè)技術(shù)、關(guān)聯(lián)技術(shù)、孤立點(diǎn)發(fā)現(xiàn)技術(shù)等等[2]。

  2 孤立點(diǎn)的定義與產(chǎn)生

  2.1 孤立點(diǎn)的定義孤立點(diǎn)分析是數(shù)據(jù)挖掘中的一個(gè)重要研究方向。利用數(shù)據(jù)挖掘技術(shù)可以在海量的數(shù)據(jù)處理過(guò)程中獲得一般模型,但這些數(shù)據(jù)并不是全部適用于這個(gè)一般模型,比如一些特殊值。這些不符合一般數(shù)據(jù)模型的數(shù)據(jù)從數(shù)據(jù)處理的目的來(lái)說(shuō)可能就是數(shù)據(jù)整體的孤立數(shù)據(jù)、異常數(shù)據(jù)、偏差數(shù)據(jù)或者噪聲數(shù)據(jù)。它們也有它們的共同特性,就是與海量數(shù)據(jù)中的其他數(shù)據(jù)有著明顯的不一致,這些數(shù)據(jù),我們統(tǒng)稱為孤立點(diǎn)。一般的孤立點(diǎn)分析在數(shù)據(jù)挖掘中存在兩個(gè)基本任務(wù):一是在給定的數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)可以被認(rèn)為不一致的;二是找到一個(gè)有效的方法來(lái)挖掘這樣的孤立點(diǎn)[3]。

  2.2 孤立點(diǎn)的產(chǎn)生孤立點(diǎn)的產(chǎn)生原因是多方面的,簡(jiǎn)單來(lái)說(shuō),可以歸納為以下幾個(gè)方面: 二是人為欺詐行為所致。為了某種目的而直接對(duì)數(shù)據(jù)進(jìn)行違背事實(shí)的更改或者添加,造成數(shù)據(jù)值與實(shí)際情況有很大區(qū)別。個(gè)別單位虛報(bào)的統(tǒng)計(jì)數(shù)據(jù)就屬于此類。三是由于儀器或者設(shè)備出錯(cuò)導(dǎo)致。在數(shù)據(jù)采集過(guò)程中測(cè)量?jī)x器或者設(shè)備難免不會(huì)受到外界的影響而使得采集到的數(shù)據(jù)出現(xiàn)錯(cuò)誤。四是數(shù)據(jù)系統(tǒng)的變化或者故障。數(shù)據(jù)系統(tǒng)在運(yùn)行或者搬遷的時(shí)候,可能因?yàn)閭€(gè)別不可預(yù)料的操作對(duì)其中的數(shù)據(jù)造成影響。比如數(shù)據(jù)庫(kù)的搬遷,恢復(fù)時(shí)出現(xiàn)小范圍報(bào)錯(cuò)的情況。五是數(shù)據(jù)發(fā)生自然偏差導(dǎo)致。事物是不斷發(fā)展和變化的,在這個(gè)過(guò)程中是符合自然規(guī)律的,而這些變化和發(fā)展也會(huì)對(duì)其中的數(shù)據(jù)產(chǎn)生影響。比如同一個(gè)公司里職員升職為經(jīng)理后工資就會(huì)高出不少,但這些變化卻是合理的存在從上面的原因來(lái)看,孤立點(diǎn)不論是怎么產(chǎn)生的,都并不是毫無(wú)意義的異常數(shù)據(jù)。這些孤立點(diǎn)數(shù)據(jù)對(duì)總結(jié)海量數(shù)據(jù)得出一般模型不會(huì)產(chǎn)生積極作用,但從這些估計(jì)點(diǎn)進(jìn)行分析卻能夠獲取到有價(jià)值的信息。作為稅務(wù)審計(jì)人員,就應(yīng)該特別重視孤立點(diǎn)數(shù)據(jù),從中深究出審計(jì)線索。

  3 孤立點(diǎn)在稅務(wù)審計(jì)上的運(yùn)用因?yàn)槎悇?wù)審計(jì)業(yè)務(wù)的性質(zhì),決定了在稅務(wù)審計(jì)中運(yùn)用數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)海量數(shù)據(jù)的孤立點(diǎn)進(jìn)行分析能夠取得比較好的審計(jì)線索,從而達(dá)到審計(jì)的目的。在稅務(wù)審計(jì)工作中,通過(guò)基于數(shù)據(jù)挖掘的孤立點(diǎn)分析來(lái)查找審計(jì)線索特征主要分為以下三個(gè)步驟。

  3.1 尋找孤立點(diǎn)的數(shù)據(jù)準(zhǔn)備數(shù)據(jù)的準(zhǔn)備可以分為三個(gè)主要步驟:一是數(shù)據(jù)選取,二是數(shù)據(jù)預(yù)處理,三是數(shù)據(jù)變換。數(shù)據(jù)選出主要是為了確定目標(biāo)任務(wù)的操作對(duì)象,它是根據(jù)用戶的需要從原始數(shù)據(jù)庫(kù)抽取出來(lái)的一部分表和字段。所以在數(shù)據(jù)選取之前先要對(duì)具體的審計(jì)事項(xiàng)進(jìn)行分析,綜合數(shù)據(jù)字典和數(shù)據(jù)說(shuō)明文檔對(duì)數(shù)據(jù)的含義和業(yè)務(wù)流程等方面的情況進(jìn)行分析,對(duì)數(shù)據(jù)的產(chǎn)生有個(gè)全面的了解。數(shù)據(jù)預(yù)處理是一個(gè)相當(dāng)耗費(fèi)時(shí)間的過(guò)程,它包括數(shù)據(jù)噪聲的消除、缺值數(shù)據(jù)的推導(dǎo)與計(jì)算、重復(fù)記錄的處理、數(shù)據(jù)類型的轉(zhuǎn)換等等。比如在處理空值和噪聲時(shí)一般可以采取如下幾個(gè)方法:一是均值法,即用數(shù)據(jù)庫(kù)中該屬性已知的屬性填充,具體為當(dāng)前點(diǎn)k(k可自定義)個(gè)不為空的數(shù)據(jù)點(diǎn)的平均值來(lái)替換。二是平滑法,假設(shè)當(dāng)前數(shù)據(jù)點(diǎn)是噪聲數(shù)據(jù)或者空值,則取出當(dāng)前點(diǎn)a個(gè)(a可自定義)不為空的數(shù)據(jù)點(diǎn)的加權(quán)平均值來(lái)替換。三是預(yù)測(cè)法,采取回歸、擬合、插值、歸納等方法,推斷空值或噪聲數(shù)據(jù)屬性最可能的取值。四是統(tǒng)計(jì)頻率法,此法既適用離散數(shù)據(jù),也可用于經(jīng)過(guò)離散化的連續(xù)數(shù)據(jù)的數(shù)據(jù)缺損處理,假如數(shù)據(jù)庫(kù)中的屬性存在有噪聲數(shù)據(jù)或者空值,屬性a的值域?yàn)閧,,……,},P()表示值在該系統(tǒng)中出現(xiàn)的頻率�?梢杂米畲蟪霈F(xiàn)頻率的值max{P()}進(jìn)行填充[4]。數(shù)據(jù)變換的主要目的則是數(shù)據(jù)維數(shù)消減,主要可分為兩種:一種是從有關(guān)變量中消除無(wú)關(guān)、弱相關(guān)或冗余的維,尋找一個(gè)變量子集來(lái)構(gòu)建模型,即子集選擇策略;另一種就是把p個(gè)原始變量變換為p′個(gè)變量,即數(shù)據(jù)變換策略。

  3.2 可疑孤立點(diǎn)的檢測(cè)一般來(lái)說(shuō),孤立點(diǎn)的發(fā)現(xiàn)可以分為以下幾種:一是基于統(tǒng)計(jì)的孤立點(diǎn)檢測(cè)方法。這種方法是將全部的數(shù)據(jù)集合假設(shè)成一個(gè)概率模型,根據(jù)模型再采用不一致性檢測(cè)來(lái)尋找和確立孤立點(diǎn)。基于統(tǒng)計(jì)的孤立點(diǎn)檢測(cè)挖掘方法比較簡(jiǎn)單,實(shí)現(xiàn)起來(lái)也相對(duì)容易,但它的缺點(diǎn)也比較明顯,就是大部分的檢測(cè)僅對(duì)數(shù)據(jù)分布滿足一定概率分布的數(shù)值型單維數(shù)據(jù)集較為有效,然而許多采用數(shù)據(jù)挖掘技術(shù)就是要求在多維空間中發(fā)現(xiàn)孤立點(diǎn)的。同時(shí),統(tǒng)計(jì)學(xué)的方法要求關(guān)于數(shù)據(jù)集合參數(shù)的知識(shí),但是,這參數(shù)有可能是未知的。當(dāng)沒(méi)有特定的檢驗(yàn)時(shí),該類方法不能確保所有的孤立點(diǎn)被發(fā)現(xiàn)。二是基于距離的孤立點(diǎn)檢測(cè)方法。為了能夠解決基于統(tǒng)計(jì)的孤立點(diǎn)檢測(cè)方法的實(shí)用性局限,拓寬在多維數(shù)據(jù)上的應(yīng)用,Knorr和NG引入了基于距離的孤立點(diǎn)的概念,他們認(rèn)為如果某個(gè)點(diǎn)與數(shù)據(jù)集中大多數(shù)點(diǎn)之間的距離都超過(guò)了某個(gè)閥值,這個(gè)點(diǎn)就是孤立點(diǎn)[5]。但他們的這種方法也有著不足:閥門需要用戶自己合理設(shè)置,使得產(chǎn)生了比較大的人工介入和干預(yù)。我們比較用到的基于距離的孤立點(diǎn)算法有:Cell-based算法、Index-based算法和Nested-loop算法。三是基于密度的孤立點(diǎn)檢測(cè)方法。它是在基于距離的方法基礎(chǔ)上建立起來(lái)的,根據(jù)數(shù)據(jù)點(diǎn)之間的距離參數(shù)以及某一給定范圍內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)參數(shù)結(jié)合在一起就是密度的概念。基于密度的孤立點(diǎn)檢測(cè)能夠很好的檢測(cè)出基于距離所不能夠識(shí)別的局部孤立點(diǎn),也不容易遺漏掉周圍的孤立點(diǎn)數(shù)據(jù)。四是基于聚類的孤立點(diǎn)檢測(cè)方法。這種方法主要是指在數(shù)據(jù)挖掘的聚類過(guò)程中,在產(chǎn)生有意義的聚類信息的同時(shí)產(chǎn)生的多余孤立點(diǎn)數(shù)據(jù)。在聚類過(guò)程中,算法會(huì)將數(shù)據(jù)集中異常的信息作為噪音而忽略掉,雖然不利于異常信息的檢測(cè),但它掃描數(shù)據(jù)集效率非常高,適用于現(xiàn)在的海量數(shù)據(jù)。五是基于偏離的孤立點(diǎn)檢測(cè)方法�;谄x的孤立點(diǎn)檢測(cè)時(shí)通過(guò)對(duì)檢測(cè)數(shù)據(jù)集的主要特征來(lái)確定孤立點(diǎn)的,與指定的主要特征描述不一致的所有數(shù)據(jù)集都會(huì)被認(rèn)為是孤立點(diǎn)。比較常見的基于偏離的孤立點(diǎn)檢測(cè)技術(shù)是序列異常技術(shù)和OLAP數(shù)據(jù)立方體技術(shù)[6]。

  3.3 可疑孤立點(diǎn)的判斷接下來(lái)就需要對(duì)找出的孤立點(diǎn)進(jìn)行人工分析,看是否為疑點(diǎn)數(shù)據(jù)。發(fā)現(xiàn)的孤立點(diǎn)雖然都符合挖掘的條件,但不一定對(duì)稅務(wù)審計(jì)工作有利用價(jià)格。比如,有些孤立點(diǎn)雖然是異常的,但卻是合理數(shù)據(jù),有些孤立點(diǎn)雖然是異常的,但影響卻非常小,達(dá)不到需要關(guān)注的水平。這些都需要審計(jì)人員根據(jù)業(yè)務(wù)的目的進(jìn)行具體問(wèn)題具體分析,從而從中選出適合的孤立點(diǎn)數(shù)據(jù)。再對(duì)初步選擇出來(lái)的疑點(diǎn)數(shù)據(jù)進(jìn)行審計(jì)專業(yè)判斷,通過(guò)專業(yè)的辦法最終確定審計(jì)線索。常見的方法主要有:一是審閱法,它主要是指對(duì)各種書面、電子資料的檢查。通過(guò)審閱法,可以對(duì)孤立點(diǎn)有關(guān)的其它資料(包括經(jīng)濟(jì)信息材料等等)進(jìn)行審閱,來(lái)確認(rèn)該孤立點(diǎn)是否屬于問(wèn)題數(shù)據(jù)。二是復(fù)算法,復(fù)算法主要指通過(guò)對(duì)有關(guān)數(shù)據(jù)的重新整理和計(jì)算,以驗(yàn)證其結(jié)論是否可靠的一種方法。根據(jù)實(shí)際情況,通過(guò)對(duì)檢測(cè)出的可疑孤立點(diǎn)進(jìn)行再次計(jì)算,多次重復(fù)來(lái)確認(rèn)該孤立點(diǎn)是不是問(wèn)題數(shù)據(jù)。三是存盤法,存盤法指的是通過(guò)對(duì)財(cái)產(chǎn)物質(zhì)的清點(diǎn)、計(jì)算,驗(yàn)證可疑孤立點(diǎn)的數(shù)據(jù)的真實(shí)性。四是函證法,因?yàn)楸粚徲?jì)單位的業(yè)務(wù)不可能是孤立的存在,肯定會(huì)跟其它的單位有著各種各樣的聯(lián)系,所以,可以發(fā)送函件給其它單位,來(lái)驗(yàn)證數(shù)據(jù)是否合理,確定孤立點(diǎn)是否為問(wèn)題數(shù)據(jù)。

  4 結(jié)論總之,運(yùn)用一定的數(shù)據(jù)挖掘算法對(duì)被審計(jì)的海量數(shù)據(jù)采取聚類或其它的檢測(cè)方法,找出數(shù)據(jù)的一般規(guī)律,篩選出孤立點(diǎn),并以圖、表等方式展現(xiàn)給審計(jì)人員,審計(jì)人員就能根據(jù)專業(yè)知識(shí)和方法判斷其正確性與合理性,經(jīng)過(guò)多次的挖掘、分析、判斷,最終建立確定適合的審計(jì)線索�;跀�(shù)據(jù)挖掘技術(shù)的孤立點(diǎn)分析可以大大縮小搜索審計(jì)線索的范圍,幫助審計(jì)人員及時(shí)發(fā)現(xiàn)違紀(jì)線索,增強(qiáng)審計(jì)人員的數(shù)據(jù)分析能力,大幅度提高審計(jì)工作的質(zhì)量和效率,對(duì)行業(yè)依賴度較低并具有一定的通用性。因此,包括孤立點(diǎn)分析在內(nèi)的數(shù)據(jù)挖掘技術(shù)在審計(jì)領(lǐng)域必將能得到更多的運(yùn)用和發(fā)展。

《最新成免费人久久精品,亚洲无码中文图片.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

【孤立點(diǎn)分析在稅務(wù)審計(jì)上的發(fā)展運(yùn)用】相關(guān)文章:

《積累運(yùn)用》教材分析07-03

JDPaint雕塑的運(yùn)用分析論文07-03

性格分析在培訓(xùn)技術(shù)中的運(yùn)用07-13

稅務(wù)案頭審計(jì)報(bào)告范文07-02

傳統(tǒng)雕塑形體中線的運(yùn)用分析論文07-03

國(guó)內(nèi)體育運(yùn)動(dòng)在數(shù)據(jù)分析領(lǐng)域上發(fā)展如何?07-10

測(cè)評(píng)在諾基亞員工發(fā)展中的有效運(yùn)用07-12

《函數(shù)性質(zhì)的運(yùn)用》數(shù)學(xué)教學(xué)案例分析07-03

白領(lǐng)如何避免被孤立07-12

Web分析與CMS集成網(wǎng)站分析發(fā)展趨勢(shì)07-14

關(guān)于孤立點(diǎn)分析在稅務(wù)審計(jì)上的發(fā)展運(yùn)用

  孤立點(diǎn)分析在稅務(wù)審計(jì)上的發(fā)展運(yùn)用

  引言

  審計(jì)作為一種獨(dú)立性的經(jīng)濟(jì)監(jiān)督活動(dòng),對(duì)被審計(jì)單位相關(guān)經(jīng)濟(jì)活動(dòng)具有特有的制約和促進(jìn)作用。審計(jì)的職能就是通過(guò)對(duì)數(shù)據(jù)的檢查,監(jiān)察財(cái)務(wù)收支的真實(shí)、合法性,總結(jié)效益情況,同時(shí)發(fā)現(xiàn)和揭示重大問(wèn)題或風(fēng)險(xiǎn)隱患。近年來(lái),隨著經(jīng)濟(jì)建設(shè)的不斷發(fā)展,稅務(wù)審計(jì)的任務(wù)也越來(lái)越重,在日積月累的數(shù)據(jù)量的不斷增加下,使用原有的審計(jì)也難以滿足實(shí)際要求。隨著審計(jì)技術(shù)運(yùn)用的不斷深入,內(nèi)部審計(jì)人員感覺(jué)可發(fā)現(xiàn)的審計(jì)線索少了,問(wèn)題越來(lái)越隱蔽。而以往的分析技術(shù)傾向于發(fā)現(xiàn)個(gè)案的存在,但對(duì)審計(jì)對(duì)象的整體風(fēng)險(xiǎn)情況無(wú)法進(jìn)行全面的把握。對(duì)審計(jì)部門困擾的主要有以下問(wèn)題,一是由于各單位業(yè)務(wù)逐步出現(xiàn)了高度電子化,數(shù)據(jù)海量化,關(guān)注廣泛化,產(chǎn)品衍生化,環(huán)境多樣化的情況,讓審計(jì)效率明顯降低。二是審計(jì)在其執(zhí)行過(guò)程中,所用的工具和程序都是基于事先的審計(jì)假設(shè),而審計(jì)假設(shè)則是由審計(jì)人員通過(guò)以往的正常情況或者發(fā)展趨勢(shì)進(jìn)行人工分析得出判斷和說(shuō)明,但是由于個(gè)人的經(jīng)驗(yàn)和知識(shí)是有限的,隨著時(shí)間的發(fā)展,業(yè)務(wù)流程的更新,產(chǎn)品和技術(shù)的產(chǎn)生,造成了模型相對(duì)滯后,對(duì)面新的情況和海量的數(shù)據(jù)著手困難[1]。針對(duì)這些問(wèn)題,人們逐步開始利用數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行解決。本文主要描述基于數(shù)據(jù)挖掘的孤立點(diǎn)分析在稅務(wù)審計(jì)方向上的發(fā)展與運(yùn)用。

  1 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。它可以進(jìn)行歷史數(shù)據(jù)的查詢和遍歷,發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中對(duì)象演變特征或?qū)?象發(fā)展趨勢(shì),也能找出過(guò)去數(shù)據(jù)潛在的關(guān)系,從而進(jìn)行信息的挖掘,還可以根據(jù)過(guò)去的數(shù)據(jù)對(duì)未來(lái)進(jìn)行預(yù)測(cè)和分類。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別就是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘現(xiàn)階段在稅務(wù)審計(jì)中主要應(yīng)用了聚類技術(shù)、分類與預(yù)測(cè)技術(shù)、關(guān)聯(lián)技術(shù)、孤立點(diǎn)發(fā)現(xiàn)技術(shù)等等[2]。

  2 孤立點(diǎn)的定義與產(chǎn)生

  2.1 孤立點(diǎn)的定義孤立點(diǎn)分析是數(shù)據(jù)挖掘中的一個(gè)重要研究方向。利用數(shù)據(jù)挖掘技術(shù)可以在海量的數(shù)據(jù)處理過(guò)程中獲得一般模型,但這些數(shù)據(jù)并不是全部適用于這個(gè)一般模型,比如一些特殊值。這些不符合一般數(shù)據(jù)模型的數(shù)據(jù)從數(shù)據(jù)處理的目的來(lái)說(shuō)可能就是數(shù)據(jù)整體的孤立數(shù)據(jù)、異常數(shù)據(jù)、偏差數(shù)據(jù)或者噪聲數(shù)據(jù)。它們也有它們的共同特性,就是與海量數(shù)據(jù)中的其他數(shù)據(jù)有著明顯的不一致,這些數(shù)據(jù),我們統(tǒng)稱為孤立點(diǎn)。一般的孤立點(diǎn)分析在數(shù)據(jù)挖掘中存在兩個(gè)基本任務(wù):一是在給定的數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)可以被認(rèn)為不一致的;二是找到一個(gè)有效的方法來(lái)挖掘這樣的孤立點(diǎn)[3]。

  2.2 孤立點(diǎn)的產(chǎn)生孤立點(diǎn)的產(chǎn)生原因是多方面的,簡(jiǎn)單來(lái)說(shuō),可以歸納為以下幾個(gè)方面: 二是人為欺詐行為所致。為了某種目的而直接對(duì)數(shù)據(jù)進(jìn)行違背事實(shí)的更改或者添加,造成數(shù)據(jù)值與實(shí)際情況有很大區(qū)別。個(gè)別單位虛報(bào)的統(tǒng)計(jì)數(shù)據(jù)就屬于此類。三是由于儀器或者設(shè)備出錯(cuò)導(dǎo)致。在數(shù)據(jù)采集過(guò)程中測(cè)量?jī)x器或者設(shè)備難免不會(huì)受到外界的影響而使得采集到的數(shù)據(jù)出現(xiàn)錯(cuò)誤。四是數(shù)據(jù)系統(tǒng)的變化或者故障。數(shù)據(jù)系統(tǒng)在運(yùn)行或者搬遷的時(shí)候,可能因?yàn)閭€(gè)別不可預(yù)料的操作對(duì)其中的數(shù)據(jù)造成影響。比如數(shù)據(jù)庫(kù)的搬遷,恢復(fù)時(shí)出現(xiàn)小范圍報(bào)錯(cuò)的情況。五是數(shù)據(jù)發(fā)生自然偏差導(dǎo)致。事物是不斷發(fā)展和變化的,在這個(gè)過(guò)程中是符合自然規(guī)律的,而這些變化和發(fā)展也會(huì)對(duì)其中的數(shù)據(jù)產(chǎn)生影響。比如同一個(gè)公司里職員升職為經(jīng)理后工資就會(huì)高出不少,但這些變化卻是合理的存在從上面的原因來(lái)看,孤立點(diǎn)不論是怎么產(chǎn)生的,都并不是毫無(wú)意義的異常數(shù)據(jù)。這些孤立點(diǎn)數(shù)據(jù)對(duì)總結(jié)海量數(shù)據(jù)得出一般模型不會(huì)產(chǎn)生積極作用,但從這些估計(jì)點(diǎn)進(jìn)行分析卻能夠獲取到有價(jià)值的信息。作為稅務(wù)審計(jì)人員,就應(yīng)該特別重視孤立點(diǎn)數(shù)據(jù),從中深究出審計(jì)線索。

  3 孤立點(diǎn)在稅務(wù)審計(jì)上的運(yùn)用因?yàn)槎悇?wù)審計(jì)業(yè)務(wù)的性質(zhì),決定了在稅務(wù)審計(jì)中運(yùn)用數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)海量數(shù)據(jù)的孤立點(diǎn)進(jìn)行分析能夠取得比較好的審計(jì)線索,從而達(dá)到審計(jì)的目的。在稅務(wù)審計(jì)工作中,通過(guò)基于數(shù)據(jù)挖掘的孤立點(diǎn)分析來(lái)查找審計(jì)線索特征主要分為以下三個(gè)步驟。

  3.1 尋找孤立點(diǎn)的數(shù)據(jù)準(zhǔn)備數(shù)據(jù)的準(zhǔn)備可以分為三個(gè)主要步驟:一是數(shù)據(jù)選取,二是數(shù)據(jù)預(yù)處理,三是數(shù)據(jù)變換。數(shù)據(jù)選出主要是為了確定目標(biāo)任務(wù)的操作對(duì)象,它是根據(jù)用戶的需要從原始數(shù)據(jù)庫(kù)抽取出來(lái)的一部分表和字段。所以在數(shù)據(jù)選取之前先要對(duì)具體的審計(jì)事項(xiàng)進(jìn)行分析,綜合數(shù)據(jù)字典和數(shù)據(jù)說(shuō)明文檔對(duì)數(shù)據(jù)的含義和業(yè)務(wù)流程等方面的情況進(jìn)行分析,對(duì)數(shù)據(jù)的產(chǎn)生有個(gè)全面的了解。數(shù)據(jù)預(yù)處理是一個(gè)相當(dāng)耗費(fèi)時(shí)間的過(guò)程,它包括數(shù)據(jù)噪聲的消除、缺值數(shù)據(jù)的推導(dǎo)與計(jì)算、重復(fù)記錄的處理、數(shù)據(jù)類型的轉(zhuǎn)換等等。比如在處理空值和噪聲時(shí)一般可以采取如下幾個(gè)方法:一是均值法,即用數(shù)據(jù)庫(kù)中該屬性已知的屬性填充,具體為當(dāng)前點(diǎn)k(k可自定義)個(gè)不為空的數(shù)據(jù)點(diǎn)的平均值來(lái)替換。二是平滑法,假設(shè)當(dāng)前數(shù)據(jù)點(diǎn)是噪聲數(shù)據(jù)或者空值,則取出當(dāng)前點(diǎn)a個(gè)(a可自定義)不為空的數(shù)據(jù)點(diǎn)的加權(quán)平均值來(lái)替換。三是預(yù)測(cè)法,采取回歸、擬合、插值、歸納等方法,推斷空值或噪聲數(shù)據(jù)屬性最可能的取值。四是統(tǒng)計(jì)頻率法,此法既適用離散數(shù)據(jù),也可用于經(jīng)過(guò)離散化的連續(xù)數(shù)據(jù)的數(shù)據(jù)缺損處理,假如數(shù)據(jù)庫(kù)中的屬性存在有噪聲數(shù)據(jù)或者空值,屬性a的值域?yàn)閧,,……,},P()表示值在該系統(tǒng)中出現(xiàn)的頻率�?梢杂米畲蟪霈F(xiàn)頻率的值max{P()}進(jìn)行填充[4]。數(shù)據(jù)變換的主要目的則是數(shù)據(jù)維數(shù)消減,主要可分為兩種:一種是從有關(guān)變量中消除無(wú)關(guān)、弱相關(guān)或冗余的維,尋找一個(gè)變量子集來(lái)構(gòu)建模型,即子集選擇策略;另一種就是把p個(gè)原始變量變換為p′個(gè)變量,即數(shù)據(jù)變換策略。

  3.2 可疑孤立點(diǎn)的檢測(cè)一般來(lái)說(shuō),孤立點(diǎn)的發(fā)現(xiàn)可以分為以下幾種:一是基于統(tǒng)計(jì)的孤立點(diǎn)檢測(cè)方法。這種方法是將全部的數(shù)據(jù)集合假設(shè)成一個(gè)概率模型,根據(jù)模型再采用不一致性檢測(cè)來(lái)尋找和確立孤立點(diǎn)。基于統(tǒng)計(jì)的孤立點(diǎn)檢測(cè)挖掘方法比較簡(jiǎn)單,實(shí)現(xiàn)起來(lái)也相對(duì)容易,但它的缺點(diǎn)也比較明顯,就是大部分的檢測(cè)僅對(duì)數(shù)據(jù)分布滿足一定概率分布的數(shù)值型單維數(shù)據(jù)集較為有效,然而許多采用數(shù)據(jù)挖掘技術(shù)就是要求在多維空間中發(fā)現(xiàn)孤立點(diǎn)的。同時(shí),統(tǒng)計(jì)學(xué)的方法要求關(guān)于數(shù)據(jù)集合參數(shù)的知識(shí),但是,這參數(shù)有可能是未知的。當(dāng)沒(méi)有特定的檢驗(yàn)時(shí),該類方法不能確保所有的孤立點(diǎn)被發(fā)現(xiàn)。二是基于距離的孤立點(diǎn)檢測(cè)方法。為了能夠解決基于統(tǒng)計(jì)的孤立點(diǎn)檢測(cè)方法的實(shí)用性局限,拓寬在多維數(shù)據(jù)上的應(yīng)用,Knorr和NG引入了基于距離的孤立點(diǎn)的概念,他們認(rèn)為如果某個(gè)點(diǎn)與數(shù)據(jù)集中大多數(shù)點(diǎn)之間的距離都超過(guò)了某個(gè)閥值,這個(gè)點(diǎn)就是孤立點(diǎn)[5]。但他們的這種方法也有著不足:閥門需要用戶自己合理設(shè)置,使得產(chǎn)生了比較大的人工介入和干預(yù)。我們比較用到的基于距離的孤立點(diǎn)算法有:Cell-based算法、Index-based算法和Nested-loop算法。三是基于密度的孤立點(diǎn)檢測(cè)方法。它是在基于距離的方法基礎(chǔ)上建立起來(lái)的,根據(jù)數(shù)據(jù)點(diǎn)之間的距離參數(shù)以及某一給定范圍內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)參數(shù)結(jié)合在一起就是密度的概念。基于密度的孤立點(diǎn)檢測(cè)能夠很好的檢測(cè)出基于距離所不能夠識(shí)別的局部孤立點(diǎn),也不容易遺漏掉周圍的孤立點(diǎn)數(shù)據(jù)。四是基于聚類的孤立點(diǎn)檢測(cè)方法。這種方法主要是指在數(shù)據(jù)挖掘的聚類過(guò)程中,在產(chǎn)生有意義的聚類信息的同時(shí)產(chǎn)生的多余孤立點(diǎn)數(shù)據(jù)。在聚類過(guò)程中,算法會(huì)將數(shù)據(jù)集中異常的信息作為噪音而忽略掉,雖然不利于異常信息的檢測(cè),但它掃描數(shù)據(jù)集效率非常高,適用于現(xiàn)在的海量數(shù)據(jù)。五是基于偏離的孤立點(diǎn)檢測(cè)方法�;谄x的孤立點(diǎn)檢測(cè)時(shí)通過(guò)對(duì)檢測(cè)數(shù)據(jù)集的主要特征來(lái)確定孤立點(diǎn)的,與指定的主要特征描述不一致的所有數(shù)據(jù)集都會(huì)被認(rèn)為是孤立點(diǎn)。比較常見的基于偏離的孤立點(diǎn)檢測(cè)技術(shù)是序列異常技術(shù)和OLAP數(shù)據(jù)立方體技術(shù)[6]。

  3.3 可疑孤立點(diǎn)的判斷接下來(lái)就需要對(duì)找出的孤立點(diǎn)進(jìn)行人工分析,看是否為疑點(diǎn)數(shù)據(jù)。發(fā)現(xiàn)的孤立點(diǎn)雖然都符合挖掘的條件,但不一定對(duì)稅務(wù)審計(jì)工作有利用價(jià)格。比如,有些孤立點(diǎn)雖然是異常的,但卻是合理數(shù)據(jù),有些孤立點(diǎn)雖然是異常的,但影響卻非常小,達(dá)不到需要關(guān)注的水平。這些都需要審計(jì)人員根據(jù)業(yè)務(wù)的目的進(jìn)行具體問(wèn)題具體分析,從而從中選出適合的孤立點(diǎn)數(shù)據(jù)。再對(duì)初步選擇出來(lái)的疑點(diǎn)數(shù)據(jù)進(jìn)行審計(jì)專業(yè)判斷,通過(guò)專業(yè)的辦法最終確定審計(jì)線索。常見的方法主要有:一是審閱法,它主要是指對(duì)各種書面、電子資料的檢查。通過(guò)審閱法,可以對(duì)孤立點(diǎn)有關(guān)的其它資料(包括經(jīng)濟(jì)信息材料等等)進(jìn)行審閱,來(lái)確認(rèn)該孤立點(diǎn)是否屬于問(wèn)題數(shù)據(jù)。二是復(fù)算法,復(fù)算法主要指通過(guò)對(duì)有關(guān)數(shù)據(jù)的重新整理和計(jì)算,以驗(yàn)證其結(jié)論是否可靠的一種方法。根據(jù)實(shí)際情況,通過(guò)對(duì)檢測(cè)出的可疑孤立點(diǎn)進(jìn)行再次計(jì)算,多次重復(fù)來(lái)確認(rèn)該孤立點(diǎn)是不是問(wèn)題數(shù)據(jù)。三是存盤法,存盤法指的是通過(guò)對(duì)財(cái)產(chǎn)物質(zhì)的清點(diǎn)、計(jì)算,驗(yàn)證可疑孤立點(diǎn)的數(shù)據(jù)的真實(shí)性。四是函證法,因?yàn)楸粚徲?jì)單位的業(yè)務(wù)不可能是孤立的存在,肯定會(huì)跟其它的單位有著各種各樣的聯(lián)系,所以,可以發(fā)送函件給其它單位,來(lái)驗(yàn)證數(shù)據(jù)是否合理,確定孤立點(diǎn)是否為問(wèn)題數(shù)據(jù)。

  4 結(jié)論總之,運(yùn)用一定的數(shù)據(jù)挖掘算法對(duì)被審計(jì)的海量數(shù)據(jù)采取聚類或其它的檢測(cè)方法,找出數(shù)據(jù)的一般規(guī)律,篩選出孤立點(diǎn),并以圖、表等方式展現(xiàn)給審計(jì)人員,審計(jì)人員就能根據(jù)專業(yè)知識(shí)和方法判斷其正確性與合理性,經(jīng)過(guò)多次的挖掘、分析、判斷,最終建立確定適合的審計(jì)線索�;跀�(shù)據(jù)挖掘技術(shù)的孤立點(diǎn)分析可以大大縮小搜索審計(jì)線索的范圍,幫助審計(jì)人員及時(shí)發(fā)現(xiàn)違紀(jì)線索,增強(qiáng)審計(jì)人員的數(shù)據(jù)分析能力,大幅度提高審計(jì)工作的質(zhì)量和效率,對(duì)行業(yè)依賴度較低并具有一定的通用性。因此,包括孤立點(diǎn)分析在內(nèi)的數(shù)據(jù)挖掘技術(shù)在審計(jì)領(lǐng)域必將能得到更多的運(yùn)用和發(fā)展。