韩国激情一区二区高清在线,亚洲中文字幕网址在线,九色在线精品视频,久久深夜福利亚洲网站

    <object id="jtoc7"><button id="jtoc7"></button></object>

      <object id="jtoc7"></object>

      期刊 科普 SCI期刊 投稿技巧 學(xué)術(shù) 出書 購物車

      首頁 > 優(yōu)秀范文 > 數(shù)據(jù)分析的方法

      數(shù)據(jù)分析的方法樣例十一篇

      時(shí)間:2023-08-03 09:19:03

      序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)分析的方法范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!

      數(shù)據(jù)分析的方法

      篇1

      最簡(jiǎn)單的拆分方法就是不看平均值,看數(shù)據(jù)分布。因?yàn)榉?是“總和”或者“平均”類的統(tǒng)計(jì)數(shù)據(jù)都會(huì)丟失掉很多重要的信息。例如李嘉誠來我們公司參觀,這一時(shí)間我們公司辦公室里的“平均資產(chǎn)”就會(huì)因?yàn)槔罴握\一個(gè)人 被抬高到人均幾億身家。如果有人根據(jù)這個(gè)“平均資產(chǎn)”數(shù)據(jù)來判定說我們辦公室的人都是豪華游艇的潛在顧客,這自然是荒謬的。

      可實(shí)際上,我們每天都在做著類似的判斷,比如當(dāng)我們聽到說顧客“平均在線時(shí)間”是3分34秒,就可能根據(jù)這個(gè)時(shí)間來進(jìn)行業(yè)務(wù)決策,例如設(shè)置“停留時(shí)間超過3分34秒為高價(jià)值流量”,或者設(shè)置系統(tǒng),在用戶停留了3分34秒還沒有下單的話就彈出在線客服服務(wù)窗口。我們?cè)O(shè)置這些時(shí)間點(diǎn)的根據(jù)是“平均停留時(shí)間”,在我們的想象里,我們的每個(gè)顧客都有著“平均的”表現(xiàn),停留時(shí)間大致都是3分34秒,可實(shí)際上真正的顧客訪問時(shí)間有長(zhǎng)有短,差別巨大:

      在一些數(shù)據(jù)中我們可以看得出來,訪客平均停留在頁面的時(shí)間非常的短暫,具體的也就是說,問需要在淘寶數(shù)據(jù)分析上面下工夫的,那么,究竟該怎么弄才能比較好的呢?這個(gè)就看個(gè)人是怎么想的了,這里也就不多說了。

      再舉一個(gè)例子,比如我們看到上個(gè)月平均訂單金額500元/單,這個(gè)月也是500元/單,可能會(huì)覺得數(shù)字沒有變化??墒菍?shí)際上有可能上個(gè)月5萬單都是400~600元,而這個(gè)月5萬單則是2萬單300元,2萬單400元,5千單500元,5000單超過2500元 ——客戶購買習(xí)慣已經(jīng)發(fā)生了巨大變化,一方面可能是客戶訂單在變?。赡苁且?yàn)楫a(chǎn)品單價(jià)下降,采購數(shù)量減少,或者客戶選擇了比較便宜的替代品),另一方面 出現(xiàn)了一些相對(duì)較大的訂單(可能是中小企業(yè)采購,或者是網(wǎng)站擴(kuò)充產(chǎn)品線見效了)?!磾?shù)據(jù)分布可以讓我們更容易發(fā)現(xiàn)這些潛在的變化,及時(shí)的做出應(yīng)對(duì)。

      二、拆因子

      很多時(shí)候我們很難直接從數(shù)據(jù)變化中分析出具體的原因,這時(shí)可以考慮拆分因子,將問題一步步細(xì)化找尋原因。

      例如網(wǎng)站轉(zhuǎn)化率下降,我們要找原因。因?yàn)椤稗D(zhuǎn)化率”=“訂單”/“流 量”,所以“轉(zhuǎn)化率”下降的原因很可能是“訂單量下降”,“流量上升”,或者兩者皆是。按照這個(gè)思路我們可能發(fā)現(xiàn)主要的原因是“流量上升”和“訂單量升幅 不明顯”,那么

      下面我們就可以來拆解“流量”的構(gòu)成,例如拆成“直接訪問流量”、“廣告訪問流量”和“搜索引擎訪問流量”再看具體是哪部分的流量發(fā)生了變 化,接下來再找原因。這時(shí)我們可能看到說是搜索引擎訪問流量上升,那就可以再進(jìn)一步分析是付費(fèi)關(guān)鍵詞部分上升,還是自然搜索流量上升,如果是自然流量,是 品牌(或者網(wǎng)站名相關(guān))關(guān)鍵詞流量上升,還是其他詞帶來的流

      量上升——假如最后發(fā)現(xiàn)是非品牌類關(guān)鍵詞帶來的流量上升,那么繼續(xù)尋找原因——市場(chǎng)變化(淡季旺季之類),競(jìng)爭(zhēng)對(duì)手行動(dòng),還是自身改變。假如剛好在最近把產(chǎn)品頁面改版過,就可以查一下是不是因?yàn)楦陌孀屗阉饕媸珍涀兌?,?quán)重變高。接下來再分析自己到底哪里做對(duì)了幫助網(wǎng)站SEO了(比如把頁面導(dǎo)航欄從圖片換成了文字),把經(jīng)驗(yàn)記下來為以后改版提供參考;另

      一方面還要分析哪里沒做好(因?yàn)樾略隽髁康遣]有相應(yīng)增加太多銷售),研究怎樣讓“產(chǎn)品頁面”更具吸引力——因?yàn)閷?duì)很多搜索引擎流量來說,他們對(duì)網(wǎng)站的第一印象是產(chǎn)品頁面,而不是首頁。

      三、拆步驟

      還有些時(shí)候,我們通過拆分步驟來獲取更多信息。

      舉兩個(gè)例子:

      第一個(gè)例子:兩個(gè)營銷活動(dòng),帶來一樣多的流量,一樣多的銷售,是不是說明兩個(gè)營銷活動(dòng)效率差不多?

      如果我們把每個(gè)營銷活動(dòng)的流量拆細(xì)去看每一步,就會(huì)發(fā)現(xiàn)不一樣的地方。營銷活動(dòng)B雖然和營銷活動(dòng)A帶來了等量的流量,可是這部分流量對(duì)產(chǎn)品更感興趣,看完著陸頁之后更多的人去看了產(chǎn)品頁面。可惜的是雖然看產(chǎn)品的人很多,最后轉(zhuǎn)化率不高,訂單數(shù)和營銷活動(dòng) A一樣。

      這里面還可以再深入分析(結(jié)合之前提到的分析方法,和下一章要說的細(xì)分方法),但是光憑直覺,也可以簡(jiǎn)單的得出一些猜測(cè)來,例如兩個(gè)營銷活動(dòng)的顧客習(xí)慣不太一樣,營銷活動(dòng) B的著陸頁設(shè)計(jì)更好,營銷活動(dòng) B的顧客更符合我們的目標(biāo)客戶描述、更懂產(chǎn)品——但是我們的價(jià)格沒有優(yōu)勢(shì)等等這些猜想是我們深入進(jìn)行分析,得出行動(dòng)方案的起點(diǎn)。至少,它可以幫助我們

      更快的累計(jì)經(jīng)驗(yàn),下次設(shè)計(jì)營銷活動(dòng)的時(shí)候會(huì)更有的放矢,而不是僅僅寫一個(gè)簡(jiǎn)單report說這兩個(gè)營銷活動(dòng)效果一樣就結(jié)案了。(注:這是個(gè)簡(jiǎn)化的例子,實(shí)際上還可以分更多層)

      第二個(gè)例子可能更常見一些,比如網(wǎng)站轉(zhuǎn)化率下降,我們可以拆成這樣的漏斗:

      這樣拆好之后,更能清楚地看到到底是哪一步的轉(zhuǎn)化率發(fā)生了變化。有可能是訪客質(zhì)量下降,都在著陸頁流失了,也可能是“購物車–>登錄”流失了(如果你把運(yùn)費(fèi)放到購物車中計(jì)算,很可能就看到這一步流失率飆升),這樣拆細(xì)之后更方便我們分析。

      曾經(jīng)有一個(gè)例子就是轉(zhuǎn)化率下降,市場(chǎng)部查流量質(zhì)量發(fā)現(xiàn)沒問題,產(chǎn)品經(jīng)理查價(jià)格競(jìng)爭(zhēng)力也沒問題——最后發(fā)現(xiàn)是技術(shù)部為了防止惡意注冊(cè),在登錄頁面加了驗(yàn)證碼(而且那個(gè)驗(yàn)證碼極度復(fù)雜),降低了“登錄頁面–>填寫訂單信息“這一步的轉(zhuǎn)化率。

      四、細(xì)分用戶族群

      篇2

      中圖分類號(hào):F276.1

      文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1002―2848―2007(01)-0108―06

      一、前 言

      在經(jīng)濟(jì)數(shù)據(jù)的傳統(tǒng)定量分析中,所分析的數(shù)據(jù)對(duì)象具有這樣的特征,即數(shù)據(jù)要么是時(shí)間序列數(shù)據(jù),要么是橫截面數(shù)據(jù)。而實(shí)際中獲得的許多經(jīng)濟(jì)數(shù)據(jù),往往是在時(shí)間序列上取多個(gè)截面,再在這些截面上同時(shí)選取樣本觀測(cè)值所構(gòu)成的樣本數(shù)據(jù)。計(jì)量經(jīng)濟(jì)學(xué)中稱這樣的數(shù)據(jù)為“平行數(shù)據(jù)”(Panel Da―ta),也被翻譯成“面板數(shù)據(jù)”,或“縱向數(shù)據(jù)”(longitudinal data)。20多年來,許多學(xué)者研究分析了面板數(shù)據(jù)。事實(shí)上,關(guān)于面板數(shù)據(jù)的研究是計(jì)量經(jīng)濟(jì)學(xué)理論方法的重要發(fā)展之一,它在解決數(shù)據(jù)樣本容量不足、估計(jì)難以度量的因素對(duì)經(jīng)濟(jì)指標(biāo)的影響,以及區(qū)分經(jīng)濟(jì)變量的作用等方面,具有突出優(yōu)點(diǎn)。但是,研究面板數(shù)據(jù)的計(jì)量模型,以線性結(jié)構(gòu)描述變量之間的因果關(guān)系,且模型太過于依賴諸多的假設(shè)條件,使得方法的應(yīng)用具有一定的局限性。為了彌補(bǔ)面板數(shù)據(jù)的計(jì)量模型分析方法及其它統(tǒng)計(jì)分析方法的缺陷,本文基于經(jīng)濟(jì)數(shù)據(jù)的函數(shù)性特征,介紹一種從函數(shù)視角對(duì)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析的全新方法一函數(shù)性數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)。

      函數(shù)性數(shù)據(jù)分析的概念,始見于加拿大統(tǒng)計(jì)學(xué)家J.O.Ramsay和C.J.Dalzell于1991年發(fā)表的論文《函數(shù)性數(shù)據(jù)分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)將對(duì)函數(shù)性數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的已有理論和方法,總結(jié)在《函數(shù)性數(shù)據(jù)分析》一書中。但這本書偏重方法的理論介紹和數(shù)學(xué)推導(dǎo),不利于統(tǒng)計(jì)基礎(chǔ)薄弱者使用。經(jīng)過5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函數(shù)性數(shù)據(jù)案例,并將其具體的分析過程編入他們于2002年出版的專著中。雖然國外在這方面已經(jīng)做了許多研究,也取得了許多有價(jià)值的結(jié)果,但是有關(guān)函數(shù)性數(shù)據(jù)的研究依然處于起步階段,還有很多問題需要研究或進(jìn)一步完善。另外,從方法應(yīng)用的具體領(lǐng)域來看,很少涉及對(duì)經(jīng)濟(jì)函數(shù)性數(shù)據(jù)的分析。就目前研究文獻(xiàn)來看,我國在此方面的研究尚是一片空白。

      為填補(bǔ)我國在這方面研究的空白,本文從思想、方法等方面,對(duì)函數(shù)性數(shù)據(jù)分析進(jìn)行系統(tǒng)介紹,并通過編寫計(jì)算機(jī)程序,率先利用該方法分析實(shí)際的經(jīng)濟(jì)函數(shù)性數(shù)據(jù)。本文共分六部分,以下內(nèi)容的安排為:數(shù)據(jù)的函數(shù)性特征及經(jīng)濟(jì)函數(shù)性數(shù)據(jù)實(shí)例、從數(shù)據(jù)的函數(shù)性視角研究數(shù)據(jù)的意義、函數(shù)性數(shù)據(jù)分析的目標(biāo)和步驟、函數(shù)性數(shù)據(jù)分析方法的經(jīng)濟(jì)應(yīng)用,最后一部分是本文的結(jié)論。

      二、數(shù)據(jù)的函數(shù)性特征及經(jīng)濟(jì)函數(shù)性數(shù)據(jù)實(shí)例

      一般地說,多元數(shù)據(jù)分析(Multivariate Data A-nalysis,MDA)處理的對(duì)象,是刻畫所研究問題的多個(gè)統(tǒng)計(jì)指標(biāo)(變量)在多次觀察中呈現(xiàn)出的數(shù)據(jù),樣本數(shù)據(jù)具有離散且有限的特征。但是,現(xiàn)代的數(shù)據(jù)收集技術(shù)所收集的信息,不但包括傳統(tǒng)統(tǒng)計(jì)方法所處理的數(shù)據(jù),還包括具有函數(shù)形式的過程所產(chǎn)生的數(shù)據(jù),例如,數(shù)據(jù)自動(dòng)收集系統(tǒng)等,稱具有這種特征的數(shù)據(jù)為函數(shù)性數(shù)據(jù)。

      函數(shù)性數(shù)據(jù)的表現(xiàn)形式多種多樣,但就其本質(zhì)來說,它們由函數(shù)構(gòu)成。這些函數(shù)的幾何圖形可能是光滑的曲線(如人體在成年前的身體高度變化等),也可能是不光滑的曲線(如股票綜合指數(shù)等)。許多研究領(lǐng)域的樣本資料往往表現(xiàn)為函數(shù)形式,如考古學(xué)家挖掘的骨塊的形狀、按時(shí)間記錄的經(jīng)濟(jì)數(shù)據(jù)、手寫時(shí)筆尖的運(yùn)動(dòng)軌跡、溫度的變化等。函數(shù)性數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)的基本原理是把觀測(cè)到的數(shù)據(jù)函數(shù)看作一個(gè)整體,而不僅僅是一串?dāng)?shù)字。函數(shù)指的是數(shù)據(jù)的內(nèi)在結(jié)構(gòu),而不是它們直觀的外在表現(xiàn)形式。

      實(shí)際中,之所以要從函數(shù)的視角對(duì)數(shù)據(jù)進(jìn)行分析,是因?yàn)椋?1)實(shí)際中,獲得數(shù)據(jù)的方式和技術(shù)日新月異、多種多樣,例如,越來越多的研究者可以通過數(shù)據(jù)的自動(dòng)收集系統(tǒng)獲得大量的數(shù)據(jù)信息。更重要的是,原本用于工程技術(shù)分析的修勻(smoothing)和插值(interpolation)技術(shù),可以由有限組的觀測(cè)數(shù)據(jù)產(chǎn)生出相應(yīng)的函數(shù)表示。(2)盡管只有有限次的觀測(cè)數(shù)據(jù)可供利用,但有一些建模問題,將其納入到函數(shù)版本下進(jìn)行考慮,會(huì)使分析更加全面、深刻。(3)在有些情況下,如果想利用有限組的數(shù)據(jù)估計(jì)函數(shù)或其導(dǎo)數(shù),則分析從本質(zhì)上來看就具有函數(shù)性的特征。(4)將平滑性引入到一個(gè)函數(shù)過程所產(chǎn)生的多元數(shù)據(jù)的處理中,對(duì)分析具有重要的意義。

      在經(jīng)濟(jì)分析中,融合時(shí)間序列和橫截面兩者的數(shù)據(jù)很常見,例如,多個(gè)國家、地區(qū)、行業(yè)或企業(yè)的多年的年度經(jīng)濟(jì)總量、多家商業(yè)銀行歷年的資本結(jié)構(gòu)、能源(如電力、煤炭、石油等)多年按月的消耗量、不同時(shí)間上多個(gè)省市的失業(yè)數(shù)據(jù)等。這些經(jīng)濟(jì)數(shù)據(jù)往往呈現(xiàn)函數(shù)性特征,即每個(gè)個(gè)體對(duì)應(yīng)著一個(gè)函數(shù)或曲線。在對(duì)經(jīng)濟(jì)函數(shù)性數(shù)據(jù)進(jìn)行分析時(shí),將觀測(cè)到的數(shù)據(jù)(函數(shù))看作一個(gè)整體,而不是個(gè)體觀測(cè)值的順序排列,這是函數(shù)性數(shù)據(jù)分析不同于傳統(tǒng)統(tǒng)計(jì)分析之根本所在。例如,表1是工商銀行、農(nóng)業(yè)銀行、中國銀行、建設(shè)銀行1995年到2004年期間的資產(chǎn)收益率(ROA)數(shù)據(jù)。

      利用基于MATLAB編寫的程序,對(duì)數(shù)據(jù)進(jìn)行平滑處理(smoothing),并繪出四家國有銀行的資產(chǎn)收益率(ROA)的修勻曲線(見圖1)。由曲線圖可以看出,每個(gè)個(gè)體(銀行)對(duì)應(yīng)著一條曲線(其數(shù)學(xué)表達(dá)式為函數(shù)),這是將多家銀行的歷年ROA數(shù)據(jù)記錄看作函數(shù)的根本理由,也是函數(shù)性數(shù)據(jù)分析的出發(fā)點(diǎn)。

      三、從數(shù)據(jù)的函數(shù)性視角研究數(shù)據(jù)的意義

      從函數(shù)的視角,對(duì)具有函數(shù)特征的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行研究,會(huì)挖掘出更多的信息。例如,對(duì)函數(shù)性數(shù)據(jù)的平滑曲線展示,不但能夠診斷出擬合數(shù)據(jù)的可能數(shù)學(xué)模型,還能夠通過對(duì)光滑曲線求一階、或更高階的導(dǎo)數(shù),來進(jìn)一步探索數(shù)據(jù)的個(gè)體(橫截面)差異和動(dòng)態(tài)變化規(guī)律。

      圖2是四家銀行資產(chǎn)收益率的速度(一階導(dǎo)數(shù))曲線,觀察發(fā)現(xiàn):在1995年至2004年期間,農(nóng)業(yè)

      銀行、中國銀行及建設(shè)銀行的資產(chǎn)收益率的變化率,呈現(xiàn)出較強(qiáng)的周期性,其中尤以建設(shè)銀行的表現(xiàn)最為突出。加速度曲線圖顯示,四家銀行資產(chǎn)收益率的變化率的波動(dòng)狀況不相同,轉(zhuǎn)折變化的時(shí)間差異也較大。這些情況一定程度表明,各家銀行的內(nèi)部管理與經(jīng)營機(jī)制,對(duì)市場(chǎng)信息的反應(yīng)快慢程度各不相同。

      四、函數(shù)性數(shù)據(jù)分析的目標(biāo)和步驟

      函數(shù)性數(shù)據(jù)分析的目標(biāo)與傳統(tǒng)統(tǒng)計(jì)學(xué)分析的目標(biāo)基本一樣,具體情況如下:

      (一)以對(duì)進(jìn)一步分析有利的方法來描述數(shù)據(jù);

      (二)為突出不同特征而對(duì)數(shù)據(jù)進(jìn)行展示;

      (三)研究數(shù)據(jù)類型的重要來源和數(shù)據(jù)之間的變化;

      (四)利用輸入(自變量信息)來解釋輸出(因變量)的變化情況;

      (五)對(duì)兩組或更多的某種類型的變量數(shù)據(jù)進(jìn)行比較分析。

      典型的FDA主要包括以下步驟:

      第一步,原始數(shù)據(jù)的收集、整理和組織。假設(shè)我們考慮的自變量是一維的,記為t,一個(gè)的函數(shù)僅在離散抽樣值 處被觀測(cè),而且這些ti可能等間隔分布,也可能不是。在函數(shù)性數(shù)據(jù)分析中,將這些離散的觀測(cè)值看作一個(gè)整體。

      第二步,將離散數(shù)據(jù)轉(zhuǎn)換為函數(shù)形式。這是利用各次觀察的原始數(shù)據(jù)定義出一個(gè)函數(shù)x(t),它在某一區(qū)間上所有t處的值都被估算了出來。解決這個(gè)問題的基本方法是選定一組基函數(shù) (t),k=O,…,K,并用基函數(shù)的線性組合給出函數(shù)x(t)的估計(jì)

      第三步,多種形式的初步展示與概括統(tǒng)計(jì)量。概括統(tǒng)計(jì)量包括均值和方差函數(shù)、協(xié)方差與相關(guān)函數(shù)、交叉協(xié)方差(cross―covafiance)與交叉相關(guān)(cross―correlation)函數(shù)等。

      第四步,為了使每一條曲線的顯著特征都在大體相同的自變量處(如月份、年份等)顯現(xiàn)出來,可能需要對(duì)函數(shù)進(jìn)行排齊(regigtration),其目的是能夠區(qū)別對(duì)待垂直方向的振幅變化與水平方向的相變化。

      第五步,對(duì)排齊后的函數(shù)數(shù)據(jù)進(jìn)行探索性分析,如函數(shù)性主成份分析(FPCA)、函數(shù)性典型相關(guān)份析(FCCA)等。

      第六步,建立模型。建立的模型可能是函數(shù)性線性模型,也可能是微分方程。

      第七步,模型估計(jì)。

      五、函數(shù)性數(shù)據(jù)分析方法的經(jīng)濟(jì)應(yīng)用

      為了說明函數(shù)性數(shù)據(jù)分析方法的具體應(yīng)用,同時(shí)出于使所繪圖形簡(jiǎn)單明了,本文再次利用四家國有銀行的數(shù)據(jù),對(duì)資產(chǎn)收益率進(jìn)行更深入的分析。雖然此實(shí)例中個(gè)體數(shù)少,但并不妨礙對(duì)方法應(yīng)用的系統(tǒng)描述與理解。

      在對(duì)實(shí)際問題的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析時(shí),通常需要依照研究的目標(biāo)編寫計(jì)算機(jī)程序。就目前的研究現(xiàn)狀來看,基于MATLAB或SPLUS等編寫的程序,如繪圖或綜合計(jì)算函數(shù)等,完全可以滿足分析的需要。本文首先基于MATLAB編寫程序,然后對(duì)四家國有銀行的資產(chǎn)收益率數(shù)據(jù)進(jìn)行分析。

      關(guān)于四家銀行資產(chǎn)收益率數(shù)據(jù)的函數(shù)(曲線)展示與初步分析,本文在前面已進(jìn)行了描述,具體結(jié)果見圖1和圖2。概括資產(chǎn)收益率特征的統(tǒng)計(jì)量(均值函數(shù)和標(biāo)準(zhǔn)差函數(shù))的曲線見圖3。

      為了進(jìn)一步探討典型函數(shù)所呈現(xiàn)的特征,本文利用函數(shù)性主成份分析,對(duì)四家銀行的資產(chǎn)收益率數(shù)據(jù)進(jìn)行分析。一般來說,在函數(shù)性數(shù)據(jù)分析中,與多元統(tǒng)計(jì)中的某個(gè)主成份的權(quán)向量相對(duì)應(yīng)的是主成份權(quán)函數(shù)(principal component weight function),記為 ,其中t在一個(gè)區(qū)間 中變化。第i個(gè)樣品(個(gè)體) 的主成份得分值為 ,第一主成份就是在 的約束條件下,尋求使主成份得分 的方差達(dá)到最大的權(quán)函數(shù) ,即它是下面數(shù)學(xué)模型的最優(yōu)解: 類似地,可以求得第j個(gè)主成份,其權(quán)函數(shù)毛(t)是下面數(shù)學(xué)模型的解:

      為了得到光滑的主成份,一種方法是對(duì)由上述方法求出的主成份進(jìn)行修勻,另一種方法是將修勻處理過程,融入到主成份的求解過程中。具體作法是將描述主成份曲線波動(dòng)程度的粗糙因子納入到約柬?xiàng)l件中,形成帶懲罰的約束條件。利用粗糙懲罰法求第j個(gè)主成份的數(shù)學(xué)模型是其中 稱為修勻參數(shù),用它可對(duì)粗糙懲罰項(xiàng)進(jìn)行調(diào)整。

      利用上述方法和基于MATLAB編寫的程序,對(duì)四家銀行進(jìn)行函數(shù)性主成份分析(FPCA)。具體結(jié)果見圖4。第一個(gè)主成份(PCI)的解釋能力為85.5%,第二個(gè)主成份(Pc2)的解釋能力為13.1%,前兩個(gè)主成份的綜合解釋能力為98.6%。

      為了清晰地顯示主成份,并進(jìn)行有意義的解釋,在同一圖中繪出三條曲線,一條是整體均值曲線,另兩條是對(duì)均值曲線分別加上和減去主成份的一個(gè)適當(dāng)倍數(shù)而形成的曲線,具體結(jié)果見圖5(本文所選的倍數(shù)是0.12)。以上所述的三條曲線分別對(duì)應(yīng)著圖5中的實(shí)心曲線、‘+’曲線和‘*’曲線。第一個(gè)主成份反映了資產(chǎn)收益率(ROA)的一般變化,尤其反映了資產(chǎn)收益率的“兩頭”變化情況(1999年以前和2003年以后)。第二個(gè)主成份反映了資產(chǎn)收益率(ROA)的中段變化。

      六、結(jié)論

      在經(jīng)濟(jì)實(shí)踐中,越來越多的領(lǐng)域所得到的樣本觀察資料是曲線或圖像,即函數(shù)性數(shù)據(jù)。因此,對(duì)這種類型的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和描述,具有重要的現(xiàn)實(shí)意義。因篇幅所限,還有一些函數(shù)性數(shù)據(jù)的分析方法未予以介紹,如函數(shù)性方差分析、函數(shù)線性模型、函數(shù)性典型相關(guān)分析以及描述動(dòng)態(tài)性的微分方程等。由于本文的主要目的,是通過對(duì)函數(shù)性數(shù)據(jù)分析方法和具體應(yīng)用的介紹,傳述對(duì)數(shù)據(jù)進(jìn)行分析的新思想,而不只是方法技術(shù)本身。因此,缺少的方法并不影響對(duì)思想的闡述。

      篇3

      物理實(shí)驗(yàn)中,驗(yàn)證型實(shí)驗(yàn)和研究型實(shí)驗(yàn)都是非常重要的兩類實(shí)驗(yàn)。驗(yàn)證型實(shí)驗(yàn)是對(duì)已建立的物理規(guī)律的驗(yàn)證,研究型實(shí)驗(yàn)是通過實(shí)驗(yàn)得到物理規(guī)律,這兩類實(shí)驗(yàn)雖然實(shí)驗(yàn)?zāi)康牟煌?,但從?shù)學(xué)處理方法上來看,具有相似性,都是通過實(shí)驗(yàn)數(shù)據(jù)分析確證物理規(guī)律或得到物理規(guī)律,所以對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析處理方法是否得當(dāng)就顯得十分重要。下面以一個(gè)典型的驗(yàn)證型實(shí)驗(yàn)的數(shù)據(jù)處理為例進(jìn)行相應(yīng)探討,以期望得出相對(duì)合理和妥當(dāng)?shù)膶?shí)驗(yàn)數(shù)據(jù)處理方法。

      以大學(xué)物理實(shí)驗(yàn)來說,驗(yàn)證型實(shí)驗(yàn)較多,諸如牛頓第二定律的驗(yàn)證、彈性碰撞實(shí)驗(yàn)等等都屬于此類實(shí)驗(yàn),其中牛頓第二定律的驗(yàn)證實(shí)驗(yàn)為該類實(shí)驗(yàn)的典型實(shí)驗(yàn)。牛頓第二定律的數(shù)學(xué)表達(dá)式是,力與加速度的大小關(guān)系可以表達(dá)成,要驗(yàn)證這個(gè)規(guī)律,就是給物體加一個(gè)大小為F的力,對(duì)應(yīng)產(chǎn)生一個(gè)大小為的加速度,得到一個(gè)測(cè)量點(diǎn),通過改變力,得到n個(gè)測(cè)量點(diǎn)后,即可通過適當(dāng)?shù)臄?shù)學(xué)方法驗(yàn)證這個(gè)關(guān)系的成立。

      類似這種線性物理規(guī)律,其數(shù)學(xué)模型都可以歸結(jié)為的形式。要得到這個(gè)線性關(guān)系,就是要得出和。通過測(cè)量n組和的值,即、、……、、……、,在X―Y平面中得到n個(gè)測(cè)量點(diǎn)。若不考慮實(shí)驗(yàn)測(cè)量的系統(tǒng)誤差,則測(cè)量誤差應(yīng)當(dāng)服從高斯分布,反應(yīng)在X―Y平面中,既是這n個(gè)測(cè)量點(diǎn)應(yīng)當(dāng)均勻地分布在所求表達(dá)式兩側(cè),對(duì)第i個(gè)測(cè)量點(diǎn),誤差為,n個(gè)測(cè)量點(diǎn)導(dǎo)致的總體誤差是最小的。若任意給一個(gè)直線,則一是測(cè)得到的這n個(gè)點(diǎn)不再均勻地分布在直線兩側(cè),二是這n個(gè)測(cè)量點(diǎn)產(chǎn)生的總體誤差水平將增大,甚至可以達(dá)到無窮大。由此可知,所求直線即是使得n個(gè)測(cè)量點(diǎn)的總體誤差最小的那條直線。總體誤差可以寫成,但由于誤差服從高斯分布,導(dǎo)致理論上而無法通過此求和值衡量總體誤差水平。為使其不因?yàn)檎?fù)抵消而無法衡量總體誤差水平,只要使得所有誤差均為正再求和即可,故可用殘差來衡量總體誤差水平,雖然殘差不再是總體誤差。使得殘差取最小值的和,即為所求直線的和。此即最小二乘法的數(shù)學(xué)思想。據(jù)最小二乘法處理,所求和即是使得取最小值的和,即有,解此式,得

      將測(cè)量值供稿,即可得到所求和。通常大學(xué)物理實(shí)驗(yàn)中的處理方法,得到和,即是驗(yàn)證了[1]。但其實(shí)這是不太恰當(dāng)?shù)摹?/p>

      驗(yàn)證型或者研究型實(shí)驗(yàn),特別是驗(yàn)證型實(shí)驗(yàn),最關(guān)鍵的是需要解決兩個(gè)問題,一是找出所要驗(yàn)證的關(guān)系,第二是要驗(yàn)證得出的關(guān)系的確成立,而第二點(diǎn)才是最重要的關(guān)鍵點(diǎn)。即使得出關(guān)系,但如果確證關(guān)系不成立,則第一步的工作就變得毫無意義。實(shí)際上,任意給出一組、、……、、……、,都可以根據(jù)最小二乘法得到和,即得出,但并不意味著此式的確成立,不能確證物理量和的確存在這樣的數(shù)量關(guān)系,并沒有檢驗(yàn)此物理規(guī)律存在。因此,驗(yàn)證型實(shí)驗(yàn)做到這一步并不算已經(jīng)驗(yàn)證被驗(yàn)證的物理規(guī)律成立,還需要研究和的相關(guān)性,通過計(jì)算相關(guān)系數(shù),據(jù)的大小來檢驗(yàn)和是否的確相關(guān)。

      篇4

      Key Words:Social survey data;Three-dimension matrix;Hypergraph

      社會(huì)調(diào)查是了解各方面信息的重要途徑之一,社會(huì)調(diào)查數(shù)據(jù)主要是通過調(diào)查問卷的方法得到的。由于社會(huì)調(diào)查數(shù)據(jù)的維數(shù)較高,加上人為主觀因素,數(shù)據(jù)類型主要為二元變量、離散變量、序數(shù)變量等為主,所以對(duì)于社會(huì)調(diào)查數(shù)據(jù)的分析和處理大都基于統(tǒng)計(jì)學(xué),只對(duì)單一題目進(jìn)行統(tǒng)計(jì)學(xué)分析,其分析方法主要是基于題型進(jìn)行處理的,對(duì)于題目和題目之間的關(guān)系很少關(guān)心[1]。許多數(shù)據(jù)挖掘算法因?yàn)榉N種限制無法在社會(huì)調(diào)查的數(shù)據(jù)分析中得到應(yīng)用。因?yàn)榉椒ǖ南拗疲袁F(xiàn)在很多社會(huì)調(diào)查只能驗(yàn)證事先想好的內(nèi)容和假設(shè),很少可以對(duì)高維數(shù)據(jù)進(jìn)行相對(duì)復(fù)雜的回歸分析處理。

      根據(jù)以上存在的問題,該文建立了基于三維矩陣的數(shù)學(xué)模型,將單選題、多選題和排序題用向量形式進(jìn)行表示,每一題定義為空間中的一個(gè)維度,從而所有的題目就可以構(gòu)成一個(gè)N維空間。每份問卷的信息用一個(gè)M×N矩陣表示。這樣表示可以將所有問卷內(nèi)容當(dāng)作一個(gè)整體,作為后續(xù)算法的基礎(chǔ)。

      1 社會(huì)調(diào)查數(shù)據(jù)的特點(diǎn)

      通常情況下,社會(huì)調(diào)查數(shù)據(jù)特點(diǎn)如下。

      (1)相關(guān)性。對(duì)于一個(gè)樣本個(gè)體而言,它具有本身的多個(gè)特征,這些特征之間就具有一定的相關(guān)性。對(duì)于多個(gè)樣本而言,個(gè)體與個(gè)體的特征之間具有相關(guān)性。如果樣本隨時(shí)間而變化,那么該樣本在不同時(shí)刻的特征之間又具有相關(guān)性。因此,由于上述多個(gè)原因使得社會(huì)調(diào)查數(shù)據(jù)具有了復(fù)雜的相關(guān)性,傳統(tǒng)的統(tǒng)計(jì)學(xué)調(diào)查難以解決這樣的問題。

      (2)離散性。因?yàn)樯鐣?huì)調(diào)查數(shù)據(jù)是通過自填式問卷、網(wǎng)絡(luò)調(diào)查數(shù)據(jù)庫等方法得到,所以社會(huì)調(diào)查數(shù)據(jù)一般以離散變量為主,且這些數(shù)據(jù)之間只有標(biāo)示作用,并沒有嚴(yán)格的邏輯關(guān)系。

      (3)模糊性。社會(huì)調(diào)查數(shù)據(jù)當(dāng)中不可避免的會(huì)接觸到各種表達(dá)方式和概念,因此,它具有模糊性。

      因?yàn)橛勺蕴钍絾柧砘蚪Y(jié)構(gòu)式訪問的方法得到的社會(huì)調(diào)查數(shù)據(jù)具有以上特點(diǎn),所以在實(shí)際應(yīng)用中基于統(tǒng)計(jì)學(xué)的處理方法只能籠統(tǒng)的顯示數(shù)據(jù)的部分特性,如頻數(shù)、離散程度等[2]。對(duì)于數(shù)據(jù)之間的關(guān)系只能分析出維數(shù)極少的大致的關(guān)系。

      而且利用軟件進(jìn)行數(shù)據(jù)挖掘時(shí),因?yàn)楝F(xiàn)有的軟件中的數(shù)據(jù)挖掘算法對(duì)于數(shù)據(jù)類型和格式要求較高,所以能應(yīng)用到的數(shù)據(jù)挖掘算法很少。就算是數(shù)據(jù)要求較低的關(guān)聯(lián)分析,其結(jié)果也存在大量的冗余。因此,我們需要建立一個(gè)合適的社會(huì)調(diào)查數(shù)據(jù)的數(shù)學(xué)模型來完善原先的方法并使跟多的數(shù)據(jù)挖掘方法可以運(yùn)用到其中,使得結(jié)果更準(zhǔn)確。

      2 社會(huì)調(diào)查數(shù)據(jù)的建模

      研究中我們發(fā)現(xiàn),三維矩陣可適用于社會(huì)調(diào)查數(shù)據(jù)的建模。

      2.1 三維矩陣的定義

      三維矩陣的定義:由n個(gè)p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。

      2.2 三維矩陣模型的建立

      調(diào)查問卷的題目一般有三種類型:?jiǎn)芜x題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個(gè)向量,排序題可以表示成多個(gè)向量組成的矩陣。對(duì)于單選題和多選題,可以按選項(xiàng)的順序可以表示成一個(gè)向量,其中選中的項(xiàng)用“1”表示,未選中的項(xiàng)用“0”表示。對(duì)于排序題,可以表示成一個(gè)n×n的方陣,其中n表示該排序題的選項(xiàng)個(gè)數(shù),。這樣,每一題就可以定義為空間中的一個(gè)維度,從而所有的題目就可以構(gòu)成一個(gè)N維空間。每份調(diào)查問卷的信息用一個(gè)M×N矩陣表示(M為題目的最大選項(xiàng)數(shù)),其在每一維上的選擇稱之為一個(gè)元素,這樣每份問卷的信息就包括了N個(gè)元素。以第1,2,3題數(shù)據(jù)為例,其中第1題為單選題選擇“B”,用向量表示為一個(gè)元素,第2題為多選題選擇“ACE”,用向量表示為一個(gè)元素,第3題為排序題順序?yàn)镃BADEFIHG,用矩陣表示,每一個(gè)列向量是一個(gè)元素,如圖1所示。

      那么,假設(shè)有一問卷信息用一個(gè)大小為M×N的矩陣表示。K份的問卷信息就可以用K個(gè)大小為M×N的矩陣表示。將這K個(gè)矩陣疊加,形成一個(gè)三維矩陣。這個(gè)三維矩陣就是我們建立的三維矩陣數(shù)學(xué)模型,如圖2所示。

      在圖2中我們看到,該三維矩陣數(shù)學(xué)模型有三個(gè)坐標(biāo)軸,它們分別是題目,人數(shù),選項(xiàng)。題目軸以每一道題為一個(gè)單位;人數(shù)軸以每一份問卷為一個(gè)單位;選項(xiàng)軸的刻度為A,B,C,D,E,F(xiàn)等題目選項(xiàng),其個(gè)數(shù)為該調(diào)查問卷中選項(xiàng)最多的題目的選項(xiàng)個(gè)數(shù)。

      在此基礎(chǔ)之上,這樣的三維矩陣具有以下性質(zhì)。

      (1)在題目軸中選取對(duì)應(yīng)的題目,將三維矩陣面向豎切得到截面1(如圖2中01所示),截面2表示每一道題所有人選擇的信息。

      (2)在人數(shù)軸中選取對(duì)應(yīng)的人,將三維矩陣橫切得到橫截面1(如圖2中02所示),橫截面1表示對(duì)應(yīng)的人選擇所有題目的信息。

      在得到三維矩陣后,可對(duì)它進(jìn)行像素化處理,置1的元素用黑點(diǎn)代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數(shù)維度上向下投影,這樣就可以得到一個(gè)具有濃黑不一的點(diǎn)的平面。通過這些點(diǎn)的濃度,可以知道每一選項(xiàng)選擇的人數(shù)。接下來我們可用灰度級(jí)表示點(diǎn)的濃度,篩選出濃度大于一定程度的點(diǎn),在此基礎(chǔ)上進(jìn)行后續(xù)算法處理。

      上述三維矩陣數(shù)學(xué)模型具有數(shù)學(xué)三維矩陣的所有性質(zhì),可依據(jù)調(diào)查問卷的需求進(jìn)行轉(zhuǎn)置,加權(quán)、相乘、篩選等數(shù)學(xué)處理,另外在數(shù)學(xué)處理的基礎(chǔ)上,采用超圖理論可以大大豐富了調(diào)查問卷的處理方法。

      3 基于超圖算法的調(diào)查問卷分析技術(shù)

      超圖是離散數(shù)學(xué)中重要的內(nèi)容,是對(duì)圖論的推廣[3]。超圖是有限集合的子系統(tǒng),它是一個(gè)由頂點(diǎn)的集合V和超邊集合E組成的二元對(duì),超圖的一條邊可以有多個(gè)頂點(diǎn)的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對(duì)就是有向超圖。超圖在許多領(lǐng)域有廣泛的應(yīng)用。

      大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個(gè)選項(xiàng)設(shè)成一個(gè)節(jié)點(diǎn),然后將三維矩陣從上向下投影,如果某一題的若干個(gè)選項(xiàng)同時(shí)被一個(gè)人選擇,就用一條超邊包圍這些節(jié)點(diǎn),那么選這些選項(xiàng)的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進(jìn)行聚類處理。

      利用有向超圖,可以將關(guān)聯(lián)規(guī)則表示成有向超圖的形式,在得到了關(guān)聯(lián)規(guī)則后,設(shè)實(shí)際中得到的關(guān)聯(lián)規(guī)則的形式為:,前項(xiàng)和后項(xiàng)都是由多個(gè)項(xiàng)組成的集合。該文定義一條關(guān)聯(lián)規(guī)則由一條有向超邊表示,有向超邊的頭節(jié)點(diǎn)表示關(guān)聯(lián)規(guī)則的前項(xiàng),有向超邊的尾節(jié)點(diǎn)表示關(guān)聯(lián)規(guī)則的后項(xiàng)。每條有向超邊的頭節(jié)點(diǎn)和尾節(jié)點(diǎn)均可以為多個(gè),如此便成功表示了復(fù)合規(guī)則,從而可以使用相關(guān)算法進(jìn)行冗余規(guī)則檢測(cè)。

      通過基于有向超圖的冗余規(guī)則檢測(cè)就可以將關(guān)聯(lián)規(guī)則之間存在著的大量冗余檢測(cè)出,減少挖掘資源的浪費(fèi),從而增加了挖掘結(jié)果的有效性。

      傳統(tǒng)的聚類方法都對(duì)原始數(shù)據(jù)計(jì)算它們之間的距離來得到相似度,然后通過相似度進(jìn)行聚類,這樣的方法對(duì)于低維數(shù)據(jù)有良好的效果,但是對(duì)于高維數(shù)據(jù)卻不能產(chǎn)生很好的聚類效果,因?yàn)楦呔S數(shù)據(jù)的分布有其特殊性。通過超圖模型的分割實(shí)現(xiàn)對(duì)高維數(shù)據(jù)的聚類卻能產(chǎn)生較好的效果。它先將原始數(shù)據(jù)之間關(guān)系轉(zhuǎn)化成超圖,數(shù)據(jù)點(diǎn)表示成超圖的節(jié)點(diǎn),數(shù)據(jù)點(diǎn)間的關(guān)系用超邊的權(quán)重來表示。然后對(duì)超圖進(jìn)行分割,除去相應(yīng)的超邊使得權(quán)重大的超邊中的點(diǎn)聚于一個(gè)類中,同時(shí)使被除去的超邊權(quán)重之和最小。這樣就通過對(duì)超圖的分割實(shí)現(xiàn)了對(duì)數(shù)據(jù)的聚類。具體的算法流程如下。

      首先,將數(shù)據(jù)點(diǎn)之間的關(guān)系轉(zhuǎn)化為超圖,數(shù)據(jù)點(diǎn)表示為超圖節(jié)點(diǎn)。如果某幾個(gè)數(shù)據(jù)點(diǎn)的支持度大于一定閾值,則它們能構(gòu)成一個(gè)頻繁集,就將它們用一條超邊連接,超邊的權(quán)重就是這一頻繁集的置信度,重復(fù)同樣的方法就可以得超邊和權(quán)重。

      然后,在基礎(chǔ)此上,通過超圖分割實(shí)現(xiàn)數(shù)據(jù)的聚類。若設(shè)將數(shù)據(jù)分成k類,則就是對(duì)超圖的k類分割,不斷除去相應(yīng)的超邊,直到將數(shù)據(jù)分為k類,且每個(gè)分割中數(shù)據(jù)都密切相關(guān)為止,同時(shí)保持每次被除去的超邊權(quán)重和最小,最終得到的分割就是聚類的結(jié)果。

      篇5

      其實(shí)我想告訴他們的是,數(shù)據(jù)挖掘分析領(lǐng)域最重要的能力是:能夠?qū)?shù)據(jù)轉(zhuǎn)化為非專業(yè)人士也能夠清楚理解的有意義的見解。

      使用一些工具來幫助大家更好的理解數(shù)據(jù)分析在挖掘數(shù)據(jù)價(jià)值方面的重要性,是十分有必要的。其中的一個(gè)工具,叫做四維分析法。

      簡(jiǎn)單地來說,分析可被劃分為4種關(guān)鍵方法。

      下面會(huì)詳細(xì)介紹這四種方法。

      1.描述型分析:發(fā)生了什么?

      這是最常見的分析方法。在業(yè)務(wù)中,這種方法向數(shù)據(jù)分析師提供了重要指標(biāo)和業(yè)務(wù)的衡量方法。

      例如,每月的營收和損失賬單。數(shù)據(jù)分析師可以通過這些賬單,獲取大量的客戶數(shù)據(jù)。了解客戶的地理信息,就是“描述型分析”方法之一。利用可視化工具,能夠有效的增強(qiáng)描述型分析所提供的信息。

      2.診斷型分析:為什么會(huì)發(fā)生?

      描述性數(shù)據(jù)分析的下一步就是診斷型數(shù)據(jù)分析。通過評(píng)估描述型數(shù)據(jù),診斷分析工具能夠讓數(shù)據(jù)分析師深入地分析數(shù)據(jù),鉆取到數(shù)據(jù)的核心。

      良好設(shè)計(jì)的BI dashboard能夠整合:按照時(shí)間序列進(jìn)行數(shù)據(jù)讀入、特征過濾和鉆取數(shù)據(jù)等功能,以便更好的分析數(shù)據(jù)。

      3.預(yù)測(cè)型分析:可能發(fā)生什么?

      預(yù)測(cè)型分析主要用于進(jìn)行預(yù)測(cè)。事件未來發(fā)生的可能性、預(yù)測(cè)一個(gè)可量化的值,或者是預(yù)估事情發(fā)生的時(shí)間點(diǎn),這些都可以通過預(yù)測(cè)模型來完成。

      預(yù)測(cè)模型通常會(huì)使用各種可變數(shù)據(jù)來實(shí)現(xiàn)預(yù)測(cè)。數(shù)據(jù)成員的多樣化與預(yù)測(cè)結(jié)果密切相關(guān)。

      在充滿不確定性的環(huán)境下,預(yù)測(cè)能夠幫助做出更好的決定。預(yù)測(cè)模型也是很多領(lǐng)域正在使用的重要方法。

      4.指令型分析:需要做什么?

      數(shù)據(jù)價(jià)值和復(fù)雜度分析的下一步就是指令型分析。指令模型基于對(duì)“發(fā)生了什么”、“為什么會(huì)發(fā)生”和“可能發(fā)生什么”的分析,來幫助用戶決定應(yīng)該采取什么措施。通常情況下,指令型分析不是單獨(dú)使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。

      篇6

      我們先來看一下傳統(tǒng)的數(shù)據(jù)分析流程:解讀業(yè)務(wù)戰(zhàn)略目標(biāo)-->確定目標(biāo)分解的量化KPI-->確定KPI的計(jì)算公式和所需字段-->確定所需字段來自于哪些數(shù)據(jù)庫的哪些表-->數(shù)據(jù)建模-->預(yù)先匯總成二次表和Cube-->結(jié)果展示。由于需要建模和打CUBE,這一流程通常需數(shù)月才能完成。

      現(xiàn)在,取代傳統(tǒng)數(shù)據(jù)分析流程的,是快速迭代式分析。敏捷數(shù)據(jù)分析不必在開始時(shí)花很長(zhǎng)的時(shí)間構(gòu)思大而全的分析指標(biāo)體系,而是低成本快速迭代,幾分鐘就做好一個(gè)當(dāng)前想要分析的結(jié)果,通過敏捷數(shù)據(jù)分析工具實(shí)現(xiàn)動(dòng)態(tài)切換視角,靈活展示數(shù)據(jù),日積月累,指標(biāo)自然越來越豐富,計(jì)算公式也越來越符合業(yè)務(wù)邏輯,這時(shí)再體系化。下面的演示視頻將幫助大家了解如何通過敏捷數(shù)據(jù)分析工具在幾分鐘時(shí)間內(nèi)實(shí)現(xiàn)自己的分析需求。

      視頻鏈接:v.youku.com/v_show/id_XODcxNTgxMTQ4.html

      為什么傳統(tǒng)數(shù)據(jù)分析無法實(shí)現(xiàn)快速迭代分析的高效?因?yàn)樵谶^去這么多年以來,我們對(duì)于大數(shù)據(jù)海量數(shù)據(jù)的計(jì)算能力達(dá)不到比較理想的要求,所以我們才需要IT人員用通過建模等方式提前把數(shù)據(jù)計(jì)算匯總好,隨著現(xiàn)在大數(shù)據(jù)的技術(shù)相對(duì)來講都日趨成熟和完善,分布式計(jì)算,內(nèi)存計(jì)算、列存儲(chǔ)等比較成熟的技術(shù)架構(gòu),采用這種新的辦法去處理數(shù)據(jù)的性能,已經(jīng)比以前提升了幾十倍甚至更高。

      符合迭代思維

      快速迭代式的敏捷數(shù)據(jù)分析有什么好處?首先,這種分析方法十分符合互聯(lián)網(wǎng)思維中的迭代思維。企業(yè)的分析指標(biāo)不可能一開始想得非常全面,本身就是迭代逐步形成的。以電商行業(yè)為例,電子商務(wù)的數(shù)據(jù)可分為兩類:前端行為數(shù)據(jù)和后端商業(yè)數(shù)據(jù)。前端行為數(shù)據(jù)指訪問量、瀏覽量、點(diǎn)擊流及站內(nèi)搜索等反應(yīng)用戶行為的數(shù)據(jù);而后端數(shù)據(jù)更側(cè)重商業(yè)數(shù)據(jù),比如交易量、投資回報(bào)率,以及全生命周期管理等。

      在最初期,電商行業(yè)最關(guān)注的是那些核心指標(biāo):UV、轉(zhuǎn)化率、客單價(jià)、毛利率、推廣ROI、重復(fù)購買率,人們?cè)诤诵闹笜?biāo)的基礎(chǔ)上逐步對(duì)媒體、用戶、商品、營銷等對(duì)象做詳細(xì)分析;同時(shí)在客服、商品、倉儲(chǔ)物流等內(nèi)部運(yùn)營績(jī)效方面進(jìn)行監(jiān)控。這些數(shù)據(jù)現(xiàn)在又可以被歸納發(fā)展為4個(gè)方面,基礎(chǔ)訪問數(shù)據(jù)、商品銷售數(shù)據(jù)、營銷推廣數(shù)據(jù)、用戶數(shù)據(jù),其中基礎(chǔ)數(shù)據(jù)中包括網(wǎng)站的訪問數(shù)據(jù)、網(wǎng)頁鏈接點(diǎn)擊、來源跳出等等。商品銷售數(shù)據(jù)關(guān)系到品類、銷售多少、影響因素等。營銷數(shù)據(jù)包括投入產(chǎn)出的投資回報(bào)率,更多地是跟其他幾方面的數(shù)據(jù)進(jìn)行混合分析。用戶數(shù)據(jù)包括分析用戶區(qū)域、購買頻率、客戶構(gòu)成、忠誠度、偏好等等。

      篇7

      [中圖分類號(hào)]G819[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1005-6432(2013)46-0099-02

      1引言

      探索性數(shù)據(jù)分析方法是一種新型的統(tǒng)計(jì)分析手段,近年來在許多行業(yè)得到了廣泛的應(yīng)用,并取得了明顯成效。其強(qiáng)調(diào)了數(shù)據(jù)本身的價(jià)值,可以更加客觀地發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,找到數(shù)據(jù)的穩(wěn)健耐抗模式,從而發(fā)掘出數(shù)據(jù)的隱藏信息。本文從職工平均工資的實(shí)際數(shù)據(jù)出發(fā),利用探索性數(shù)據(jù)分析中的工具,直觀地探索華東六省職工平均工資的規(guī)律,挖掘數(shù)據(jù)特征和有價(jià)值的信息。

      2華東六省職工平均工資的描述性分析

      職工平均工資指企業(yè)、事業(yè)、機(jī)關(guān)單位的職工在一定時(shí)期內(nèi)平均每人所得的貨幣工資額。它表明一定時(shí)期職工工資收入的高低程度,是反映職工工資水平的主要指標(biāo)。由于中國城市眾多,各地經(jīng)濟(jì)發(fā)展水平有較大的差異,生活水平和生活質(zhì)量也各有不同,為了縮小地理差異對(duì)研究數(shù)據(jù)的影響,得到較為準(zhǔn)確和有意義的結(jié)果,這里只選用了2010年華東地區(qū)六個(gè)省的職工平均工資運(yùn)用探索性數(shù)據(jù)分析方法做初步的描述性分析和研究,每個(gè)省選取了9個(gè)大城市。

      為了更加簡(jiǎn)單直觀地對(duì)比各個(gè)省市的數(shù)據(jù),我們繪制了箱線圖,如圖1所示。對(duì)華東六省進(jìn)行對(duì)比中,可以看到只有江西省和福建省是有離群值的,說明了這兩省中存在著個(gè)別城市職工平均工資與同省其他城市相比特別大,其他幾省的數(shù)據(jù)就不存在離群值。對(duì)于四分展布,可以得到大小關(guān)系,安徽>江蘇>浙江>山東>福建>江西,可知安徽和江蘇中城市的職工平均工資差異較大,福建和江西相比起來,則分布得更加集中。

      圖1華東六省2010年職工平均工資水平箱線圖

      綜合對(duì)比各個(gè)省的中位數(shù),可以發(fā)現(xiàn)江蘇省平均職工工資水平最大,江西省最小,從經(jīng)濟(jì)上反映了地區(qū)經(jīng)濟(jì)發(fā)展差異,江蘇緊靠上海,處在華東的中心,交通系統(tǒng)發(fā)達(dá),同時(shí),長(zhǎng)三角江蘇占了大部分,其靠海的地理優(yōu)勢(shì)給它帶來了更多的經(jīng)濟(jì)發(fā)展機(jī)會(huì),導(dǎo)致了職工工資水平中位數(shù)相差如此大。

      同時(shí)可以直觀地看出安徽省數(shù)據(jù)對(duì)稱性最好,除了福建省數(shù)據(jù)呈現(xiàn)左偏趨勢(shì)外,其他省都呈現(xiàn)右偏的趨勢(shì),其中江西省的數(shù)據(jù)最為嚴(yán)重,主要是受到了兩個(gè)離群值的影響,為了使其更對(duì)稱,我們運(yùn)用探索性數(shù)據(jù)分析方法中的對(duì)稱變換方法,在經(jīng)過R軟件的計(jì)算后,得到職工平均工資的對(duì)稱性變換圖,如圖2所示。

      圖2江西省2010年職工平均工資水平對(duì)稱性變換圖

      進(jìn)行對(duì)稱性變換后,運(yùn)用R軟件擬合曲線,得到:

      由圖3可以看出,在進(jìn)行對(duì)稱匹配變換之后,江西省的兩個(gè)離群值消失了,數(shù)據(jù)變得更加集中,趨勢(shì)也更加易于分析和研究。這樣的數(shù)據(jù)會(huì)給分析帶來便利,更加清晰和直觀地表現(xiàn)出數(shù)據(jù)的本質(zhì)特征。

      圖3江西省2010年職工平均工資水平匹配

      3結(jié)論

      使用探索性數(shù)據(jù)分析技術(shù)具有耐抗性和穩(wěn)健性的特點(diǎn),通過箱線圖可以簡(jiǎn)單直觀地看出數(shù)據(jù)間的差異,華東六省中浙江、江蘇省職工平均工資較高,安徽、山東、福建省處于中間,江西省最低。安徽省的數(shù)據(jù)較為分散,同時(shí)數(shù)據(jù)比較對(duì)稱,而江西省的數(shù)據(jù)有著極大的右偏性,在經(jīng)過了對(duì)稱、匹配變換后,仍然與華東地區(qū)其他省的數(shù)據(jù)有較大的差異,可能是由離群值太大造成的。

      參考文獻(xiàn):

      篇8

      中圖分類號(hào): G250.2 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2014)05-0013-07

      Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

      Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

      Key words big data; big data analytics; intelligence studies; adaptability

      大數(shù)據(jù)分析(Big Data Analytics,BDA)是以“深度的發(fā)現(xiàn)分析、引領(lǐng)行動(dòng)”作為目標(biāo)的工作[1-2],它包括由多個(gè)任務(wù)組成的高度重復(fù)執(zhí)行的步驟[3-4]。BDA通常要集成多種分析技術(shù)與軟件工具,以便讓海量數(shù)據(jù)的處理及分析變得更加容易,從數(shù)據(jù)中提取有用信息并形成結(jié)論,用來驗(yàn)證、指導(dǎo)及規(guī)范組織或個(gè)人的決策行動(dòng);BDA的執(zhí)行過程一般包括問題需求及假設(shè)提出、數(shù)據(jù)獲取及記錄、信息抽取及清洗、數(shù)據(jù)整合及表示、選擇建模及分析方法、結(jié)果詮釋、評(píng)測(cè)結(jié)果有效性及監(jiān)控等幾個(gè)階段。從以上BDA的定義及過程來看,BDA與情報(bào)學(xué)領(lǐng)域中的情報(bào)研究(也稱情報(bào)分析)在本質(zhì)上是一致的,兩者至少在方法與技術(shù)(以下簡(jiǎn)稱方法)上可以相互借鑒或補(bǔ)充。本文基于情報(bào)學(xué)的視角,關(guān)注哪些BDA方法可以為情報(bào)研究提供借鑒,并解決情報(bào)研究的相關(guān)問題。因此,本文首先概略總結(jié)BDA的方法體系,然后探討B(tài)DA方法在情報(bào)研究中的適用性。

      1 大數(shù)據(jù)分析的方法分類

      到目前為止,尚沒有公認(rèn)的BDA方法的分類體系,甚至對(duì)BDA包括哪些方法,也有不同的認(rèn)識(shí)。本文首先綜述現(xiàn)有的相關(guān)研究,并以此為基礎(chǔ)提出我們的分類體系。

      1.1 相關(guān)研究

      不同學(xué)者對(duì)BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數(shù)據(jù)視角的分類、面向流程視角的分類以及面向信息技術(shù)視角的分類。

      (1)面向數(shù)據(jù)視角的BDA方法分類。這類研究主要是以BDA處理的對(duì)象“數(shù)據(jù)”作為分類依據(jù),從數(shù)據(jù)的類型、數(shù)據(jù)量、數(shù)據(jù)能夠解決的問題、處理數(shù)據(jù)的方式等角度對(duì)BDA方法進(jìn)行分類。

      Power[5]依據(jù)分析需求將數(shù)值型數(shù)據(jù)的分析方法劃分為三類:①若是模式理解及對(duì)未來做出推論,可采取歷史數(shù)據(jù)及定量工具進(jìn)行“回顧性數(shù)據(jù)分析”;②若要進(jìn)行前瞻及預(yù)測(cè)分析,可采取歷史數(shù)據(jù)及仿真模型進(jìn)行“預(yù)測(cè)性數(shù)據(jù)分析”;③若要觸發(fā)事件,可采取實(shí)時(shí)數(shù)據(jù)及定量工具進(jìn)行“規(guī)范性數(shù)據(jù)分析”。美國國家研究委員會(huì)在2013年公布的《海量數(shù)據(jù)分析前沿》研究報(bào)告中提出了七種基本統(tǒng)計(jì)數(shù)據(jù)分析方法[6],包括:①基本統(tǒng)計(jì)(如一般統(tǒng)計(jì)及多維數(shù)分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數(shù)計(jì)算(Linear Algebraic Computations);⑤優(yōu)化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數(shù)據(jù)匹配(如隱馬爾可夫模型等)。

      針對(duì)非純粹的數(shù)值型數(shù)據(jù),Li、Han[7]梳理了面向“時(shí)空數(shù)據(jù)”(Spatiotemporal Data)的BDA方法,通過對(duì)動(dòng)態(tài)數(shù)據(jù)挖掘出主體的預(yù)測(cè)性,如運(yùn)用物理工程領(lǐng)域的傅立葉變換(Fourier Transform)及自相關(guān)匹配(Autocorrelation)偵查某一時(shí)間區(qū)段的信號(hào)、發(fā)生的事件或生物基因中的周期性節(jié)律,也可運(yùn)用時(shí)間序列方法預(yù)測(cè)地點(diǎn)位置的變化;魏順平[8]以教育領(lǐng)域?yàn)槔?,梳理了面向?qū)W生與學(xué)習(xí)環(huán)境的“學(xué)習(xí)分析方法”(Learning Analytics),此方法集成了內(nèi)容分析、話語分析、社會(huì)網(wǎng)絡(luò)分析、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等多種方法,從中挖掘?qū)W習(xí)的各種語義關(guān)系,并回答“誰在學(xué)、學(xué)什么、怎么學(xué)、學(xué)的結(jié)果如何”等問題,為教學(xué)與優(yōu)化學(xué)習(xí)提供參考。

      Mohanty等人[3]從數(shù)據(jù)獲?。―ata Ingestion)角度,依照處理的數(shù)據(jù)量從小至大的順序,區(qū)分出八種分析方法:①流分析(Streaming Analytics),以預(yù)定模式及時(shí)處理數(shù)據(jù)流;②高速的數(shù)據(jù)采集(High Velocity Data Ingestion),不轉(zhuǎn)換任何格式,可稍晚處理; ③鏈結(jié)分析(Linkage Analysis),構(gòu)建不同數(shù)據(jù)源的關(guān)系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數(shù)據(jù)集中尋找特定模式;⑤數(shù)據(jù)聚合(Data Mash-Ups),需要對(duì)數(shù)據(jù)屬性發(fā)展故事線或鏈接關(guān)系進(jìn)行分析;⑥文本分析(Text Analytics),如觀點(diǎn)挖掘或社會(huì)網(wǎng)絡(luò)分析等;⑦時(shí)間序列分析(Time-Series Analysis),通過模式偵測(cè)及事件發(fā)生概率來處理時(shí)空數(shù)據(jù);⑧數(shù)據(jù)辯論(Data Forensic),用于數(shù)據(jù)科學(xué)家探索大規(guī)模數(shù)據(jù)集。

      Chen等人[9]認(rèn)為,在商業(yè)智能分析發(fā)展的過程中,商業(yè)智能分析經(jīng)歷了從處理結(jié)構(gòu)化程度較高的數(shù)據(jù)、到處理網(wǎng)絡(luò)上半結(jié)構(gòu)化數(shù)據(jù)、再到處理移動(dòng)數(shù)據(jù)的發(fā)展,涵蓋了五類核心的分析方法:①數(shù)據(jù)分析,涉及數(shù)據(jù)倉儲(chǔ)、ETL、聯(lián)機(jī)分析及數(shù)據(jù)挖掘等分析技術(shù),可應(yīng)用在時(shí)間序列挖掘、網(wǎng)站挖掘、空間數(shù)據(jù)挖掘等;②文本分析,涉及信息檢索、查詢處理、相關(guān)反饋等分析技術(shù),可應(yīng)用在QA系統(tǒng)、觀點(diǎn)挖掘、多語義分析、可視化分析等;③網(wǎng)站分析,涉及信息檢索、網(wǎng)絡(luò)爬蟲、日志分析等分析技術(shù),可應(yīng)用在云計(jì)算、社會(huì)網(wǎng)絡(luò)分析、網(wǎng)站可視化等;④網(wǎng)絡(luò)分析,涉及信息計(jì)量、引用網(wǎng)絡(luò)、數(shù)學(xué)網(wǎng)絡(luò)模式等分析技術(shù),可應(yīng)用在鏈結(jié)分析、社區(qū)發(fā)現(xiàn)、社會(huì)影響力及擴(kuò)散模式等;⑤移動(dòng)分析,可應(yīng)用在移動(dòng)通訊服務(wù)、個(gè)性化分析、游戲營銷分析等。

      (2)面向流程視角的BDA方法分類。這類研究主要是依據(jù)BDA的步驟和階段對(duì)BDA方法進(jìn)行分類。

      美國計(jì)算社區(qū)協(xié)會(huì)出版的《大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)》白皮書指出BDA是一個(gè)多階段任務(wù)循環(huán)執(zhí)行過程[4],從整體看,其分析的過程包括了五個(gè)階段,每一個(gè)階段都包含該階段需要使用的方法:①數(shù)據(jù)獲取及記錄,從各種感知工具中獲取的數(shù)據(jù)通常與空間時(shí)空相關(guān),需要及時(shí)分析技術(shù)處理數(shù)據(jù)并過濾無用數(shù)據(jù);②信息抽取及清洗,從異構(gòu)數(shù)據(jù)源抽取有用信息,并轉(zhuǎn)換為結(jié)構(gòu)化的格式;③數(shù)據(jù)整合及表示,將數(shù)據(jù)結(jié)構(gòu)與語義關(guān)系轉(zhuǎn)換為機(jī)器可讀取、自動(dòng)解析的格式;④數(shù)據(jù)建模及分析,從數(shù)據(jù)中挖掘出潛在規(guī)律及知識(shí),涉及可擴(kuò)展的挖掘算法或知識(shí)發(fā)現(xiàn)等方法;⑤詮釋,為了讓用戶容易解讀分析結(jié)果,可視化分析技術(shù)變得十分重要。此外,嚴(yán)霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數(shù)據(jù)的關(guān)鍵技術(shù),包括:遺傳算法、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、回歸分析、分類、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)融合、機(jī)器學(xué)習(xí)、自然語言處理、情感分析、網(wǎng)絡(luò)分析、空間分析、時(shí)間序列分析等多種方法。

      (3)面向信息技術(shù)視角的BDA方法分類。這類研究強(qiáng)調(diào)大數(shù)據(jù)技術(shù)本身涉及到的新型信息技術(shù),將大數(shù)據(jù)處理架構(gòu)、大數(shù)據(jù)計(jì)算模式、大數(shù)據(jù)系統(tǒng)等作為BDA方法分類的依據(jù)。

      孟小峰、慈祥[11]著眼于大數(shù)據(jù)處理框架,梳理了數(shù)據(jù)抽取與集成、數(shù)據(jù)分析及數(shù)據(jù)解釋所使用的分析方法,在數(shù)據(jù)抽取與集成方面,可區(qū)分為基于物化(Materialization)或ETL的方法、基于聯(lián)邦數(shù)據(jù)庫或中間件的方法、基于數(shù)據(jù)流的方法以及基于搜索引擎的方法等四類;在數(shù)據(jù)分析方面,傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析面臨數(shù)據(jù)規(guī)模、算法調(diào)整等困難,需進(jìn)一步發(fā)展;在數(shù)據(jù)解釋方面,引入可視化技術(shù)或交互式的數(shù)據(jù)分析過程,有助于用戶理解分析結(jié)果。覃雄派等人[12]認(rèn)為,非關(guān)系數(shù)據(jù)管理(如MapReduce)擴(kuò)展了數(shù)據(jù)分析的多維視角,使數(shù)據(jù)分析的生態(tài)系統(tǒng)從“大量數(shù)據(jù)的移動(dòng)”轉(zhuǎn)向“直接對(duì)數(shù)據(jù)進(jìn)行分析”。

      2012~2013年在印度召開了兩次BDA國際研討會(huì)[13-14],會(huì)上分別就BDA中的機(jī)器學(xué)習(xí)面臨數(shù)據(jù)規(guī)模與多維度問題、可擴(kuò)展的機(jī)器學(xué)習(xí)算法(如隨機(jī)映射、隨機(jī)梯度下降等)、機(jī)器學(xué)習(xí)在MapReduce的應(yīng)用、社交媒體數(shù)據(jù)挖掘(如話題檢測(cè)與跟蹤、地點(diǎn)推理、語義連接等)、高維數(shù)據(jù)降維分析(如主成分分析、因子分析、經(jīng)典相關(guān)分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對(duì)分析(如特征提取、Iterative Methods)等進(jìn)行了探討。2013年IEEE計(jì)算機(jī)協(xié)會(huì)在美國召開大數(shù)據(jù)國際研討會(huì),BDA結(jié)合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內(nèi)容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

      1.2 BDA方法的分類――面向?qū)哟蔚腂DA方法框架

      上述三種視角的BDA分類各有特點(diǎn),都有一定的道理。從面向數(shù)據(jù)的視角來看,BDA方法正從統(tǒng)計(jì)(Statistics)轉(zhuǎn)向挖掘(Mining),并提升到發(fā)現(xiàn)(Discovery)和預(yù)測(cè)(Prediction)。基于流程的BDA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項(xiàng)分析任務(wù)時(shí),需要綜合使用多種方法。從面向信息技術(shù)的BDA分類中可以看出,這種分類方式強(qiáng)調(diào)使用新技術(shù)對(duì)傳統(tǒng)數(shù)據(jù)處理方法進(jìn)行改進(jìn)和創(chuàng)新,同時(shí)更重視新型系統(tǒng)架構(gòu)與分析方法的集成,例如,各種數(shù)據(jù)挖掘算法的MapReduce化,就是這方面的典型實(shí)例。

      本文認(rèn)為,如果綜合上述三種分類體系中體現(xiàn)的層次性,將可以更準(zhǔn)確描述BDA方法。在此,本文提出一個(gè)面向?qū)哟蔚腂DA分類框架,將BDA方法分為統(tǒng)計(jì)、挖掘、發(fā)現(xiàn)、預(yù)測(cè)及集成五個(gè)層次,并初步歸納出17種BDA相關(guān)方法(見表1)。

      2 BDA方法在情報(bào)研究中的適用性探討

      如前所述,BDA與情報(bào)研究在本質(zhì)上有共同之處,BDA方法可為情報(bào)研究提供借鑒,因此,探討B(tài)DA方法對(duì)情報(bào)研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報(bào)研究的分析對(duì)象特征、方法的可移植性[15]等因素,對(duì)本文所列舉的17種面向?qū)哟蔚腂DA方法在情報(bào)研究中的適用性進(jìn)行分析。

      2.1 可直接移植的方法

      可直接移植方法是指這些方法的原理、流程、算法等可以直接應(yīng)用于情報(bào)研究,用來對(duì)情報(bào)研究的數(shù)據(jù)源(如科技文獻(xiàn)、網(wǎng)絡(luò)資源等)進(jìn)行處理,解決情報(bào)研究過程中的一個(gè)或幾個(gè)步驟中要解決的問題。在本文所列舉的17種面向?qū)哟蔚腂DA方法中,數(shù)據(jù)挖掘、文本挖掘、知識(shí)發(fā)現(xiàn)、觀點(diǎn)挖掘、話題演化分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析、海量數(shù)據(jù)的基本統(tǒng)計(jì)方法、高維數(shù)據(jù)降維分析方法、多源數(shù)據(jù)融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報(bào)研究中已經(jīng)有多年的應(yīng)用歷史。

      (1)數(shù)據(jù)挖掘與文本挖掘。數(shù)據(jù)挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發(fā)現(xiàn)技術(shù),文本挖掘?qū)儆诨谟?jì)算機(jī)語言學(xué)及統(tǒng)計(jì)方法的發(fā)現(xiàn)技術(shù),用來揭示文本中的詞與句法特征;數(shù)據(jù)挖掘以數(shù)據(jù)庫中的大量結(jié)構(gòu)化的數(shù)據(jù)挖掘?yàn)榛A(chǔ),用來揭示數(shù)據(jù)中潛在的、可能的數(shù)據(jù)模式及關(guān)聯(lián)規(guī)律[16]。在情報(bào)學(xué)領(lǐng)域的實(shí)踐應(yīng)用中,數(shù)據(jù)挖掘多應(yīng)用在圖書館自動(dòng)化技術(shù)與服務(wù)方面,例如,館藏采購決策、個(gè)性化服務(wù)、信息檢索、讀者管理、館藏布局等。文本挖掘在情報(bào)研究的價(jià)值在于彌補(bǔ)了情報(bào)學(xué)專門分析方法對(duì)科技文獻(xiàn)內(nèi)在知識(shí)挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究?jī)?nèi)容這個(gè)問題,提出引文內(nèi)容分析,先建立基于規(guī)則的引文內(nèi)容抽取來識(shí)別引用句,再通過基于C-value多詞術(shù)語識(shí)別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻(xiàn)之間的語義關(guān)系。

      (2)知識(shí)發(fā)現(xiàn)。情報(bào)研究中所說的知識(shí)發(fā)現(xiàn),主要是指基于文獻(xiàn)的知識(shí)發(fā)現(xiàn),例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎(chǔ)上,提出了“基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)”,包括:基于相關(guān)文獻(xiàn)、基于非相關(guān)文獻(xiàn)及基于全文獻(xiàn)三種條件下的知識(shí)發(fā)現(xiàn),完整揭示文獻(xiàn)的知識(shí)結(jié)構(gòu)與演化情況。在網(wǎng)絡(luò)環(huán)境下,李楠、張學(xué)福[19]認(rèn)為關(guān)聯(lián)數(shù)據(jù)的RDF數(shù)據(jù)模型、數(shù)據(jù)訪問機(jī)制、URIs及自描述數(shù)據(jù)等規(guī)范所形成的數(shù)據(jù)共享環(huán)境,為知識(shí)發(fā)現(xiàn)提供了新的研究潛力,包括知識(shí)發(fā)現(xiàn)的范圍被擴(kuò)展成全球數(shù)據(jù)空間、高效率理解及處理數(shù)據(jù)間的語義關(guān)系等。簡(jiǎn)言之,知識(shí)發(fā)現(xiàn)從不同數(shù)據(jù)源之間的復(fù)雜關(guān)系中獲得隱含的知識(shí)或規(guī)律,甚至可對(duì)未來進(jìn)行預(yù)測(cè)。

      (3)觀點(diǎn)挖掘與話題演化分析。觀點(diǎn)挖掘與話題演化分析兩種方法實(shí)際上是數(shù)據(jù)挖掘及文本挖掘的具體及深化應(yīng)用。觀點(diǎn)挖掘主要有三種挖掘任務(wù):情感分類、基于特征的觀點(diǎn)挖掘、比較語句和關(guān)系挖掘[20],例如,黃曉斌、趙超[21]通過對(duì)網(wǎng)絡(luò)輿情信息的文本挖掘,找出不同民眾對(duì)某一社會(huì)事件的情緒、態(tài)度及觀點(diǎn),再通過關(guān)聯(lián)分析找出網(wǎng)絡(luò)輿情信息的各種關(guān)聯(lián)性。趙潔、溫潤(rùn)[22]認(rèn)為微博情感分析的關(guān)鍵是觀點(diǎn)句識(shí)別,并根據(jù)文本特征的差異性,提出了基于新詞擴(kuò)充和特征選擇的觀點(diǎn)句識(shí)別方法,即先擴(kuò)充情感詞典來提高分詞準(zhǔn)確率,再結(jié)合微博特征進(jìn)行句子選取。話題演化分析方法是近年文本挖掘的研究熱點(diǎn),借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時(shí)間信息模擬該話題隨著時(shí)間推移所表現(xiàn)的受關(guān)注程度及關(guān)注點(diǎn)的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻(xiàn)中的話題(即主題詞),再計(jì)算話題的強(qiáng)度與內(nèi)容演化,從而區(qū)分熱門與冷門話題及其歷年特征詞的演化趨勢(shì)。

      (4)多元統(tǒng)計(jì)分析與時(shí)間序列分析。多元統(tǒng)計(jì)分析與時(shí)間序列分析兩種方法也是情報(bào)研究常見的定量分析方法[25],前者研究客觀事物中多個(gè)變量(或多個(gè)因素)之間相互依賴的統(tǒng)計(jì)規(guī)律,后者則是基于隨機(jī)過程理論和數(shù)理統(tǒng)計(jì)學(xué)方法,研究動(dòng)態(tài)數(shù)據(jù)序列的規(guī)律性。這兩種分析方法的一個(gè)重要特點(diǎn)在于能基于歷史數(shù)據(jù)的變化,評(píng)價(jià)事物現(xiàn)狀或預(yù)測(cè)事物未來的發(fā)展。

      (5)海量數(shù)據(jù)的基本統(tǒng)計(jì)分析方法。海量數(shù)據(jù)的七種基本統(tǒng)計(jì)分析方法適用于情報(bào)研究的原因是,專家們普遍認(rèn)為,在現(xiàn)有硬件技術(shù)條件下要開發(fā)一個(gè)海量數(shù)據(jù)分析系統(tǒng)的難度過高,且高性能計(jì)算領(lǐng)域也面臨許多困難,因而轉(zhuǎn)向?qū)ふ夜餐ǖ幕A(chǔ)性計(jì)算方法來幫助運(yùn)算[6],同時(shí)這些統(tǒng)計(jì)方法也經(jīng)常應(yīng)用于數(shù)據(jù)挖掘或文本挖掘。對(duì)情報(bào)研究來說,處理的數(shù)據(jù)量不及高性能計(jì)算領(lǐng)域的海量數(shù)據(jù),因此可以容易地應(yīng)用這些基本統(tǒng)計(jì)分析方法。盡管如此,隨著情報(bào)研究處理的文本量增加,包括文獻(xiàn)計(jì)量或信息計(jì)量方法在內(nèi)的定量分析方法,仍然要經(jīng)常借鑒基礎(chǔ)性的計(jì)算方法,并進(jìn)行公式改進(jìn)。

      (6)高維數(shù)據(jù)降維分析方法。高維數(shù)據(jù)降維分析方法反映了海量的數(shù)值型數(shù)據(jù)在數(shù)據(jù)縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關(guān)分析、獨(dú)立成分分析、投影尋蹤等[26]。高維數(shù)據(jù)經(jīng)常存在大量的弱相關(guān)內(nèi)容或噪音,通過線性(如主成分分析、典型相關(guān)分析等)或非線性(如投影尋蹤、核方法等)映射可以將數(shù)據(jù)樣本從高維空間映射到低維空間,從而提高機(jī)器學(xué)習(xí)的效率[27-28]。情報(bào)研究在處理文本語料時(shí),廣泛使用基于向量空間模型來表示文本,形成的高維特征集會(huì)對(duì)文本分類或機(jī)器學(xué)習(xí)的效果產(chǎn)生很大影響,通過特征選擇(如特征頻率、互信息等)進(jìn)行特征抽?。ㄈ鏟CA、LSI、NMF等),轉(zhuǎn)換成一個(gè)低維的特征集來提高訓(xùn)練效果,是非常必要的[29]。

      (7)多源數(shù)據(jù)融合方法。多源數(shù)據(jù)融合方法是解決大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)整合而提出的方法,例如,為了解決不同研究階段產(chǎn)生的各類科學(xué)數(shù)據(jù)集成問題,白如江、冷伏海[30]認(rèn)為解決關(guān)鍵在于中間件構(gòu)建,例如,通過基于XML模型將異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)映射到全局視圖,解決了不同數(shù)據(jù)源的關(guān)系描述問題,并提供用戶可靈活訂制查詢規(guī)則;但基于XML模型只能提供語法層次的整合,為了提供數(shù)據(jù)在語義層次的整合,可通過基于語義模型對(duì)XML的對(duì)象進(jìn)行分類,在對(duì)象模型的基礎(chǔ)上生成邏輯規(guī)則,揭示隱含在科學(xué)數(shù)據(jù)中的語義信息。此外,也可以通過基于物化或ETL方法、基于數(shù)據(jù)流方法或其他方法對(duì)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取出實(shí)體與關(guān)系,再進(jìn)行數(shù)據(jù)集成或數(shù)據(jù)清洗[11]。多源數(shù)據(jù)融合方法是進(jìn)入數(shù)據(jù)分析之前的重要任務(wù),對(duì)情報(bào)研究來說,需要多種來源支持情報(bào)分析工作,包括同型異源信息、異質(zhì)異構(gòu)信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權(quán)等進(jìn)行融合分析[31]。

      2.2 調(diào)整后移植的方法

      調(diào)整后移植的方法是指其在原本的領(lǐng)域已經(jīng)成功應(yīng)用,但由于該方法最早或成功應(yīng)用的領(lǐng)域在任務(wù)需求、數(shù)據(jù)處理、分析過程有自身的特點(diǎn),若移植到情報(bào)研究時(shí),需要根據(jù)情報(bào)研究自身的特征進(jìn)行調(diào)整。數(shù)據(jù)可用處理及分析方法、時(shí)空數(shù)據(jù)分析等兩種分析方法就屬于這類情況。

      (1)數(shù)據(jù)可用處理及分析方法。大數(shù)據(jù)環(huán)境中容易產(chǎn)生許多劣質(zhì)數(shù)據(jù)來降低數(shù)據(jù)可用性,為了提高數(shù)據(jù)可用性及數(shù)據(jù)質(zhì)量,李建中及劉顯敏[32]梳理了數(shù)種數(shù)據(jù)可用性的相關(guān)方法,包括高質(zhì)量數(shù)據(jù)獲取與整合、數(shù)據(jù)錯(cuò)誤自動(dòng)檢測(cè)與修復(fù)、弱可用數(shù)據(jù)處理與分析等,分別解決了大規(guī)模數(shù)據(jù)集預(yù)處理階段常見的一致性、精確性、完整性、時(shí)效性及實(shí)體同一性等問題。對(duì)情報(bào)研究來說,情報(bào)素材、產(chǎn)品形式及工作任務(wù)分解的質(zhì)量控制是情報(bào)工作的核心[33],其中,情報(bào)素材的質(zhì)量對(duì)后續(xù)的情報(bào)分析成敗存在著至關(guān)重要的作用,當(dāng)數(shù)據(jù)或信息是錯(cuò)誤或不完整時(shí),提煉出來的情報(bào)勢(shì)必會(huì)存在缺陷或錯(cuò)誤。過去對(duì)情報(bào)研究的質(zhì)量控制取決于人,如果能引入數(shù)據(jù)可用處理及分析方法解決數(shù)據(jù)或信息源可能存在的不一致、不精確、遺漏、滯后或重復(fù)等問題,有助于提高情報(bào)分析素材的可用性與正確性。

      (2)時(shí)空數(shù)據(jù)分析。時(shí)空數(shù)據(jù)分析是地球信息科學(xué)相關(guān)領(lǐng)域的研究熱點(diǎn),其中最常使用“周期”(Periodic Behavior)分析,例如天氣預(yù)報(bào)、環(huán)境監(jiān)控、地理信息系統(tǒng)、城市交通網(wǎng)絡(luò)管理等都是常見的應(yīng)用實(shí)例[7]?,F(xiàn)有研究的多數(shù)做法是采取基于時(shí)間序列的方法進(jìn)行周期建模,但建模過程容易出現(xiàn)對(duì)象可能沒有周期、時(shí)間點(diǎn)分布不一定呈現(xiàn)周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測(cè)方法解決周期長(zhǎng)度定義問題,孟志青等人[35]提出多粒度時(shí)間文本下的周期模式挖掘算法解決時(shí)態(tài)文本數(shù)據(jù)挖掘問題。對(duì)情報(bào)研究來說,時(shí)間是文本中一個(gè)重要的屬性,如文獻(xiàn)發(fā)表規(guī)律、輿情監(jiān)控、科研人員的研究主題周期等。在原有數(shù)據(jù)基礎(chǔ)上增加時(shí)間維度進(jìn)行長(zhǎng)時(shí)段分析是多數(shù)研究的常見做法,但并沒有呈現(xiàn)出其中的周期性規(guī)律,特別是文本中的規(guī)律特征較難發(fā)現(xiàn),如果能引入此類方法,將有助于找出情報(bào)演化的周期模式。

      2.3 不適用的方法

      考慮學(xué)科領(lǐng)域差異,本文認(rèn)為 “翻譯生物信息學(xué)分析”及“學(xué)習(xí)分析方法”兩種專門研究方法不適合情報(bào)研究。

      (1)翻譯生物信息學(xué)分析。翻譯生物信息學(xué)分析是生物信息學(xué)的專門分析方法,這種方法是依據(jù)特定目的整合多數(shù)據(jù)源及促進(jìn)領(lǐng)域知識(shí)的有效利用,其結(jié)果可應(yīng)用在生物醫(yī)學(xué)研究、產(chǎn)生支持醫(yī)療人員在治療點(diǎn)中的“可操作的決策”(Actionable Decision),同時(shí)能對(duì)人類與疾病的關(guān)聯(lián)關(guān)系提供更好的理解。生物信息學(xué)為了找出更多基因與疾病的關(guān)系,通過翻譯生物信息學(xué)分析,可以將分析方法與工具開發(fā)從系統(tǒng)層面橫跨到分子、個(gè)人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉(zhuǎn)向新基因或遺傳性狀組合與預(yù)測(cè)研究[36]。從分析方法的操作過程來說,考慮到數(shù)據(jù)源的特殊性(如DNA編碼數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)等)、分析視角、工具構(gòu)建及使用等因素,并不符合情報(bào)學(xué)的學(xué)科研究特色。

      (2)學(xué)習(xí)分析方法。學(xué)習(xí)分析方法是搜集、分析及評(píng)測(cè)學(xué)習(xí)者及其學(xué)習(xí)語境的分析方法,目的在于理解與優(yōu)化學(xué)習(xí)及其學(xué)習(xí)環(huán)境[8]。從UNESCO IITE機(jī)構(gòu)在2012年11月出版的學(xué)習(xí)分析方法政策簡(jiǎn)報(bào)可知,學(xué)習(xí)分析方法的數(shù)據(jù)分析功能是基于數(shù)據(jù)挖掘從而開展相關(guān)分析內(nèi)容,包括行為分析、學(xué)習(xí)資源瀏覽分析、各種關(guān)聯(lián)分析與影響因素分析等。雖然數(shù)據(jù)挖掘是情報(bào)研究的常見方法,但學(xué)習(xí)分析方法的結(jié)果意義在于解釋學(xué)習(xí)者的學(xué)習(xí)語境,為教師或管理者提供決策支持,從而改善學(xué)習(xí)者的學(xué)習(xí)習(xí)慣及促進(jìn)學(xué)習(xí)效果。由于這種方法有其特定的含義和應(yīng)用環(huán)境,離開了學(xué)習(xí)語境,方法的內(nèi)涵和外延可能就會(huì)產(chǎn)生變化,因此,難以移植到情報(bào)研究。

      2.4 需要繼續(xù)關(guān)注的方法

      基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務(wù)智能分析,是近年研究探討較多的方法,但目前尚未形成一個(gè)成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續(xù)發(fā)展中,本身也存在不斷的改進(jìn)空間,它們與各種分析方法的集成缺乏公認(rèn)的標(biāo)準(zhǔn)和規(guī)范,同樣地,對(duì)于關(guān)注圖像與事物之間關(guān)聯(lián)的圖模型分析與挖掘也尚沒有發(fā)展出固定的技術(shù),又例如,商務(wù)智能分析被定義為由數(shù)據(jù)倉庫、ETL、聯(lián)機(jī)分析、數(shù)據(jù)挖掘、客戶關(guān)系管理、知識(shí)管理等多種技術(shù)融合的一組系統(tǒng),通過BI系統(tǒng)管理組織內(nèi)部及個(gè)人相關(guān)的商業(yè)數(shù)據(jù)、專家信息及知識(shí),涉及數(shù)據(jù)的融合、取用及分析等方法與工具[37-38],目前也沒有標(biāo)準(zhǔn)化的體系架構(gòu)。

      因此,本文還無法明確回答上述三種方法將如何應(yīng)用于情報(bào)研究、在應(yīng)用過程中需要做哪些調(diào)整、這些方法與現(xiàn)有的情報(bào)研究方法的關(guān)系如何等相關(guān)問題,但可以肯定的是,這些方法對(duì)未來的情報(bào)研究具有借鑒價(jià)值,例如,一旦情報(bào)研究的處理對(duì)象(即數(shù)據(jù))積累到了一定程度,成為傳統(tǒng)關(guān)系數(shù)據(jù)庫處理不了的大數(shù)據(jù),那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補(bǔ)充情報(bào)研究在圖像分析的不足,而商務(wù)智能分析可理解為一套集成系統(tǒng),可應(yīng)用在情報(bào)機(jī)構(gòu)的知識(shí)庫或機(jī)構(gòu)典藏,找出組織的知識(shí)缺口等方面。

      3 結(jié)語

      大數(shù)據(jù)時(shí)代就是一個(gè)數(shù)據(jù)分析的時(shí)代,學(xué)界和業(yè)界提出了很多大數(shù)據(jù)分析的方法與技術(shù),這些方法與技術(shù)對(duì)情報(bào)研究產(chǎn)生了積極的借鑒作用,本文總結(jié)了大數(shù)據(jù)分析的方法,提出面向?qū)哟蔚腂DA方法框架,歸納總結(jié)了其中的17種BDA方法,并從可直接移植、將調(diào)整后移植、不適用于情報(bào)研究以及需要繼續(xù)關(guān)注等四個(gè)方面對(duì)這些方法在情報(bào)研究中的適用性進(jìn)行了分析,以期為情報(bào)研究借鑒或移植BDA相關(guān)方法提供參考,促進(jìn)情報(bào)研究的理論與實(shí)踐發(fā)展。

      參考文獻(xiàn):

      [1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

      [2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

      [3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

      [4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

      [5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

      [6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

      [7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

      [8]魏順平. 學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值[J]. 現(xiàn)代教育技術(shù),2013, 23(2): 5-11.

      [9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

      [10]嚴(yán)霄鳳,張德馨. 大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(4): 168-172.

      [11]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013, 50(1): 146-169.

      [12]覃雄派,王會(huì)舉,杜小勇,等. 大數(shù)據(jù)分析――RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012, 23(1): 32-45.

      [13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

      [14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

      [15]王煉,武夷山. 方法移植對(duì)科學(xué)計(jì)量學(xué)研究的方法論啟示[J]. 科學(xué)學(xué)研究,2006, 24(4): 503-507.

      [16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

      [17]祝清松,冷伏海. 基于引文內(nèi)容分析的高被引論文主題識(shí)別研究[J]. 中國圖書館學(xué)報(bào),2014,(1):39-49.

      [18]張樹良,冷伏海. 基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)的應(yīng)用進(jìn)展研究[J]. 情報(bào)學(xué)報(bào),2006, 25(6): 700-712.

      [19]李楠,張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)應(yīng)用體系研究[J]. 圖書情報(bào)工作,2013,(6):127-133.

      [20]王輝,王暉昱,左萬利. 觀點(diǎn)挖掘綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2009,26(1):25-29.

      [21]黃曉斌,趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報(bào)科學(xué),2009:(1): 94-99.

      [22]趙潔,溫潤(rùn). 基于新詞擴(kuò)充和特征選擇的微博觀點(diǎn)句識(shí)別方法[J]. 情報(bào)學(xué)報(bào),2013,32(9): 945-951.

      [23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學(xué)報(bào),2010, 24(6): 43-49.

      [24]賀亮,李芳. 科技文獻(xiàn)話題演化研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2012,(4): 61-67.

      [25]查先進(jìn).信息分析[M].武漢:武漢大學(xué)出版社,2011.

      [26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

      [27]胡潔. 高維數(shù)據(jù)特征降維研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2008,(9): 2601-2606.

      [28]吳曉婷,閆德勤. 數(shù)據(jù)降維方法分析與研究[J]. 計(jì)算機(jī)應(yīng)用研究,2009,(8):2832-2835.

      [29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報(bào)學(xué)報(bào),2005,24(6): 690-695.

      [30]白如江,冷伏海. “大數(shù)據(jù)”時(shí)代科學(xué)數(shù)據(jù)整合研究[J]. 情報(bào)理論與實(shí)踐,2014, 37(1): 94-99.

      [31]化柏林. 多源信息融合方法研究[J]. 情報(bào)理論與實(shí)踐,2013,(11): 16-19.

      [32]李建中,劉顯敏. 大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J].計(jì)算機(jī)研究與發(fā)展,2013,50(6):1147-1162.

      [33]王延飛,王林蘭. 論情報(bào)研究質(zhì)量[J].圖書情報(bào)工作,2010,54(10):35-39.

      [34]王閱,高學(xué)東,武森,等. 時(shí)間序列周期模式挖掘的周期檢測(cè)方法[J]. 計(jì)算機(jī)工程,2009, 35(22): 32-34.

      [35]孟志青,樓婷淵,胡強(qiáng).多粒度時(shí)間文本數(shù)據(jù)的周期模式挖掘算法[J]. 計(jì)算機(jī)科學(xué),2013,(S2): 251-254.

      [36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

      篇9

      因子分析是一種通過顯在變量測(cè)評(píng)潛在變量,通過具體指標(biāo)測(cè)評(píng)抽象因子的統(tǒng)計(jì)分析方法。因子分析的目的即在找出量表潛在的結(jié)構(gòu),減少題目的數(shù)目,使之成為一組數(shù)量較少而彼此相關(guān)較大的變量。在本文中以主成分因素抽取法抽取共同因素,根據(jù)Kaiesr(1960)的觀點(diǎn)選取特征值大于1.0以上的共同因素,再以最大變異法進(jìn)行共同因素正交旋轉(zhuǎn)處理,保留共同度大于0.6以及因素負(fù)荷量大于0.5以上的題目。因素負(fù)荷量為碩士論文因素結(jié)構(gòu)中原始變量與抽取出共同因素相關(guān),負(fù)荷量越高表示該題目在該共同因素的重要性越大。共同度和特征值是因子分析的兩個(gè)重要指標(biāo)。共同度是每個(gè)變量在每個(gè)共同因子的負(fù)荷量的平方和,也就是個(gè)別變量可以被共同因子解釋的變異量百分比,是個(gè)別變量與共同因子間多元相關(guān)的平方。特征值是每個(gè)變量在某一共同因子的因子負(fù)荷量的平方總和。

      因子分析的數(shù)學(xué)模型及其統(tǒng)計(jì)檢驗(yàn)描述如下:

      彼此之間是獨(dú)立的,則模型(4.1)稱為正交因子模型;相反,如果公共因子彼此之間有一定相關(guān)性,則稱為斜交因子模型。由于斜交因子模型比較復(fù)雜,在本文中只考慮正交因子模型,而且假定各公共因子的均值為0,方差為1。

      模型中的矩陣A稱為因子載荷矩陣,a稱為因子“載荷”,是第i個(gè)變量在第j個(gè)因子上的負(fù)荷。因子載荷陣的求解方法有很多,本文用常用的主成分分析法,求解載荷陣得到僅包含m個(gè)因子的因子載荷陣。主要問題就在于如何通過SPSS統(tǒng)計(jì)軟件對(duì)數(shù)據(jù)的分析來估計(jì)因子載荷矩陣A,負(fù)荷量大的指標(biāo)給予保留,否則剔除。保留下來的指標(biāo)所構(gòu)成的體系就是本文最終研究得到的指標(biāo)體系。關(guān)于因子載荷的檢驗(yàn)有:模型的標(biāo)準(zhǔn)化,這主要是為了得到抽象的因子含義,即對(duì)因子各維度進(jìn)行命名;變量共同度檢驗(yàn),變量的共同度越高,說明該因子分析模型的解釋能力越高;因子的方差貢獻(xiàn)檢驗(yàn),用因子的累計(jì)方差貢獻(xiàn)率來確定公共因子提取的個(gè)數(shù),也就是尋找一個(gè)使得累計(jì)方差貢獻(xiàn)率達(dá)到較大百分比的自然數(shù),即最終提取方差貢獻(xiàn)大于1的因子作為公共因子。

      由于本文的論題是電子商務(wù)環(huán)境下服務(wù)業(yè)企業(yè)績(jī)效評(píng)價(jià)指標(biāo)體系構(gòu)建,本文主要運(yùn)用平衡計(jì)分卡把評(píng)價(jià)指標(biāo)體系分為四個(gè)方面,18個(gè)二級(jí)指標(biāo)作為18個(gè)因子,按照因子分析法來選取有效指標(biāo),各項(xiàng)指標(biāo)在選取時(shí),需要遵循兩個(gè)原則,一是該指標(biāo)在以前的研究中出現(xiàn)的概率,二是指標(biāo)與所要研究的問題的潛在相關(guān)性。本文在四個(gè)方面的指標(biāo)的選取上,另外考慮了①全面性,要求所選的指標(biāo)能反映企業(yè)的經(jīng)營、客戶、企業(yè)學(xué)習(xí)與成長(zhǎng)、財(cái)務(wù)方面的狀況;②有效性,要求選擇那些能夠?qū)︻A(yù)測(cè)企業(yè)的整體狀況有指示作用的重要指標(biāo);如,若各項(xiàng)指標(biāo)的雙尾T檢驗(yàn)的顯著性概率小于0.05,則能有效的反映企業(yè)的四個(gè)方面的狀況,反之,則是無效指標(biāo),應(yīng)剔除。③同趨勢(shì)性,即當(dāng)各項(xiàng)指標(biāo)增大時(shí),表示企業(yè)的整體狀況改善,反之當(dāng)各項(xiàng)指標(biāo)減少時(shí),表示企業(yè)的整體狀況惡化;④可操作性,采用易得到的數(shù)據(jù)。

      2信度、效度、描述性統(tǒng)計(jì)、方差和相關(guān)分析方法

      信度分析是采用一定的方法來衡量回收問卷中各變量的內(nèi)部一致性,它主要考查的是問卷測(cè)量的可靠性,檢驗(yàn)每一個(gè)因素中各個(gè)題目測(cè)量相同或相似的特性。本文采用克隆巴赫(Cronbach a)一致性系數(shù)檢驗(yàn)量表的信度和各分量表的信度。效度分析是采用一定的方法對(duì)問卷的理論構(gòu)思效度進(jìn)行驗(yàn)證。首先,必須對(duì)題目的結(jié)構(gòu)、測(cè)量的總體安排以及題目見的關(guān)系做出說明,然后運(yùn)用一定的方法從數(shù)據(jù)中得出基本構(gòu)思,以此來對(duì)測(cè)量構(gòu)思的效度進(jìn)行分析。用于評(píng)價(jià)結(jié)構(gòu)效度的主要指標(biāo)有累積貢獻(xiàn)率、共同度和因子負(fù)荷。累積貢獻(xiàn)率反映公因素對(duì)量表或問卷的累積有效程度,共同度反映由公因素解釋原變量的有效程度,因子負(fù)荷反映原變量與某個(gè)公因素的相關(guān)度。描述性統(tǒng)計(jì)分析是對(duì)各維度中的測(cè)量題目的均值、標(biāo)準(zhǔn)差、方差等描述性統(tǒng)計(jì)量碩士論文進(jìn)行統(tǒng)計(jì),了解各維度中題目設(shè)置的水平。方差分析又稱變異數(shù)分析或F檢驗(yàn),其目的是推斷兩組或多組資料的總體均數(shù)是否相同,檢驗(yàn)兩個(gè)或多個(gè)樣本均數(shù)的差異是否具有統(tǒng)計(jì)學(xué)意義。

      方差分析對(duì)客觀事物數(shù)量進(jìn)行依存關(guān)系的分析,主要刻畫兩類變量間線性相關(guān)的密切程度,其兩個(gè)變量全是隨機(jī)變量,且處于平等地位。兩變量之間的相關(guān)關(guān)系可以通過繪制散點(diǎn)圖或計(jì)算相關(guān)系數(shù)來反映。 3回歸模型及其統(tǒng)計(jì)檢驗(yàn)

      現(xiàn)實(shí)世界中,一個(gè)事物的運(yùn)動(dòng)變化,總是與其他事物相關(guān)聯(lián)。其中,有的還存在因果關(guān)系,這種因果關(guān)系有的是線性的,有的是非線性的。當(dāng)預(yù)測(cè)對(duì)象與其影響因素的關(guān)系是線性的,且只有一個(gè)影響因素時(shí),就可以用一元線性回歸方法建立其一元線性回歸預(yù)測(cè)模型,來表述和分析其因果關(guān)系;當(dāng)有兩個(gè)或多個(gè)影響因素同時(shí)作用于一個(gè)預(yù)測(cè)對(duì)象時(shí),則用多元線性回歸法建立多元線性回歸預(yù)測(cè)模型。

      本文就是以多對(duì)一的關(guān)系,因此,用多元線性回歸模型進(jìn)行統(tǒng)計(jì)檢驗(yàn)。對(duì)于多元線性回歸模型及其統(tǒng)計(jì)檢驗(yàn)描述如下:

      當(dāng)預(yù)測(cè)對(duì)象y同時(shí)受到多個(gè)解釋變量x1,x2,...,xm影響,且各個(gè)xj(j=1,2,...,m)與y都近似地表現(xiàn)為線性相關(guān)時(shí),則可建立多元線性回歸模型來進(jìn)行預(yù)測(cè)和分析,模型為:

      3)回歸方程整體顯著性檢驗(yàn)

      回歸模型的顯著性檢驗(yàn)包括兩個(gè)方面,即回歸方程的顯著性檢驗(yàn)和回歸系數(shù)的顯著

      性檢驗(yàn)。

      (1)回歸方程的顯著性檢驗(yàn)

      回歸方程的顯著性檢驗(yàn)用于檢驗(yàn)被解釋變量與所有解釋變量之間的線性關(guān)系是否顯著。回歸模型總體函數(shù)的線性關(guān)系是否顯著,其實(shí)質(zhì)就是判斷回歸平方和與殘差平方和之比值的大小問題,可以通過方差分析的思想,構(gòu)造F統(tǒng)計(jì)量來進(jìn)行檢驗(yàn),F(xiàn)檢驗(yàn)是用來檢驗(yàn)多元線性回歸模型的總體效果。

      (2)回歸系數(shù)顯著性檢驗(yàn)

      回歸方程總體顯著并不意味著每個(gè)解釋變量對(duì)被解釋變量的影響都是重要的,還需要對(duì)每個(gè)回歸系數(shù)的顯著性進(jìn)行檢驗(yàn)?;貧w系數(shù)顯著性檢驗(yàn)通過構(gòu)造t統(tǒng)計(jì)量來進(jìn)行,

      4)殘差正態(tài)性檢驗(yàn)

      殘差e是隨機(jī)擾動(dòng)項(xiàng)ε的體現(xiàn)。對(duì)殘差進(jìn)行分析的目的是檢驗(yàn)隨機(jī)擾動(dòng)項(xiàng)是否服從經(jīng)典假設(shè)。殘差分析的內(nèi)容包括殘差正態(tài)性檢驗(yàn)、序列相關(guān)檢驗(yàn)、異方差檢驗(yàn)等。本文應(yīng)用殘差的累計(jì)概率散點(diǎn)圖進(jìn)行殘差正態(tài)性檢驗(yàn)。

      5)異方差檢驗(yàn)

      異方差常常表現(xiàn)為殘差隨某個(gè)解釋變量取值的變化而變化,因此,檢驗(yàn)隨機(jī)擾動(dòng)項(xiàng)是否存在異方差可以通過繪制被解釋變量與解釋變量的散點(diǎn)圖來簡(jiǎn)單的判斷。如果散點(diǎn)圖呈帶狀分布,則不存在異方差;如果隨著解釋變量的增大,被解釋變量波動(dòng)逐漸增大或減少,則很可能存在異方差的現(xiàn)象。實(shí)踐中,常常使用加權(quán)最小二乘法消除異方差。

      7)多重共線性檢驗(yàn)

      所謂多重共線性是指各個(gè)解釋變量之間存在線性關(guān)系或接近線性關(guān)系的現(xiàn)象。多重共線性常常會(huì)導(dǎo)致回歸系數(shù)方差增大,從而使得t檢驗(yàn)難以通過。用SPSS檢驗(yàn)多重共線性共有四種方法:容忍度、方差膨脹因子、條件指數(shù)和方差比例。本文選用條件指數(shù)和比例方差這兩種方法來檢驗(yàn)共線性。

      篇10

      統(tǒng)計(jì)應(yīng)用作為數(shù)學(xué)的重要領(lǐng)域,在大多數(shù)情況下,數(shù)據(jù)被收集并且通過一定方法在系統(tǒng)中存儲(chǔ),重要策略被記錄,并應(yīng)用于其他領(lǐng)域。隨著數(shù)據(jù)恢復(fù)方法和統(tǒng)計(jì)分析方法的逐步集成,大數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)分析方法在財(cái)務(wù)管理中變得越來越重要。面對(duì)當(dāng)今全球化的壓力和經(jīng)濟(jì)市場(chǎng)的激烈競(jìng)爭(zhēng),使用財(cái)務(wù)管理的統(tǒng)計(jì)整合是提高有效管理效率,優(yōu)化資源分配和科學(xué)行為的有效步驟。通過市場(chǎng)經(jīng)濟(jì)的發(fā)展和經(jīng)濟(jì)水平的不斷提高,數(shù)據(jù)集成和財(cái)務(wù)管理水平運(yùn)用了大數(shù)據(jù)的統(tǒng)計(jì)分析。在建立大規(guī)模數(shù)據(jù)的經(jīng)濟(jì)增長(zhǎng)政策時(shí),技術(shù)在宏觀經(jīng)濟(jì)研究中起著重要作用。大數(shù)據(jù)統(tǒng)計(jì)分析的作用正在增加,其在管理中的用途正在進(jìn)一步擴(kuò)大。顯然,加強(qiáng)對(duì)經(jīng)濟(jì)發(fā)展大數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)的使用對(duì)促進(jìn)經(jīng)濟(jì)增長(zhǎng)和提高管理效率非常重要。

      一、大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域運(yùn)用的意義

      為響應(yīng)市場(chǎng)環(huán)境和公司治理內(nèi)容的變化而促進(jìn)使用公司治理統(tǒng)計(jì)數(shù)據(jù)的需求主要體現(xiàn)在兩個(gè)方面:

      (一)宏觀經(jīng)濟(jì)方面發(fā)展有若干規(guī)律。為了尋找有關(guān)經(jīng)濟(jì)發(fā)展的規(guī)律,強(qiáng)大的數(shù)據(jù)分析技術(shù)在宏觀經(jīng)濟(jì)學(xué)中的應(yīng)用非常重要。一方面,大數(shù)據(jù)分析統(tǒng)計(jì)數(shù)據(jù)用于從宏觀經(jīng)濟(jì)發(fā)展行業(yè)收集數(shù)據(jù),對(duì)相關(guān)行業(yè)信息進(jìn)行實(shí)證分析,并調(diào)查行業(yè)發(fā)展和行業(yè)問題。使用SPS,Stata和其他數(shù)據(jù)分析軟件,中國擁有最重要的發(fā)展法;同時(shí),發(fā)現(xiàn)工業(yè)發(fā)展規(guī)律,規(guī)范工業(yè)發(fā)展,開辟新的經(jīng)濟(jì)發(fā)展方式也很重要[1]。

      (二)企業(yè)經(jīng)營管理方面1.提升企業(yè)競(jìng)爭(zhēng)力的必然要求當(dāng)前,業(yè)務(wù)發(fā)展的競(jìng)爭(zhēng)越來越激烈。競(jìng)爭(zhēng)壓力主要?dú)w因于國內(nèi)市場(chǎng)經(jīng)濟(jì)帶來的經(jīng)濟(jì)化以及國內(nèi)市場(chǎng)競(jìng)爭(zhēng)激烈加入的外國公司的影響。公司必須面對(duì)激烈的市場(chǎng)競(jìng)爭(zhēng)。大眾市場(chǎng)信息的統(tǒng)計(jì)分析將調(diào)整生產(chǎn)和管理策略,并為業(yè)務(wù)發(fā)展的戰(zhàn)略調(diào)整作出有效的決策。2.提升企業(yè)管理水平的必然要求一方面,諸如運(yùn)營管理、財(cái)務(wù)管理、風(fēng)險(xiǎn)管理和企業(yè)資源管理等相關(guān)任務(wù)變得越來越復(fù)雜。需要統(tǒng)計(jì)分析方法來對(duì)豐富的業(yè)務(wù)操作信息進(jìn)行分類和匯總,為業(yè)務(wù)管理決策提供有效的信息。同時(shí),企業(yè)需要不斷滿足產(chǎn)品和服務(wù)生產(chǎn)方向的政治要求。由于需要與相關(guān)部門合作,例如運(yùn)營財(cái)務(wù)管理、規(guī)避財(cái)務(wù)風(fēng)險(xiǎn),因此需要建立相關(guān)部門的統(tǒng)計(jì)數(shù)據(jù),以提高決策效率[2]。

      二、大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域的運(yùn)用

      利用大數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)分析技術(shù)研究宏觀經(jīng)濟(jì)發(fā)展政策,對(duì)促進(jìn)行業(yè)發(fā)展至關(guān)重要。另一方面,如何獲取有關(guān)復(fù)雜數(shù)據(jù)管理的重要信息,在業(yè)務(wù)流程和管理方面為公司制定有效的決策是重中之重。關(guān)鍵在于掌握財(cái)務(wù)管理的大數(shù)據(jù)分析方法,并使用大數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)來分類和提供業(yè)務(wù)流程管理,隱藏的規(guī)則以及來自異常數(shù)據(jù)點(diǎn)的大量信息。為了應(yīng)對(duì)突況,管理人員需要制訂正確的決策計(jì)劃。本文主要討論宏觀經(jīng)濟(jì)應(yīng)用管理領(lǐng)域的統(tǒng)計(jì)數(shù)據(jù)分析方法,以及業(yè)務(wù)管理、財(cái)務(wù)管理、風(fēng)險(xiǎn)管理和管理的六個(gè)方面。如:

      (一)宏觀經(jīng)濟(jì)方面關(guān)于宏觀經(jīng)濟(jì)產(chǎn)業(yè)的運(yùn)作和發(fā)展有若干規(guī)律。為了找到宏觀經(jīng)濟(jì)發(fā)展方法,統(tǒng)計(jì)分析技術(shù)對(duì)于穩(wěn)定經(jīng)濟(jì)增長(zhǎng)和調(diào)查潛在的經(jīng)濟(jì)危機(jī)很重要。當(dāng)前,不僅學(xué)者,業(yè)務(wù)經(jīng)理也開始了解計(jì)算機(jī)技術(shù)的使用,并開始通過統(tǒng)計(jì)分析來發(fā)現(xiàn)工業(yè)發(fā)展中的若干問題,學(xué)習(xí)工業(yè)發(fā)展的原理。為了找出答案,我們選擇了相關(guān)的影響因素并采取了相應(yīng)的行動(dòng),采取措施提高工業(yè)發(fā)展效率。

      (二)企業(yè)運(yùn)營管理方面通常,在日常工作程序和工作相關(guān)領(lǐng)域中存在某些特定的業(yè)務(wù)管理和操作規(guī)則。另一方面,通過將統(tǒng)計(jì)信息應(yīng)用于業(yè)務(wù)的運(yùn)營和管理,公司可以通過分析大數(shù)據(jù)的統(tǒng)計(jì)信息來獲得規(guī)律。這將幫助公司節(jié)省一些資源,避免重復(fù)的任務(wù)并節(jié)省公司的業(yè)務(wù)資源。如果該政策是從科學(xué)的統(tǒng)計(jì)評(píng)估階段得出的,則情況與正常情況不同的企業(yè)高管應(yīng)仔細(xì)考慮潛在的風(fēng)險(xiǎn)。

      (三)企業(yè)營銷管理方面企業(yè)需要建立大型數(shù)據(jù)管理系統(tǒng)來收集有關(guān)企業(yè)提供的產(chǎn)品或服務(wù)的市場(chǎng)交易信息。因此,消費(fèi)者的熱點(diǎn)必須與受管理的信息系統(tǒng)對(duì)齊,以使其隱藏在協(xié)同交易信息中。確定消費(fèi)者對(duì)需求的偏好并確定消費(fèi)者需求。公司的主要產(chǎn)品和服務(wù)根據(jù)消費(fèi)者的喜好運(yùn)作,可以滿足消費(fèi)者的需求,替代市場(chǎng)上的非反應(yīng)性產(chǎn)品和服務(wù)。同時(shí),開發(fā)新產(chǎn)品和服務(wù)企業(yè)領(lǐng)導(dǎo)者可以提供有效的決策信息,并為消費(fèi)者創(chuàng)建新的熱點(diǎn)[3]。

      (四)企業(yè)財(cái)務(wù)管理方面應(yīng)用管理統(tǒng)計(jì)信息。它通過審查有關(guān)生產(chǎn)過程和運(yùn)營的統(tǒng)計(jì)數(shù)據(jù)(尤其是財(cái)務(wù)數(shù)據(jù)),進(jìn)行定性和定量分析,幫助評(píng)估相關(guān)活動(dòng),例如商業(yè)投資。財(cái)務(wù)管理是開展業(yè)務(wù)必不可少的部分,這對(duì)于減輕公司的財(cái)務(wù)風(fēng)險(xiǎn)和提高公司資源分配的效率至關(guān)重要。通過統(tǒng)計(jì)分析對(duì)商業(yè)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分類和分析,可以為高管、投資者和其他相關(guān)利益相關(guān)者提供有效的決策信息。

      (五)企業(yè)人力資源管理方面將統(tǒng)計(jì)應(yīng)用于公司的人力資源管理,并使用統(tǒng)計(jì)分析技術(shù)結(jié)合公司業(yè)務(wù)管理部門的特征,選擇適當(dāng)?shù)姆椒▉硖岣咝省H肆Y源管理很重要,人才基本上是企業(yè)的無形資產(chǎn),在部門保留相關(guān)的人力資源是業(yè)務(wù)發(fā)展的關(guān)鍵?;貧w站評(píng)估法用于預(yù)測(cè)企業(yè)發(fā)展的人力資源需求,動(dòng)態(tài)分析法用于根據(jù)狀態(tài)預(yù)測(cè)人力資源的變化。將這兩個(gè)方面結(jié)合起來可以大大提高業(yè)務(wù)資源的效率。

      (六)企業(yè)風(fēng)險(xiǎn)管理方面使用統(tǒng)計(jì)分析技術(shù)對(duì)業(yè)務(wù)流程中的大量業(yè)務(wù)信息進(jìn)行分類和分析,發(fā)現(xiàn)隱藏的規(guī)則和數(shù)據(jù)差異。重要的是,業(yè)務(wù)主管需要進(jìn)行預(yù)測(cè),做出正確的決定,解決事件并發(fā)現(xiàn)潛在危險(xiǎn)。意思是如果統(tǒng)計(jì)數(shù)據(jù)分析有些奇怪,則需要找出業(yè)務(wù)流程中具有的某些規(guī)則,因此業(yè)務(wù)主管需要尋找更多異常條件,尤其是財(cái)務(wù)管理,要注意關(guān)注狀態(tài)的變化。另一方面,對(duì)公司財(cái)務(wù)信息進(jìn)行統(tǒng)計(jì)分析是公司規(guī)避財(cái)務(wù)風(fēng)險(xiǎn)的有效手段之一。

      三、完善大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)

      管理領(lǐng)域運(yùn)用的措施在本文中,我們將了解如何從六個(gè)方面分析大數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù):宏觀經(jīng)濟(jì)活動(dòng)、業(yè)務(wù)管理、風(fēng)險(xiǎn)管理、財(cái)務(wù)管理、資源管理和財(cái)務(wù)管理人員。這被認(rèn)為是財(cái)務(wù)管理數(shù)據(jù)大規(guī)模統(tǒng)計(jì)方法的一種改進(jìn)。必須在三個(gè)方面進(jìn)行現(xiàn)場(chǎng)應(yīng)用:

      (一)社會(huì)宏觀經(jīng)濟(jì)層面盡管存在宏觀經(jīng)濟(jì)法則,但根據(jù)過去的經(jīng)驗(yàn),由于缺乏安全可靠的數(shù)據(jù)和分析方法,宏觀經(jīng)濟(jì)法則的分析則一直被認(rèn)為是偽科學(xué)。大數(shù)據(jù)分析技術(shù)提供了探索宏觀經(jīng)濟(jì)法則的機(jī)會(huì),大數(shù)據(jù)技術(shù)使用數(shù)據(jù)創(chuàng)建系統(tǒng),而使用許多信息技術(shù)的科學(xué)分析是宏觀經(jīng)濟(jì)法研究中的重要一步。特別是,某些行業(yè)使用行業(yè)信息和對(duì)經(jīng)濟(jì)趨勢(shì)預(yù)測(cè)的全面分析來幫助識(shí)別和克服復(fù)雜的工業(yè)發(fā)展挑戰(zhàn),可以提高宏觀經(jīng)濟(jì)發(fā)展效率。

      (二)企業(yè)經(jīng)營管理層面在公司上載和數(shù)據(jù)受限的情況下,企業(yè)很難優(yōu)化管理功能以提高性能[2]。由于業(yè)務(wù)經(jīng)理的管理理念和管理水平受到限制,因此很難斷定業(yè)務(wù)開發(fā)操作和管理流程是否存在問題。統(tǒng)計(jì)分析技術(shù)可用于計(jì)算和評(píng)估每個(gè)關(guān)鍵決策或業(yè)務(wù)戰(zhàn)略適合性的有效性。如果由于大數(shù)據(jù)分析技術(shù)而導(dǎo)致預(yù)期的數(shù)據(jù)銷量存在矛盾,該公司可以調(diào)整其總體戰(zhàn)略并進(jìn)行業(yè)務(wù)變更以優(yōu)化管理理念。

      (三)行業(yè)與行業(yè)之間存在著一定的鴻溝無論是快速消費(fèi)品行業(yè)、食品行業(yè)還是大型公司,其經(jīng)營理念和經(jīng)濟(jì)結(jié)構(gòu)在公司治理方面都存在根本差異。統(tǒng)計(jì)數(shù)據(jù)分析技術(shù)使公司能夠了解整個(gè)行業(yè)的消費(fèi)者需求的性質(zhì),分析社會(huì)經(jīng)濟(jì)狀況,能夠了解共同的業(yè)務(wù)條件和業(yè)務(wù)發(fā)展情況,并優(yōu)化或區(qū)分劣質(zhì)產(chǎn)品。在某些情況下,此更改是提高產(chǎn)品價(jià)格的高級(jí)更改,如果消耗量和消耗品減少,則可以降低產(chǎn)品價(jià)格。產(chǎn)品必須能夠升級(jí)以滿足顧客需求。產(chǎn)品行業(yè)、食品行業(yè)或大型行業(yè)具有不同的經(jīng)營理念和財(cái)務(wù)結(jié)構(gòu),還在進(jìn)行公司管理。但是,各個(gè)行業(yè)的業(yè)務(wù)方向取決于消費(fèi)者的需求。換句話說,公司開發(fā)了產(chǎn)品的功能并使產(chǎn)品的功能適應(yīng)消費(fèi)者的需求。對(duì)于公司而言,通過優(yōu)化生產(chǎn)結(jié)構(gòu)并提供更多定價(jià)和功能來說服更多消費(fèi)者也很重要。

      (四)企業(yè)財(cái)務(wù)管理層面財(cái)務(wù)管理貫穿公司治理的整個(gè)過程。公司財(cái)務(wù)管理非常有效,但是存在諸如財(cái)務(wù)管理的巨大風(fēng)險(xiǎn)之類的問題。對(duì)公司財(cái)務(wù)信息進(jìn)行統(tǒng)計(jì)分析是防范財(cái)務(wù)風(fēng)險(xiǎn)的有效手段之一。公司需要管理其日常收入和支出,并進(jìn)行大規(guī)模會(huì)計(jì)處理。企業(yè)可以使用大數(shù)據(jù)分析技術(shù)來監(jiān)測(cè)財(cái)務(wù)管理功能并確保標(biāo)準(zhǔn)化業(yè)務(wù)的財(cái)務(wù)安全。利用統(tǒng)計(jì)分析技術(shù)和大數(shù)據(jù),公司可以預(yù)測(cè)潛在的市場(chǎng)和行業(yè)風(fēng)險(xiǎn),以提供最佳解決方案,還可以提供分析大數(shù)據(jù)的方法,可以跟蹤異常并快速發(fā)現(xiàn)異常。

      四、結(jié)語

      本文首先從宏觀經(jīng)濟(jì)方面、企業(yè)經(jīng)營管理方面等兩個(gè)方面對(duì)大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域運(yùn)用的意義進(jìn)行了分析,然后從宏觀經(jīng)濟(jì)方面、企業(yè)運(yùn)營管理方面、企業(yè)營銷管理方面、企業(yè)財(cái)務(wù)管理方面、企業(yè)人力資源管理方面以及企業(yè)風(fēng)險(xiǎn)管理方面等方面對(duì)大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域的運(yùn)用進(jìn)行了分析,最后從社會(huì)宏觀經(jīng)濟(jì)層面、企業(yè)經(jīng)營管理層面、行業(yè)與行業(yè)之間存在著一定的鴻溝以及企業(yè)財(cái)務(wù)管理層面等方面提出了完善大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域運(yùn)用的措施。大數(shù)據(jù)分析技術(shù)被廣泛用于宏觀經(jīng)濟(jì)預(yù)測(cè)、業(yè)務(wù)管理和公司風(fēng)險(xiǎn)管理,它在優(yōu)化公司治理和運(yùn)營結(jié)構(gòu),有效改善公司治理以及提高公司統(tǒng)一性和核心競(jìng)爭(zhēng)力等方面發(fā)揮著重要作用,可以使公司在激烈的市場(chǎng)競(jìng)爭(zhēng)中有一席之地。

      【參考文獻(xiàn)】

      [1]張琳.大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域中的運(yùn)用淺析[J].營銷界,2019(38):291-292.

      [2]杜珉.大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域中的運(yùn)用探析[J].山西農(nóng)經(jīng),2019(12):27.

      [3]陳雪琴.大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域中的應(yīng)用[J].山西農(nóng)經(jīng),2019(5):37.

      篇11

      doi:10.3969/j.issn.1673 - 0194.2017.02.056

      [中圖分類號(hào)]F270 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2017)02-00-01

      0 引 言

      隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們?cè)絹碓搅?xí)慣于網(wǎng)絡(luò)購物。在網(wǎng)上購物或刷微博時(shí),常常會(huì)看到“猜你喜歡”“可能感興趣的商品”等廣告欄目。而這些內(nèi)容都是大數(shù)據(jù)產(chǎn)業(yè)的成果,是面向大數(shù)據(jù)視野得到市場(chǎng)分析的結(jié)果。掌握這種市場(chǎng)分析方法,能幫助企業(yè)更好地了解消費(fèi)者的需求,進(jìn)而更好地開展?fàn)I銷活動(dòng)。

      1 大數(shù)據(jù)視野下市場(chǎng)分析的問題

      在互聯(lián)網(wǎng)得到普及應(yīng)用的情況下,大數(shù)據(jù)時(shí)代已經(jīng)正式到來。目前,互聯(lián)網(wǎng)上的數(shù)據(jù)每年都會(huì)增長(zhǎng)50%。而隨著運(yùn)動(dòng)、濕度和溫度等各類傳感器的出現(xiàn),企業(yè)接觸到的數(shù)據(jù)信息也越來越多,而這些數(shù)據(jù)在給企業(yè)帶來挑戰(zhàn)的同時(shí),也為企業(yè)提供了新的市場(chǎng)增長(zhǎng)空間。加強(qiáng)數(shù)據(jù)挖掘和分析,能幫助企業(yè)精準(zhǔn)地找到用戶,從而通過降低營銷成本、提高銷售率實(shí)現(xiàn)利益最大化。因此,企業(yè)應(yīng)面向大數(shù)據(jù)進(jìn)行市場(chǎng)分析研究,以便通過統(tǒng)計(jì)和分析超大量的樣本數(shù)據(jù),獲得更接近市場(chǎng)真實(shí)狀態(tài)的市場(chǎng)研究成果。

      2 大數(shù)據(jù)視野下的市場(chǎng)分析方法

      2.1 基于大數(shù)據(jù)的市場(chǎng)調(diào)研方法

      在過去較長(zhǎng)的時(shí)間里,市場(chǎng)分析是以實(shí)地調(diào)查為前提,或是通過問卷調(diào)查和提供抽樣技術(shù),其目的均是為了獲得消費(fèi)者的答案。進(jìn)入大數(shù)據(jù)時(shí)代后,企業(yè)開始通過網(wǎng)絡(luò)調(diào)研進(jìn)行市場(chǎng)調(diào)查。這種方法,能夠方便、快捷且經(jīng)濟(jì)地完成市場(chǎng)調(diào)查。具體來講,就是企業(yè)通過門戶網(wǎng)站完成市場(chǎng)調(diào)研模塊的建立,然后將新產(chǎn)品郵寄給消費(fèi)者,并要求消費(fèi)者在試用后進(jìn)行網(wǎng)上調(diào)查問卷的填寫,這樣就能夠投入較少的人力和物力來完成市場(chǎng)調(diào)研。由于這種市場(chǎng)分析方法具有一定的互動(dòng)性,能夠在概念階段利用虛擬仿真技術(shù)完成產(chǎn)品測(cè)試,從而使消費(fèi)者參與到產(chǎn)品的開發(fā),進(jìn)而使市場(chǎng)需求得到更好的滿足。

      2.2 基于大數(shù)據(jù)的市場(chǎng)信息挖掘

      面向大數(shù)據(jù)視野研究市場(chǎng)分析的問題,企業(yè)可以發(fā)現(xiàn)有效的市場(chǎng)分析需要大量的數(shù)據(jù)信息提供支撐。所以,企業(yè)還要使用基于大數(shù)據(jù)的市場(chǎng)信息挖掘技術(shù),以便對(duì)市場(chǎng)需求進(jìn)行更好的分析。首先,在智能手機(jī)逐步得到普及應(yīng)用的情況下,企業(yè)還應(yīng)在移動(dòng)終端開展市場(chǎng)研究,借助移動(dòng)APP完成消費(fèi)信息的采集。企業(yè)對(duì)這些數(shù)據(jù)進(jìn)行深入分析,能夠完成產(chǎn)品回購率、產(chǎn)品促銷獎(jiǎng)勵(lì)評(píng)估和購買時(shí)點(diǎn)等內(nèi)容的分析。其次,在零售終端,POS機(jī)得到較好的建設(shè)和應(yīng)用下,企業(yè)可以通過掃描商品條形碼完成購買地點(diǎn)、名稱和零售價(jià)等信息的采集,進(jìn)而使其更好地掌握商業(yè)渠道的動(dòng)態(tài)信息。此外,消費(fèi)者往往具有從眾性,企業(yè)加強(qiáng)對(duì)社交平臺(tái)的信息挖掘能更好的掌握消費(fèi)潮流。比如,利用微博評(píng)論可以完成消費(fèi)者對(duì)某種產(chǎn)品偏好的了解,從而完成消費(fèi)者真實(shí)消費(fèi)心理及態(tài)度的分析,進(jìn)而更好地掌握市場(chǎng)信息。

      2.3 多學(xué)科分析方法的引入

      以往的市場(chǎng)分析通常需要采取社會(huì)學(xué)調(diào)查方法完成資料搜集,再利用數(shù)據(jù)分析軟件完成數(shù)據(jù)分析,并獲得描述性或預(yù)測(cè)性的分析報(bào)告。在大數(shù)據(jù)時(shí)代,由于要完成海量數(shù)據(jù)的分析,因此,可以引入相對(duì)論、整體論和跨文化比較研究等多個(gè)學(xué)科的分析方法,以滿足大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的需要。就目前來看,大數(shù)據(jù)來自各種移動(dòng)終端和網(wǎng)絡(luò),其是能反映消費(fèi)者行動(dòng)過程和軌跡的數(shù)據(jù)記錄,采用傳統(tǒng)的市場(chǎng)分析方法難以對(duì)這種過程性數(shù)據(jù)進(jìn)行分析,而引入以分析過程見長(zhǎng)的人類學(xué)的分析方法,則能對(duì)市場(chǎng)消費(fèi)者的行動(dòng)過程進(jìn)行描述,從而使消費(fèi)者的行動(dòng)趨向得到揭示。

      2.4 定量與定性分析方法的結(jié)合

      采取定性或定量這兩種分析方法中的一種,可以完成片段式或截面式數(shù)據(jù)內(nèi)容的分析。但在大數(shù)據(jù)時(shí)代,數(shù)據(jù)變得更加復(fù)雜,因此可以使用定量和定性相結(jié)合的分析方法進(jìn)行市場(chǎng)分析。一方面,企業(yè)通過網(wǎng)絡(luò)調(diào)研完成大量數(shù)據(jù)信息的搜集,從而采取定量分析法進(jìn)行市場(chǎng)分析研究。這種方法,能夠使市場(chǎng)研究人員成為“隱形人”,從而更加客觀地觀察消費(fèi)者,并通過對(duì)超大樣本量進(jìn)行統(tǒng)計(jì)分析,完成市場(chǎng)狀態(tài)的分析。另一方面,針對(duì)文本、視頻和圖形等非量化數(shù)據(jù),可以通過智能化檢索和分析來完成定性分析,以便在保護(hù)消費(fèi)者隱私的基礎(chǔ)上,更好地分析市場(chǎng)需求。

      2.5 數(shù)據(jù)復(fù)雜屬性的還原

      在傳統(tǒng)的市場(chǎng)分析工作中,可以將數(shù)據(jù)看成是一些片段而進(jìn)行分析。而這樣的分析,實(shí)際上是脫離具體情境和社會(huì)關(guān)系的分析過程,雖然可以根據(jù)自身經(jīng)驗(yàn)和想象來進(jìn)行情境原,但得到的研究結(jié)果卻不夠客觀和科學(xué)。在大數(shù)據(jù)背景下,企業(yè)可以使用能夠還原數(shù)據(jù)復(fù)雜屬性的市場(chǎng)分析方法,以便更好地完成、嵌入某些社會(huì)關(guān)系的消費(fèi)者的購買行動(dòng)和軌跡的分析,進(jìn)而獲得更加有效及真實(shí)的分析結(jié)果。因此,使用的市場(chǎng)分析方法應(yīng)更關(guān)注數(shù)據(jù)的社會(huì)背景,從而更好地完成大數(shù)據(jù)的整合與分析。

      3 結(jié) 語

      在大數(shù)據(jù)時(shí)代,企業(yè)要選擇適當(dāng)?shù)氖袌?chǎng)分析方法,以便使自身的數(shù)據(jù)處理能力得到提高,從而通過獲取的高質(zhì)量的數(shù)據(jù)信息來提高自身競(jìng)爭(zhēng)力,進(jìn)而更好地適應(yīng)社會(huì)發(fā)展的要求。因此,希望本文對(duì)大數(shù)據(jù)視野下的市場(chǎng)分析方法展開的研究,可以為相關(guān)工作的開展帶來啟示。

      主要參考文獻(xiàn)