首頁 > 優(yōu)秀范文 > 數(shù)據(jù)挖掘技術(shù)分析論文
時(shí)間:2023-04-19 16:57:07
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)挖掘技術(shù)分析論文范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!
摘要:學(xué)習(xí)成績是評(píng)價(jià)學(xué)生素質(zhì)的重要方面,也是教師檢驗(yàn)教學(xué)能力、反思教學(xué)成果的重要標(biāo)準(zhǔn)。利用大連民族大學(xué)統(tǒng)計(jì)學(xué)專業(yè)本科生有關(guān)數(shù)據(jù)(專業(yè)基礎(chǔ)課成績、平時(shí)成績和回歸分析期末成績),建立多元線性回歸模型,對(duì)影響回歸分析期末成績的因素進(jìn)行深入研究,其結(jié)果對(duì)今后的教學(xué)方法改進(jìn)和教學(xué)質(zhì)量提高具有十分重要的指導(dǎo)意義。
關(guān)鍵詞:多元線性回歸;專業(yè)基礎(chǔ)課成績;平時(shí)成績;期末成績
為了實(shí)現(xiàn)教學(xué)目標(biāo),提高教學(xué)質(zhì)量,有效提高學(xué)生學(xué)習(xí)成績是很有必要的。我們知道專業(yè)基礎(chǔ)課成績必定影響專業(yè)課成績,而且平時(shí)成績也會(huì)影響專業(yè)課成績,這兩類成績與專業(yè)課成績基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問題,本文主要選取了2016級(jí)統(tǒng)計(jì)專業(yè)50名學(xué)生的四門專業(yè)基礎(chǔ)課成績以及回歸分析的平時(shí)成績和期末成績,運(yùn)用SPSS統(tǒng)計(jì)軟件進(jìn)行分析研究,尋求回歸分析期末成績影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強(qiáng)化學(xué)生的后續(xù)學(xué)習(xí)和提高老師的教學(xué)質(zhì)量提供了有利依據(jù)。
一、數(shù)據(jù)選取
回歸分析是統(tǒng)計(jì)專業(yè)必修課,也是統(tǒng)計(jì)學(xué)中的一個(gè)非常重要的分支,它在自然科學(xué)、管理科學(xué)和社會(huì)、經(jīng)濟(jì)等領(lǐng)域應(yīng)用十分廣泛。因此研究影響統(tǒng)計(jì)學(xué)專業(yè)回歸分析成績的相關(guān)性是十分重要的。
選取了統(tǒng)計(jì)專業(yè)50名學(xué)生的專業(yè)基礎(chǔ)課成績(包括數(shù)學(xué)分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時(shí)成績和期末成績,結(jié)合多元線性回歸的基礎(chǔ)理論知識(shí)[1-2],建立多元回歸方程,進(jìn)行深入研究,可以直觀、高效、科學(xué)地分析各種因素對(duì)回歸分析期末成績?cè)斐傻挠绊憽?/p>
二、建立多元線性回歸模型1及數(shù)據(jù)分析
運(yùn)用SPSS統(tǒng)計(jì)軟件對(duì)回歸分析期末成績的影響因素進(jìn)行研究,可以得到準(zhǔn)確、科學(xué)合理的數(shù)據(jù)結(jié)果,全面分析評(píng)價(jià)學(xué)生考試成績,對(duì)教師以后的教學(xué)工作和學(xué)生的學(xué)習(xí)會(huì)有較大幫助。自變量x1表示數(shù)學(xué)分析成績,x2表示高等代數(shù)成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時(shí)成績;因變量y1表示回歸分析期末成績,根據(jù)經(jīng)驗(yàn)可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關(guān)系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個(gè)基本假設(shè),
1.隨機(jī)誤差項(xiàng)具有零均值和等方差,即
(2)
這個(gè)假定通常稱為高斯-馬爾柯夫條件。
2.正態(tài)分布假定條件
由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機(jī)變量y1服從n維正態(tài)分布。
從表1描述性統(tǒng)計(jì)表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標(biāo)準(zhǔn)差分別為10.847,11.531,8.929,9.018,9.221,y1的標(biāo)準(zhǔn)差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對(duì)y1的影響不顯著,其他自變量對(duì)y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數(shù)據(jù)分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F(xiàn)統(tǒng)計(jì)量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關(guān)系是顯著的。
四、結(jié)束語
通過對(duì)上述模型進(jìn)行分析,即各個(gè)自變量對(duì)因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當(dāng)數(shù)學(xué)分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當(dāng)解析幾何成績、概率論成績和平時(shí)成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對(duì)學(xué)生專業(yè)基礎(chǔ)課成績、平時(shí)成績與回歸分析期末成績之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學(xué)課堂,提高教師意識(shí),注重專業(yè)基礎(chǔ)課教學(xué)的重要性,同時(shí),當(dāng)學(xué)生平時(shí)成績不好時(shí),隨時(shí)調(diào)整教學(xué)進(jìn)度提高學(xué)生平時(shí)學(xué)習(xí)能力;另一方面使學(xué)生認(rèn)識(shí)到,為了更好地掌握回歸分析知識(shí),應(yīng)加強(qiáng)專業(yè)基礎(chǔ)課的學(xué)習(xí),提高平時(shí)學(xué)習(xí)的積極性。因此,通過對(duì)回歸分析期末成績影響因素的研究能有效的解決教師教學(xué)和學(xué)生學(xué)習(xí)中的許多問題。
統(tǒng)計(jì)學(xué)畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專業(yè)“數(shù)據(jù)挖掘”課程的教學(xué)探討論文
摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)的蓬勃發(fā)展,造就了一個(gè)嶄新的大數(shù)據(jù)時(shí)代,這些變化對(duì)統(tǒng)計(jì)學(xué)專業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應(yīng)用型課程,被廣泛納入統(tǒng)計(jì)學(xué)本科專業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點(diǎn),結(jié)合實(shí)際教學(xué)經(jīng)驗(yàn),對(duì)統(tǒng)計(jì)學(xué)本科專業(yè)開設(shè)數(shù)據(jù)挖掘課程進(jìn)行教學(xué)探討,以期達(dá)到更好的教學(xué)效果。
關(guān)鍵詞:統(tǒng)計(jì)學(xué)專業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學(xué)
一、引言
通常人們總結(jié)大數(shù)據(jù)有“4V”的特點(diǎn):Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價(jià)值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價(jià)值,是這個(gè)時(shí)代帶給我們的機(jī)遇與挑戰(zhàn),同時(shí)對(duì)數(shù)據(jù)分析技術(shù)的要求也相應(yīng)提高。傳統(tǒng)教學(xué)模式并不能適應(yīng)和滿足學(xué)生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對(duì)于常常和數(shù)據(jù)打交道的統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生來說,更是如此。
二、課程教學(xué)探討
針對(duì)統(tǒng)計(jì)學(xué)本科專業(yè)的學(xué)生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙?jí)或者四年級(jí)所開設(shè),他們?cè)谇捌谝呀?jīng)學(xué)習(xí)完統(tǒng)計(jì)學(xué)、應(yīng)用回歸分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學(xué)內(nèi)容選擇上要有所取舍,同時(shí)把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學(xué)生全部掌握,對(duì)學(xué)生來說是不太現(xiàn)實(shí)的,需要為統(tǒng)計(jì)學(xué)專業(yè)本科生“個(gè)性化定制”教學(xué)內(nèi)容。
(1)“數(shù)據(jù)挖掘”課程的教學(xué)應(yīng)該偏重于應(yīng)用,更注重培養(yǎng)學(xué)生解決問題的能力。因此,教學(xué)目標(biāo)應(yīng)該是:使學(xué)生樹立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學(xué)生的實(shí)際動(dòng)手能力,為在大數(shù)據(jù)時(shí)代,進(jìn)一步學(xué)習(xí)各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個(gè)目標(biāo),教學(xué)內(nèi)容應(yīng)以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學(xué)生了解和掌握各種技術(shù)和方法的來龍去脈、功能及優(yōu)缺點(diǎn);以算法講解為輔,由于有R語言、python等軟件,學(xué)生了解典型的算法,能用軟件把算法實(shí)現(xiàn),對(duì)軟件的計(jì)算結(jié)果熟練解讀,對(duì)各種算法的改進(jìn)和深入研究則不作要求,有興趣的同學(xué)可以自行課下探討。
(2)對(duì)于已經(jīng)學(xué)過的內(nèi)容不再詳細(xì)講解,而是側(cè)重介紹它們?cè)跀?shù)據(jù)挖掘中的功能及綜合應(yīng)用。在新知識(shí)的講解過程中,注意和已學(xué)過知識(shí)的融匯貫通,既復(fù)習(xí)鞏固了原來學(xué)過的知識(shí),同時(shí)也無形中降低了新知識(shí)的難度。比如,在數(shù)據(jù)挖掘模型評(píng)估中,把混淆矩陣、ROC曲線、誤差平方和等知識(shí)點(diǎn)就能和之前學(xué)過的內(nèi)容有機(jī)聯(lián)系起來。
(3)結(jié)合現(xiàn)實(shí)數(shù)據(jù),讓學(xué)生由“被動(dòng)接收”式的學(xué)習(xí)變?yōu)椤爸鲃?dòng)探究”型的學(xué)習(xí)。在講解每種方法和技術(shù)之后,增加一個(gè)或幾個(gè)案例,以加強(qiáng)學(xué)生對(duì)知識(shí)的理解。除了充分利用已有的國內(nèi)外數(shù)據(jù)資源,還可以鼓勵(lì)學(xué)生去搜集自己感興趣的或者國家及社會(huì)大眾關(guān)注的問題進(jìn)行研究,提升學(xué)生學(xué)習(xí)的成就感。
(4)充分考慮前述提到的三點(diǎn),課程內(nèi)容計(jì)劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實(shí)踐應(yīng)用性,所以需要結(jié)合平時(shí)課堂表現(xiàn)、平時(shí)實(shí)驗(yàn)項(xiàng)目完成情況和期末考試來綜合評(píng)定成績。采取期末閉卷理論考試占50%,平時(shí)實(shí)驗(yàn)項(xiàng)目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評(píng)價(jià)學(xué)生的表現(xiàn)。
三、教學(xué)效果評(píng)估
經(jīng)過幾輪的教學(xué)實(shí)踐后,取得了如下的教學(xué)效果:
(1)學(xué)生對(duì)課程的興趣度在提升,課下也會(huì)不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問題后會(huì)一起交流與討論。
(2)在大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目或者數(shù)據(jù)分析的有關(guān)競賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來越多,部分同學(xué)的成果還能在期刊上正式發(fā)表,有的同學(xué)還能在競賽中取得優(yōu)秀的成績。
(3)統(tǒng)計(jì)學(xué)專業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來完成的論文越來越多,論文的完成質(zhì)量也在不斷提高。
(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學(xué)生的學(xué)習(xí)興趣得以激發(fā)。
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)30-7150-04
隨著數(shù)字信息化社會(huì)的飛速發(fā)展,計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫技術(shù),通過對(duì)教務(wù)管理的大量數(shù)據(jù)進(jìn)行多層次、多維度的加工處理,從而實(shí)現(xiàn)人性化管理,為科學(xué)決策提供支持。
畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計(jì)劃中衡量教學(xué)質(zhì)量的重要指標(biāo)。提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程,為研究在當(dāng)前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對(duì)影響畢業(yè)論文成績管理的多方面因素進(jìn)行了深入分析和挖掘,以期發(fā)現(xiàn)對(duì)學(xué)校畢業(yè)論文教學(xué)管理有用的知識(shí),將這些知識(shí)應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益,為學(xué)校未來的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過分析每一個(gè)具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點(diǎn):其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個(gè)對(duì)大量數(shù)據(jù)處理的過程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域,它由人工智能、機(jī)器學(xué)習(xí)的方法起步,并與統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫為研究對(duì)象,圍繞面對(duì)應(yīng)用,為決策者提供服務(wù)。
數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計(jì)分析方法、歸納學(xué)習(xí)方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學(xué)方法。歸納學(xué)習(xí)法是目前重點(diǎn)研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習(xí)法中的決策樹技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學(xué)習(xí)為基礎(chǔ)的歸納推算法,著眼于從一組無序的,無規(guī)則的事例中推斷出類似條件下會(huì)得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個(gè)布爾函數(shù)[5]。決策樹歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。建模過程中,即樹的生長過程是不斷的把數(shù)據(jù)進(jìn)行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個(gè)互不交叉的子集,通常用來形成分類器和預(yù)測模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結(jié)構(gòu),是一種知識(shí)的表現(xiàn)形式。為了對(duì)未知樣本進(jìn)行分類,生成具體的分類規(guī)則,信息樣本的各個(gè)屬性值要在決策樹上進(jìn)行測試。主要分為兩個(gè)階段:在第一階段中生成樹。決策樹最上面的節(jié)點(diǎn)為根節(jié)點(diǎn),是整個(gè)決策樹的開始,然后遞歸的進(jìn)行數(shù)據(jù)分區(qū),每次切分對(duì)應(yīng)一個(gè)問題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn);在第二階段中對(duì)樹進(jìn)行修剪,此過程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹的過匹配,進(jìn)而保證生成決策樹的有效性和合理性。當(dāng)一個(gè)節(jié)點(diǎn)中的所有數(shù)據(jù)都屬于同一類別,或者沒有屬性可以再用于數(shù)據(jù)進(jìn)行分割時(shí),分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本中具有信息增益值的屬性作為測試屬性,對(duì)樣本的劃分則依據(jù)測試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來的,它繼承了ID3算法的全部優(yōu)點(diǎn),并增加了新的功能改進(jìn)了ID3算法中的不足,可以進(jìn)行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機(jī)的決策樹算法中,C4.5算法不僅分類準(zhǔn)確而且執(zhí)行速度快。
C4.5通過兩個(gè)步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計(jì)算各個(gè)屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點(diǎn),自頂向下生成決策樹。C4.5算法構(gòu)造決策樹的基本策略如下:
首先計(jì)算出給定樣本所需的期望信息,設(shè)S為一個(gè)包含s個(gè)數(shù)據(jù)樣本的集合,對(duì)于類別屬性,可以取m個(gè)不同取值,分別對(duì)應(yīng)于m個(gè)不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個(gè)數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計(jì)。
接著,計(jì)算當(dāng)前樣本集合所需用的信息熵,設(shè)一個(gè)屬性A具有n個(gè)不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個(gè)子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計(jì)算的熵為:
然后利用屬性A對(duì)當(dāng)前分支結(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分計(jì)算信息增益:
最后,求信息增益率,表達(dá)式為:
C4.5算法的偽代碼如下:
輸入:訓(xùn)練樣本Samples;目標(biāo)屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創(chuàng)建根節(jié)點(diǎn)root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結(jié)點(diǎn)樹root;
4)If Attributes為空Then;
5)返回單結(jié)點(diǎn)樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測試屬性列表Attributes中的屬性;
8)IF測試屬性是連續(xù)的Then;
9)對(duì)測試屬性進(jìn)行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計(jì)算測試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對(duì)已建立的決策樹計(jì)算每個(gè)結(jié)點(diǎn)的分類錯(cuò)誤,進(jìn)行剪枝,并返回根結(jié)點(diǎn)Root。
3 畢業(yè)論文成績管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績數(shù)據(jù)進(jìn)行提煉,所產(chǎn)生的結(jié)果和信息會(huì)對(duì)以后的教學(xué)管理工作提供有用的信息,進(jìn)而獲得更好的管理效益。解決問題的重點(diǎn)在于怎樣對(duì)學(xué)生的畢業(yè)論文成績進(jìn)行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹技術(shù)挖掘信息時(shí),主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘?qū)ο?,明確挖掘目標(biāo)是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績,旨在通過對(duì)大量成績數(shù)據(jù)進(jìn)行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績的各方面因素,正確的針對(duì)問題擬定分析過程。
2)獲取相關(guān)知識(shí):數(shù)據(jù)是挖掘知識(shí)最原始的資料,根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問題的數(shù)據(jù)收集完成之后,與目標(biāo)信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對(duì)學(xué)生進(jìn)行調(diào)查才能的得到。
3)數(shù)據(jù)預(yù)處理:此過程中是對(duì)已收集的大量數(shù)據(jù)進(jìn)行整合與檢查。因?yàn)榇娣旁跀?shù)據(jù)庫中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對(duì)數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對(duì)預(yù)處理后的數(shù)據(jù)建立分析模型,對(duì)于特定的任務(wù),需要選擇合適的算法來建立一個(gè)準(zhǔn)確的適合挖掘算法的分析模型。本文采用決策樹技術(shù)進(jìn)行分類建模來解決相應(yīng)的問題。
5)分類挖掘知識(shí)和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實(shí)現(xiàn)的功能和任務(wù)來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當(dāng)?shù)某绦蛟O(shè)計(jì)語言來實(shí)現(xiàn)該算法,對(duì)凈化和轉(zhuǎn)換過得數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘,獲得有價(jià)值的分析信息。
6)知識(shí)表示:將數(shù)據(jù)挖掘得到的分析信息進(jìn)一步的解釋和評(píng)價(jià),生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應(yīng)用于實(shí)踐。
7)知識(shí)應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識(shí)針對(duì)性的開展畢業(yè)設(shè)計(jì)的教學(xué)活動(dòng),進(jìn)一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績主要的因素不是指導(dǎo)教師的職稱,學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對(duì)教師的素質(zhì)及能力培養(yǎng),合理的分配每個(gè)教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。
在高校教學(xué)數(shù)字化的時(shí)代趨勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)來挖掘提取教學(xué)工作中的全面而有價(jià)值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進(jìn)教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻(xiàn):
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005(2):150-154.
1.引言
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的普及與應(yīng)用給人們的生活帶來了翻天覆地的變化,同時(shí)在網(wǎng)絡(luò)上產(chǎn)生了大量雜亂無章的數(shù)據(jù)。而網(wǎng)格技術(shù)、Web技術(shù)的發(fā)展,為人們從分布的網(wǎng)絡(luò)資源中尋找有價(jià)值的信息提供了新的技術(shù)支持,同時(shí)也產(chǎn)生了許多基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)。而數(shù)據(jù)挖掘算法又是決定一個(gè)數(shù)據(jù)挖掘系統(tǒng)性能的主要衡量指標(biāo)。任何軟件系統(tǒng)的設(shè)計(jì)都離不開算法,數(shù)據(jù)挖掘技術(shù)的執(zhí)行效率也與數(shù)據(jù)挖掘算法有關(guān),隨著數(shù)據(jù)庫技術(shù)與數(shù)據(jù)挖掘技術(shù)的成熟與發(fā)展,像分類、聚類、決策樹、關(guān)聯(lián)等等數(shù)據(jù)挖掘算法已相當(dāng)成熟,可以研究借鑒現(xiàn)有數(shù)據(jù)挖掘方法、數(shù)據(jù)挖掘模式、數(shù)據(jù)挖掘流程,建立一個(gè)基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)。筆者以眾多數(shù)據(jù)挖掘算法中的聚類分析算法為例,介紹基于GT4(Globus Tookit 4.0的簡稱,GT4的核心開發(fā)工具包(Java Web Service Core))的數(shù)據(jù)挖掘算法的設(shè)計(jì)過程。
聚類分析(Clustering Analysis)是一個(gè)應(yīng)用比較廣泛的數(shù)據(jù)挖掘算法,算法的理論研究與實(shí)踐應(yīng)用都已經(jīng)很成熟,把這一成熟的理論應(yīng)用于基于網(wǎng)格的分布式系統(tǒng)中,會(huì)大大提高數(shù)據(jù)挖掘的效率。本文主要研究如何將聚類分析的CURE(Cluster Using Representation)算法和K-平均方法算法應(yīng)用于基于GT4數(shù)據(jù)挖掘系統(tǒng)中。
2.系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
基于GT4數(shù)據(jù)挖掘系統(tǒng)的數(shù)據(jù)源是分布式數(shù)據(jù)源,分布式數(shù)據(jù)源是指在物理上分布而邏輯上集中的數(shù)據(jù)源系統(tǒng)。在該系統(tǒng)中,處在這個(gè)網(wǎng)格中的每臺(tái)計(jì)算機(jī)就是這個(gè)網(wǎng)格的一個(gè)節(jié)點(diǎn),稱之為網(wǎng)格節(jié)點(diǎn)。在眾多的節(jié)點(diǎn)中,要有一個(gè)網(wǎng)格節(jié)點(diǎn)來控制和管理其他的節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)就叫做網(wǎng)格中心控制節(jié)點(diǎn),決策支持都是由網(wǎng)格中心控制節(jié)點(diǎn)完成的。如果要完成某個(gè)數(shù)據(jù)挖掘任務(wù),則可以由空閑的網(wǎng)格節(jié)點(diǎn)先按挖掘需求來完成本節(jié)點(diǎn)的挖掘任務(wù),再由網(wǎng)格中心控制節(jié)點(diǎn)來匯總每個(gè)節(jié)點(diǎn)的數(shù)據(jù)挖掘情況。局部網(wǎng)格節(jié)點(diǎn)管理的信息具有局限性,涉及的范圍較小,主要完成單個(gè)節(jié)點(diǎn)數(shù)據(jù)的管理,對(duì)局部的數(shù)據(jù)挖掘結(jié)果進(jìn)行匯總分析,但是這些局部節(jié)點(diǎn)的數(shù)據(jù)與全局節(jié)點(diǎn)的數(shù)據(jù)又是有一定關(guān)聯(lián)的。根據(jù)以上的分析可知,網(wǎng)格平臺(tái)下的數(shù)據(jù)挖掘任務(wù)由全局?jǐn)?shù)據(jù)挖掘與局部數(shù)據(jù)挖掘共同完成。
3.算法的Web Service設(shè)計(jì)
3.1 全局聚類算法的Web Service設(shè)計(jì)
網(wǎng)格環(huán)境下的全局控制網(wǎng)格節(jié)點(diǎn)與局部網(wǎng)格節(jié)點(diǎn)間的關(guān)系我們可以理解為上下層的關(guān)系,這樣就可以借鑒基于層次的聚類分析算法,按照層次的自底向上的聚類方式,把全局控制節(jié)點(diǎn)當(dāng)成是層次聚類的頂層。本課題全局聚類算法借鑒傳統(tǒng)的利用代表點(diǎn)聚類算法CURE。
CURE算法將層次方法與劃分方法結(jié)合到一起,選用有代表性的、固定數(shù)目的空間點(diǎn)來表示一個(gè)聚類。算法在開始時(shí),每個(gè)點(diǎn)都是一個(gè)簇,然后將距離最近的簇結(jié)合,一直到簇的個(gè)數(shù)為要求的K。首先把每個(gè)數(shù)據(jù)點(diǎn)即局部網(wǎng)格節(jié)點(diǎn)看成一個(gè)聚類,然后再以一個(gè)特定的收縮因子向中心收縮它們。
CURE算法的主要執(zhí)行步驟如下:
(1)從數(shù)據(jù)源樣本對(duì)象中隨機(jī)抽取樣本集,生成一個(gè)樣本集合S;
(2)將樣本集合S分割為一組劃分,每個(gè)劃分大小為S/p;
(3)對(duì)每個(gè)劃分部分進(jìn)行局部聚類;
(4)通過隨機(jī)采樣剔除聚類增長太慢的異常數(shù)據(jù);
(5)對(duì)局部聚類進(jìn)行聚類,落在每個(gè)新形成的聚類中的代表性點(diǎn),則根據(jù)用戶定義的收縮因子收縮或移向聚類中心;
(6)用相應(yīng)的標(biāo)記對(duì)聚類中的數(shù)據(jù)標(biāo)上聚類號(hào)。
有了數(shù)據(jù)挖掘算法,就可以完成數(shù)據(jù)挖掘任務(wù)了。全局聚類算法的主要功能是響應(yīng)用戶的數(shù)據(jù)挖掘請(qǐng)求,將對(duì)應(yīng)的請(qǐng)求發(fā)送給局部網(wǎng)格節(jié)點(diǎn),將局部網(wǎng)格節(jié)點(diǎn)的挖掘結(jié)果整理輸出。全局聚類算法Web Service資源的結(jié)構(gòu)包括算法Web Service接口、算法資源屬性文檔、算法功能實(shí)現(xiàn)和算法功能四個(gè)部分。
利用傳統(tǒng)的聚類算法完成全局的數(shù)據(jù)的并行挖掘最重要的一步就是將全局聚類算法部署到GT4中,完成全局聚類算法的Web Service設(shè)計(jì)要經(jīng)過過以下幾步:
第一步:用WSDL(Web Service描述語言,是Web Service提供的XLM語言)來描述數(shù)據(jù)挖掘服務(wù)接口,該服務(wù)接口可以用Java來定義,利用Java-to-WSDL工具把Java定義的接口轉(zhuǎn)為WSDL文件。
第二步:用Java編寫全局聚類算法(CURE)代碼;
第三步:用WSDD配置文件和JNDI(GT4自帶文件)部署文件;
第四步:用Ant工具打包上面的所有文件,生成一個(gè)GAR文件;
第五步:向Web Service容器部署全局?jǐn)?shù)據(jù)挖掘服務(wù)。
3.2 局部聚類算法的Web Service設(shè)計(jì)
局部聚類算法的主要功能是完成局部網(wǎng)格節(jié)點(diǎn)的數(shù)據(jù)挖掘任務(wù),并把數(shù)據(jù)挖掘結(jié)果上傳到全局控制節(jié)點(diǎn)。局部網(wǎng)格節(jié)點(diǎn)的數(shù)據(jù)挖掘任務(wù)與傳統(tǒng)的單機(jī)數(shù)據(jù)挖掘任務(wù)類似,本課題局部聚類算法使用傳統(tǒng)的聚類算法K-平均方法,以K為參數(shù),把N個(gè)對(duì)象分為K個(gè)簇,簇內(nèi)具有較高的相似度,而簇間的相似度較低[34]。本論文的數(shù)據(jù)挖掘任務(wù)主要是由局部網(wǎng)格節(jié)點(diǎn)實(shí)現(xiàn)的,下面就詳細(xì)的介紹K-平均算法的主要執(zhí)行過程如下:
(1)從數(shù)據(jù)集中任意選擇K個(gè)對(duì)象作為各個(gè)簇的初始中心。
(2)根據(jù)現(xiàn)有的簇中心情況,利用距離公式計(jì)算其他對(duì)象到各個(gè)簇中心的距離。(可選的距離公式有:歐幾里、行德公式、距離公式、曼哈坦距離公式、明考斯基距離公式)。
(3)根據(jù)所得各個(gè)對(duì)象的距離值,將對(duì)象分配給距離最近的中心所對(duì)應(yīng)的簇。
(4)重新生成各個(gè)簇的中心。
(5)判斷是否收斂。如果收斂,即簇不在發(fā)生變化,那么停止劃分,否則,重復(fù)(2)到(5)。
K-平均算法是一個(gè)經(jīng)典的聚類算法,將K-平均算法部署到GT4中,完成局部聚類算法的Web Service設(shè)計(jì),部署方法與全局算法相似。
4.結(jié)論
基于GT4的數(shù)據(jù)挖掘系統(tǒng)中的數(shù)據(jù)挖掘服務(wù)資源有網(wǎng)格的中心控制節(jié)點(diǎn)(即全局節(jié)點(diǎn))進(jìn)行統(tǒng)一的管理,在局部網(wǎng)格節(jié)點(diǎn)挖掘過程中,根據(jù)其處理能力分配最佳的數(shù)據(jù)集給局部節(jié)點(diǎn),從而使整個(gè)系統(tǒng)的計(jì)算負(fù)載相對(duì)均衡。其數(shù)據(jù)挖掘系統(tǒng)的規(guī)??呻S著服務(wù)的多少動(dòng)態(tài)伸縮。當(dāng)系統(tǒng)要增加新的局部挖掘節(jié)點(diǎn)時(shí),只需部署局部Web Service資源即可。將網(wǎng)格應(yīng)用到分布式數(shù)據(jù)挖掘系統(tǒng)中,建立一個(gè)基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng),必將使其在各個(gè)領(lǐng)域都得到廣泛的應(yīng)用。
參考文獻(xiàn)
[引言]隨著我國信息技術(shù)的進(jìn)步,數(shù)據(jù)挖掘技術(shù)得到廣泛應(yīng)用,在軟件工程中需要對(duì)數(shù)據(jù)信息進(jìn)行搜集、分類與整理,通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以有效提高工作效率,推動(dòng)軟件工程的有序發(fā)展。我國對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用與研究雖然處于初級(jí)階段,但通過不斷的經(jīng)驗(yàn)積累也能夠發(fā)揮技術(shù)的更多價(jià)值。
1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)指的是在信息技術(shù)發(fā)展背景下,對(duì)信息數(shù)據(jù)展開處理的技術(shù)。與過去的信息處理技術(shù)相比,數(shù)據(jù)挖掘技術(shù)功能更加強(qiáng)大,可以應(yīng)用在各個(gè)領(lǐng)域,無論是數(shù)據(jù)處理、數(shù)據(jù)轉(zhuǎn)換還是數(shù)據(jù)分析,都能夠完成相互之間的聯(lián)系,并對(duì)數(shù)據(jù)進(jìn)行最終評(píng)估。將數(shù)據(jù)挖掘技術(shù)應(yīng)用在軟件工程中,能夠提高企業(yè)處理信息數(shù)據(jù)的效率,避免操作失誤,保護(hù)企業(yè)數(shù)據(jù)準(zhǔn)確[1]。
2數(shù)據(jù)挖掘技術(shù)在軟件工程中的重要性分析
2.1高效整合多樣化信息數(shù)據(jù)
由于數(shù)據(jù)挖掘技術(shù)的功能比較多,其中包含了傳統(tǒng)處理技術(shù)的功能,實(shí)現(xiàn)多樣化信息的收集與分類,并將數(shù)據(jù)按照類別存儲(chǔ)與整理。數(shù)據(jù)挖掘技術(shù)可以在多樣化數(shù)據(jù)中實(shí)現(xiàn)數(shù)據(jù)的系統(tǒng)化管理,為人們進(jìn)行數(shù)據(jù)查閱工作帶來方便。在軟件工程中應(yīng)用該技術(shù),方便信息數(shù)據(jù)的高效整合,幫助企業(yè)全方位了解信息與數(shù)據(jù)[2]。
2.2保證信息數(shù)據(jù)的準(zhǔn)確率
數(shù)據(jù)挖掘技術(shù)擁有強(qiáng)大數(shù)據(jù)運(yùn)算功能,以往的數(shù)據(jù)信息系統(tǒng)運(yùn)算數(shù)據(jù)時(shí)需要耗費(fèi)大量時(shí)間與成本。如果信息數(shù)據(jù)體系龐大,系統(tǒng)運(yùn)算時(shí)會(huì)面臨癱瘓問題。在軟件工程中,一旦系統(tǒng)發(fā)生癱瘓,系統(tǒng)將無法正常使用,數(shù)據(jù)也會(huì)受到破壞。應(yīng)用數(shù)據(jù)挖掘技術(shù)之后可以有效解決以上問題,實(shí)現(xiàn)系統(tǒng)的優(yōu)化,使系統(tǒng)可以在最短時(shí)間內(nèi)處理數(shù)據(jù),防止信息數(shù)據(jù)發(fā)生丟失現(xiàn)象,提高數(shù)據(jù)處理的時(shí)效性。面對(duì)大量的信息數(shù)據(jù),有的數(shù)據(jù)得不到利用,但長期處于系統(tǒng)中會(huì)影響系統(tǒng)運(yùn)行效率,應(yīng)用數(shù)據(jù)挖掘技術(shù)可以將無價(jià)值的數(shù)據(jù)剔除,留下有用的信息數(shù)據(jù),保證系統(tǒng)的運(yùn)行效率和數(shù)據(jù)質(zhì)量。
2.3縮短信息數(shù)據(jù)處理時(shí)間
在軟件工程中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以分類處理雜亂無章的數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的轉(zhuǎn)換與調(diào)用。對(duì)數(shù)據(jù)進(jìn)行深入挖掘處理時(shí)也可以應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)的分類,并對(duì)模糊數(shù)據(jù)及時(shí)清理,提高系統(tǒng)內(nèi)現(xiàn)存數(shù)據(jù)的實(shí)用價(jià)值。人們獲取到的信息數(shù)據(jù)需要進(jìn)行反復(fù)核對(duì),以此保證數(shù)據(jù)真實(shí)性,通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用減少時(shí)間浪費(fèi),提高數(shù)據(jù)核對(duì)效率。
3數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用分析
3.1系統(tǒng)結(jié)構(gòu)
數(shù)據(jù)挖掘技術(shù)應(yīng)用流程主要分為三個(gè)階段:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評(píng)估與知識(shí)表示。在數(shù)據(jù)預(yù)處理階段中,高效得到原始數(shù)據(jù)的根本原因在于確定任務(wù)處理對(duì)象,得到符合軟件工程需求的數(shù)據(jù)。通過數(shù)據(jù)清洗彌補(bǔ)原始數(shù)據(jù)存在的缺陷,確保數(shù)據(jù)的完整性。數(shù)據(jù)抽取需要從數(shù)據(jù)庫中選擇與軟件工程任務(wù)相符合的信息。數(shù)據(jù)轉(zhuǎn)換需要將數(shù)據(jù)格式加以轉(zhuǎn)化,實(shí)現(xiàn)數(shù)據(jù)的適用性。在數(shù)據(jù)挖掘中需要制定一定的挖掘任務(wù),通過對(duì)數(shù)據(jù)的分類與評(píng)價(jià)總結(jié),合理應(yīng)用運(yùn)算方法進(jìn)行數(shù)據(jù)推敲。在模式評(píng)估與知識(shí)表示中,其實(shí)際用途在于挖掘成功的表達(dá),將興趣度作為衡量標(biāo)準(zhǔn),提高數(shù)據(jù)表達(dá)的識(shí)別能力。
針對(duì)軟件工程中數(shù)據(jù)挖掘技術(shù)的優(yōu)化應(yīng)用,可以從系統(tǒng)結(jié)構(gòu)方面入手,具體如下:(1)檢測軟件工程中的克隆代碼。以軟件工程為標(biāo)準(zhǔn),將一部分代碼復(fù)制,結(jié)合實(shí)際情況更改一部分代碼,并對(duì)這些代碼進(jìn)行檢測,代碼檢測與更改可以同時(shí)進(jìn)行,能有效提高檢測效率,實(shí)現(xiàn)系統(tǒng)的維護(hù)工作。當(dāng)前應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行克隆代碼檢測的方式一共有四種,具體為比較標(biāo)識(shí)符、對(duì)比文本、檢測系統(tǒng)程序結(jié)構(gòu)與度量圈。在實(shí)際操作中,要求人們結(jié)合實(shí)際情況選擇相應(yīng)的克隆代碼檢測方法。(2)數(shù)據(jù)信息挖掘法。這是以橫切關(guān)注點(diǎn)為主的挖掘方法,在軟件工程中應(yīng)用該方法可以改造系統(tǒng),對(duì)數(shù)據(jù)信息達(dá)到良好的處理效果[3]。
3.2軟件管理
為了讓數(shù)據(jù)挖掘技術(shù)更好地應(yīng)用在軟件工程中,需要從軟件管理角度入手,采用以下兩方面舉措。一方面,深入挖掘數(shù)據(jù)的組織關(guān)系,另一方面,挖掘版本控制信息。軟件工程系統(tǒng)比較繁瑣,挖掘組織關(guān)系時(shí)較為困難,人們需要合理調(diào)配各項(xiàng)信息,以此作為挖掘的依據(jù)。如果以軟件工程管理流程作為主題,對(duì)電子郵件與共享文件展開組織關(guān)系挖掘,可以有效避免系統(tǒng)流程發(fā)生混亂,保護(hù)軟件管理的秩序。當(dāng)信息數(shù)據(jù)發(fā)生變化時(shí),應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行軟件管理,將版本控制作為重要依據(jù),將數(shù)據(jù)挖掘技術(shù)與版本控制相聯(lián)系,降低系統(tǒng)運(yùn)行成本,并達(dá)到警示的效果,提高軟件工程的管理水平。
3.3軟件開發(fā)
在軟件工程初期階段,人們將數(shù)據(jù)挖掘技術(shù)看成數(shù)據(jù)庫,隨著技術(shù)的發(fā)展,軟件工程發(fā)展到現(xiàn)實(shí)應(yīng)用,系統(tǒng)和現(xiàn)實(shí)共同發(fā)展。軟件工程將各項(xiàng)指標(biāo)與要求緊密結(jié)合,研發(fā)出最新產(chǎn)品,以往的軟件工程中軟件開發(fā)十分困難,而如今應(yīng)用數(shù)據(jù)挖掘技術(shù),可以將其與數(shù)據(jù)庫相融合,發(fā)揮數(shù)據(jù)庫內(nèi)信息的最大價(jià)值,有效推動(dòng)軟件開發(fā)的進(jìn)步。不僅如此,軟件工程可以對(duì)信息進(jìn)行更深層次的挖掘,充分發(fā)揮軟件工程的價(jià)值,利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)數(shù)據(jù)的更新,保證軟件開發(fā)質(zhì)量,優(yōu)化軟件操作流程。在技術(shù)的支持下,人們可以合理劃分軟件內(nèi)部,方便及時(shí)發(fā)現(xiàn)問題,并展開積極有效的問題處理。利用數(shù)據(jù)挖掘技術(shù)可以進(jìn)行網(wǎng)站設(shè)計(jì),對(duì)網(wǎng)站內(nèi)容進(jìn)行挖掘,特別是對(duì)文本內(nèi)容的挖掘,隨后整合網(wǎng)站信息,通過自動(dòng)歸類技術(shù)實(shí)現(xiàn)信息的層次性組織。在軟件或網(wǎng)站管理中,應(yīng)用數(shù)據(jù)挖掘技術(shù)可以根據(jù)用戶對(duì)網(wǎng)站的訪問記錄,進(jìn)行記錄信息挖掘,從中了解用戶對(duì)該網(wǎng)站內(nèi)容的興趣,進(jìn)而對(duì)用戶提供信息推送服務(wù)和定制服務(wù),以此吸引更多用戶訪問該網(wǎng)站。
在軟件開發(fā)階段,可以使用DataAnalytics輕量級(jí)業(yè)務(wù)數(shù)據(jù)可視化分析平臺(tái),這是數(shù)據(jù)挖掘技術(shù)的一項(xiàng)成果。該平臺(tái)能夠?qū)崿F(xiàn)異構(gòu)數(shù)據(jù)源的高效整合,可以兼容各種數(shù)據(jù)源類型,支持海量數(shù)據(jù)??山尤隕xcel/CSV等數(shù)據(jù)文件、企業(yè)各種業(yè)務(wù)系統(tǒng)、第三方互聯(lián)網(wǎng)數(shù)據(jù)、公共數(shù)據(jù)服務(wù)平臺(tái)等來源,輕松整合所有相關(guān)業(yè)務(wù)數(shù)據(jù),幫助企業(yè)消滅數(shù)據(jù)孤島。企業(yè)利用該平臺(tái)可以完成數(shù)據(jù)的深度交互分析,DataAnalytics基于探索式分析,支持智能推薦圖形與圖表,二者可以協(xié)同過濾,幫助用戶快速定位,通過數(shù)據(jù)挖掘找出問題,以拖拽式操作方法解決問題。
3.4聚類
在數(shù)據(jù)挖掘技術(shù)中聚類指的是對(duì)各個(gè)環(huán)節(jié)數(shù)據(jù)加以分析,結(jié)合軟件工程的具體要求實(shí)現(xiàn)數(shù)據(jù)細(xì)化,以類型細(xì)化作為基礎(chǔ),為原始數(shù)據(jù)類型做出保障。通過聚類可以讓同種類型數(shù)據(jù)具有相似性特點(diǎn),在存在相似性的同時(shí),也存在一定的差異,突出各自的特點(diǎn)。應(yīng)用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)聚類劃分時(shí),面對(duì)的對(duì)象無法預(yù)測,與其他算法相比,聚類擁有更加廣泛的應(yīng)用范圍,進(jìn)行數(shù)據(jù)分析時(shí)更加獨(dú)特,挖掘信息數(shù)據(jù)時(shí)可以確保檢測結(jié)果的有效性與真實(shí)性。
4結(jié)論
總而言之,隨著信息技術(shù)的深入發(fā)展,人們已經(jīng)步入信息時(shí)代,數(shù)據(jù)挖掘技術(shù)也成為對(duì)信息數(shù)據(jù)展開處理和存儲(chǔ)的有效方式。在軟件工程中應(yīng)用數(shù)據(jù)挖掘技術(shù),有利于提高軟件開發(fā)效率,提升軟件管理質(zhì)量,加強(qiáng)數(shù)據(jù)挖掘力度,使數(shù)據(jù)挖掘技術(shù)發(fā)揮巨大效果,人們可以應(yīng)用數(shù)據(jù)挖掘技術(shù)完成數(shù)據(jù)的聚類和網(wǎng)站設(shè)計(jì),為人們的生活帶來便利。
[軟件工程碩士論文參考文獻(xiàn)]
[1]張立鑒.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(6):47-48.
[2] http:///f?kz=691510974.
[3] J.M.Kleinberg. Authoritativesources in ahyperlinked environment. Proc.9th ACM-SIAM Symposium on Discrete Algorithms. 1998:668-677.
[4] 李曉明,劉建國.搜索引擎技術(shù)及趨勢(shì).大學(xué)圖書館學(xué)報(bào),2000,(16).
[5] 陳新中,李巖,謝永紅,楊炳儒. Web挖掘研究.計(jì)算機(jī)工程與應(yīng)用,2002_13.
[6] 劉軍.基于Web結(jié)構(gòu)挖掘的HITS算法研究.碩士學(xué)位論文.中南大學(xué),2008.
[7] 劉悅.WWW上鏈接分析算法的若干研究:(博士學(xué)位論文).北京:中國科學(xué)院,2003.
[8] A. Blum and T. Mitchell. Combining labeled and unlabeled data with Containing. In COLT:Proceedings of the Workshop on Computational Learning Theory.Morgan Kaufmann Publishers. 1998.
[9] Chakrabarti S, Gerg M, Dom B. Focused Crawling:A New Approach to Topic-Specific Web Resource Discovery. Computer Networks. 1999,31(11):1623-1640.
[10] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search Engine. In seventh International World Wide Web Conference. Brisbane. Australia, 1998.
[11] Haveliwala T H. Topic-sensitive PageRank[C]. Proceedings of the Eleventh International Word Wide Web Conference. Hoho Lulu Hawaii,2002.
[12] 江裕明.基于超鏈接的Web結(jié)構(gòu)挖掘算法的研究.碩士學(xué)位論文.西安電子科技大學(xué),2006.1.
[13] Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann 2000.
[14] 劉芳芳.Web鏈接分析中HITS算法的研究.碩士學(xué)位論文.大連理工大學(xué),2006.
[15] 李秋銳.基于蜜罐網(wǎng)絡(luò)的郵件捕獲系統(tǒng)分析與部署[J].信息網(wǎng)絡(luò)安全,2012,(01):64-67.
[16] 郎為民, 楊德鵬, 李虎生.智能電網(wǎng)WCSN安全體系架構(gòu)研究[J].信息網(wǎng)絡(luò)安全,2012,(04):19-22.
基金項(xiàng)目:
在電子政務(wù)信息建設(shè)中已經(jīng)有了成功的電子政務(wù)業(yè)務(wù)處理和信息管理系統(tǒng),卓有成效的過程控制指揮系統(tǒng)和辦公自動(dòng)化系統(tǒng)。但從電子政務(wù)全局的高層次和大范圍的分析角度去審視,則感到數(shù)據(jù)分散,難以整合。因此,研究電子政務(wù)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘很有必要。
1.電子政務(wù)信息建設(shè)的數(shù)據(jù)倉庫
電子政務(wù)數(shù)據(jù)倉庫是電子政務(wù)信息架構(gòu)的新焦點(diǎn),它提供集成化的和歷史化的電子政務(wù)業(yè)務(wù)數(shù)據(jù);它集成種類不同的電子政務(wù)應(yīng)用系統(tǒng);電子政務(wù)數(shù)據(jù)倉庫從事物發(fā)展和歷史角度來組織和存儲(chǔ)電子政務(wù)數(shù)據(jù),以供信息化和分析處理之用。它是對(duì)現(xiàn)有電子政務(wù)信息系統(tǒng)深刻認(rèn)識(shí)的結(jié)果,來自異地、異構(gòu)的電子政務(wù)數(shù)據(jù)源或數(shù)據(jù)庫的數(shù)據(jù)經(jīng)過加工后在電子政務(wù)數(shù)據(jù)倉庫中存儲(chǔ)、提取和維護(hù)。傳統(tǒng)的電子政務(wù)數(shù)據(jù)庫主要面向業(yè)務(wù)處理,而電子政務(wù)數(shù)據(jù)倉庫面向復(fù)雜數(shù)據(jù)分析、高層決策支持。電子政務(wù)數(shù)據(jù)倉庫提供來自種類不同的電子政務(wù)應(yīng)用系統(tǒng)的集成化和歷史化的數(shù)據(jù),為全局范圍的電子政務(wù)戰(zhàn)略決策和社會(huì)治安長期趨勢(shì)分析提供有效的支持。免費(fèi)論文參考網(wǎng)。目前,經(jīng)過近20年的建設(shè),全國電子政務(wù)信息系統(tǒng)建設(shè)已經(jīng)積累了大量數(shù)據(jù),對(duì)于電子政務(wù)工作起了意義深遠(yuǎn)的推動(dòng)作用,電子政務(wù)工作已經(jīng)初步進(jìn)入了數(shù)字化、電子化、信息化,極大地提高了電子政務(wù)工作的效率。以土地管理為例,現(xiàn)在的管理方式是以前不能比擬的。但是,如何將這些數(shù)據(jù)用于全局范圍的戰(zhàn)略決策和長期趨勢(shì)分析,則是需要進(jìn)一步解決的問題。例如,土地問題,近年來始終與住房問題、物價(jià)問題和就業(yè)問題一起,成為全國人民非常關(guān)心的問題,其問題有表面的原因,也有深刻的歷史原因和現(xiàn)實(shí)原因。如何花較少的代價(jià),將此問題解決得圓滿一些,建設(shè)電子政務(wù)數(shù)據(jù)倉庫是一重要手段。免費(fèi)論文參考網(wǎng)。
電子政務(wù)數(shù)據(jù)倉庫是一種全新的分布式異構(gòu)數(shù)據(jù)系統(tǒng)的集成方法:把各個(gè)信息源中與決策支持有關(guān)的數(shù)據(jù),預(yù)先經(jīng)過提取、轉(zhuǎn)換、過濾,并與相應(yīng)信息源中其它數(shù)據(jù)進(jìn)行合并,按主題存放在一個(gè)中央數(shù)據(jù)庫中,當(dāng)用戶需要查詢時(shí),可以直接訪問中央數(shù)據(jù)庫,不必訪問其它數(shù)據(jù)源。
電子政務(wù)數(shù)據(jù)倉庫包括3個(gè)基本的功能部分。數(shù)據(jù)獲?。簭碾娮诱?wù)一線數(shù)據(jù)源獲取數(shù)據(jù),數(shù)據(jù)被區(qū)分出來,進(jìn)行拷貝或重新定義格式等處理后,準(zhǔn)備載入電子政務(wù)數(shù)據(jù)倉庫。數(shù)據(jù)存儲(chǔ)和管理:負(fù)責(zé)電子政務(wù)數(shù)據(jù)倉庫的內(nèi)部維護(hù)和管理,包括數(shù)據(jù)存儲(chǔ)的組織、數(shù)據(jù)的維護(hù)、數(shù)據(jù)的分發(fā)。信息訪問:屬于電子政務(wù)數(shù)據(jù)倉庫的前端,面向用戶------提取信息、分析數(shù)據(jù)集、實(shí)施決策。進(jìn)行數(shù)據(jù)訪問的工具主要是查詢生成工具、多維分析工具和數(shù)據(jù)挖掘工具等。
電子政務(wù)數(shù)據(jù)倉庫的特點(diǎn):針對(duì)全局電子政務(wù)業(yè)務(wù)戰(zhàn)略分析,非常詳細(xì)的數(shù)據(jù),第三范式數(shù)據(jù)結(jié)構(gòu),高層次和大范圍的分析,詳細(xì)的歷史信息,存儲(chǔ)和管理大量的數(shù)據(jù),整個(gè)數(shù)據(jù)結(jié)構(gòu)統(tǒng)一,索引較少。
因此,原來對(duì)分布式異構(gòu)數(shù)據(jù)的復(fù)雜訪問變成直接在該倉庫上進(jìn)行即席查詢的簡單操作:用戶需要某些指定信息和快速查詢,但不一定要最新信息,在這個(gè)環(huán)境中需要高性能和訪問信息源中不能長期保存的信息。
電子政務(wù)數(shù)據(jù)倉庫是一個(gè)比傳統(tǒng)解決方法更為有效的集成技術(shù),即對(duì)感興趣的數(shù)據(jù)及其變化預(yù)先提取并按公共模式集成到一個(gè)中央數(shù)據(jù)庫中,由于分布和異構(gòu)問題被提前解決,用戶可以在中央數(shù)據(jù)倉庫上進(jìn)行高效的查詢或分析。
由于電子政務(wù)數(shù)據(jù)倉庫的體系結(jié)構(gòu),必須照顧電子政務(wù)已有的信息系統(tǒng)的體系結(jié)構(gòu),以及相關(guān)的基礎(chǔ)設(shè)施,因此,確定電子政務(wù)數(shù)據(jù)倉庫的體系結(jié)構(gòu),必須兼顧用戶需求的多變性、基礎(chǔ)設(shè)施的復(fù)雜性、技術(shù)更新的步伐。數(shù)據(jù)倉庫本身可以使用通用的或者特別要求的數(shù)據(jù)庫管理系統(tǒng)來實(shí)現(xiàn)。盡管在圖中表示的是一個(gè)單獨(dú)的、中央化的數(shù)據(jù)倉庫,實(shí)際上,為了達(dá)到理想的性能,分布式和并行性往往是必然的選擇。
電子政務(wù)數(shù)據(jù)倉庫技術(shù)中一些比較重要的問題是:數(shù)據(jù)倉庫管理,數(shù)據(jù)源和數(shù)據(jù)倉庫的演化,復(fù)制帶來的不一致,過期數(shù)據(jù)處理等。電子政務(wù)數(shù)據(jù)倉庫管理涉及電子政務(wù)數(shù)據(jù)倉庫開發(fā)的各個(gè)階段,與之相關(guān)的問題涉及電子政務(wù)數(shù)據(jù)倉庫設(shè)計(jì)、數(shù)據(jù)裝載、元數(shù)據(jù)管理等。數(shù)據(jù)源和數(shù)據(jù)倉庫演化,則是研究電子政務(wù)數(shù)據(jù)倉庫體系結(jié)構(gòu)如何順利處理信息源的變化問題,如模式變化、新信息源加入,舊信息源刪除等。復(fù)制不一致,是指從各個(gè)信息源拷貝來的同一信息或者相關(guān)信息出現(xiàn)的不一致,一般用集成器對(duì)這些數(shù)據(jù)進(jìn)行清理。對(duì)于電子政務(wù)數(shù)據(jù)倉庫中的數(shù)據(jù),可能會(huì)保存很多年,但是一般不會(huì)永遠(yuǎn)保留下去,這就要求研究比較可靠的技術(shù)以保證過期的數(shù)據(jù),可以自動(dòng)而有效地從電子政務(wù)數(shù)據(jù)倉庫中被清除出去。
2.電子政務(wù)數(shù)據(jù)挖掘一般方法
電子政務(wù)部門在過去若干年的時(shí)間里都積累了海量的、以不同形式存貯的數(shù)據(jù)資料,例如戶籍資料、土地資料和規(guī)劃管理資料等。此外,電子政務(wù)工作所涉及到的數(shù)據(jù)類型是相當(dāng)復(fù)雜的,例如:用地指數(shù),其特征抽取相當(dāng)復(fù)雜;土地配置規(guī)律特點(diǎn),其數(shù)據(jù)聯(lián)系是非平面的,也是非標(biāo)準(zhǔn)立體的。由于這些資料十分繁雜,要從中發(fā)現(xiàn)有價(jià)值的信息或者知識(shí),達(dá)到為決策服務(wù)的目的,成為非常艱巨的任務(wù)。電子政務(wù)數(shù)據(jù)挖掘一般方法的提出,讓用戶有能力最終認(rèn)識(shí)數(shù)據(jù)的真正價(jià)值,即蘊(yùn)藏在數(shù)據(jù)中的信息和知識(shí)。
電子政務(wù)數(shù)據(jù)挖掘是按照既定的電子政務(wù)業(yè)務(wù)目標(biāo),對(duì)大量的數(shù)據(jù)進(jìn)行探索、揭示隱藏其中的規(guī)律性并進(jìn)一步將其模型化的先進(jìn)、有效的方法。數(shù)據(jù)是按照電子政務(wù)數(shù)據(jù)倉庫的概念重組過的,在電子政務(wù)數(shù)據(jù)倉庫中的數(shù)據(jù)、信息才能最有效的支持電子政務(wù)數(shù)據(jù)挖掘。因此,首先從正在運(yùn)行的電子政務(wù)計(jì)算機(jī)系統(tǒng)中完整地將數(shù)據(jù)取出;其次各個(gè)環(huán)節(jié)的數(shù)據(jù)要按一定的規(guī)則有機(jī)、準(zhǔn)確地銜接起來,以極易取用的數(shù)據(jù)結(jié)構(gòu)方式,全面地描述該業(yè)務(wù)目標(biāo)。
電子政務(wù)數(shù)據(jù)挖掘就是從大量的、不完全的、模糊的、有噪聲的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、事前不知道的、但是潛在有用的信息和知識(shí)的過程。電子政務(wù)數(shù)據(jù)挖掘技術(shù)是面向應(yīng)用的,不僅面向特定數(shù)據(jù)庫的簡單檢索和查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀和宏觀的分析、統(tǒng)計(jì)、綜合和推理,從中發(fā)現(xiàn)事件間的相互關(guān)系,對(duì)未來的活動(dòng)進(jìn)行預(yù)測。
3.基于電子政務(wù)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘
基于電子政務(wù)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘的方法,是以電子政務(wù)數(shù)據(jù)倉庫為中心,各信息源由原始數(shù)據(jù)庫,經(jīng)過打包和集成到電子政務(wù)數(shù)據(jù)倉庫;基于電子政務(wù)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘,是通過模型庫和方法庫的協(xié)助,對(duì)電子政務(wù)數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)挖掘,從而獲得分析預(yù)測結(jié)果和決策支持的。
基于電子政務(wù)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘的特點(diǎn):1、規(guī)模: 電子政務(wù)數(shù)據(jù)倉庫中集成和存儲(chǔ)著來自若干分布、異質(zhì)的信息源的數(shù)據(jù)。免費(fèi)論文參考網(wǎng)。這些信息源本身就可能是一個(gè)規(guī)模龐大的電子政務(wù)數(shù)據(jù)庫,可以想象數(shù)據(jù)倉庫會(huì)有比一般數(shù)據(jù)庫系統(tǒng)更大的數(shù)據(jù)規(guī)模。如何從如此巨量的數(shù)據(jù)中有效的提取有用信息,需要各方面技術(shù)的進(jìn)步。從當(dāng)前發(fā)展來看,支持并行處理的分布式DBMS、具有大規(guī)模并行處理(MPP)能力的計(jì)算機(jī)、超大規(guī)模的存儲(chǔ)機(jī)構(gòu)等技術(shù)的發(fā)展和協(xié)同將使電子政務(wù)數(shù)據(jù)倉庫走向?qū)嵱谩?、歷史數(shù)據(jù):傳統(tǒng)的電子政務(wù)數(shù)據(jù)庫系統(tǒng)為了獲得最大的執(zhí)行效率,往往存儲(chǔ)盡可能少的數(shù)據(jù)量。因?yàn)椋瑩碛械臄?shù)據(jù)越多,數(shù)據(jù)組織、重構(gòu)、瀏覽、索引和監(jiān)控的難度越大。傳統(tǒng)電子政務(wù)數(shù)據(jù)庫系統(tǒng)在“時(shí)間”方向的長度很有限。比較而言,電子政務(wù)數(shù)據(jù)倉庫的根本特征之一就是進(jìn)行長時(shí)間的歷史數(shù)據(jù)存儲(chǔ),這使得可以進(jìn)行數(shù)據(jù)長期趨勢(shì)的分析。電子政務(wù)數(shù)據(jù)倉庫為長期決策行為提供了獨(dú)一無二的支持,電子政務(wù)數(shù)據(jù)倉庫中的數(shù)據(jù)在時(shí)間方向上具有大的縱深性。3、數(shù)據(jù)集成和綜合性:從全局的角度看,數(shù)據(jù)倉庫集成了電子政務(wù)內(nèi)各部門的全面的、綜合的數(shù)據(jù)。電子政務(wù)數(shù)據(jù)挖掘面對(duì)的是關(guān)系更加復(fù)雜的全局模式的知識(shí)發(fā)現(xiàn),能更好地滿足高層戰(zhàn)略決策的要求。在電子政務(wù)數(shù)據(jù)倉庫中,數(shù)據(jù)已經(jīng)被充分收集起來了,進(jìn)行了整理、合并,有些還進(jìn)行了初步的分析處理。另外,電子政務(wù)數(shù)據(jù)倉庫中對(duì)數(shù)據(jù)不同粒度的集成和綜合,更有效地支持了多層次、多種知識(shí)的挖掘。4、查詢支持 電子政務(wù)數(shù)據(jù)倉庫面向決策支持,電子政務(wù)數(shù)據(jù)倉庫的體系結(jié)構(gòu)努力保證查詢(Query)和分析的實(shí)時(shí)性。電子政務(wù)數(shù)據(jù)倉庫設(shè)計(jì)成只讀方式,用戶可以直接訪問電子政務(wù)數(shù)據(jù)倉庫,挖掘過程可以做到實(shí)時(shí)交互,使決策者的思維保持連續(xù),挖掘出更深入、更有價(jià)值的知識(shí)。
電子政務(wù)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是將來電子政務(wù)智能化的基礎(chǔ),可以幫助用戶得到他們想知道的信息,有些數(shù)據(jù)也許隱藏人們意想不到的信息,數(shù)據(jù)挖掘就是讓用戶發(fā)現(xiàn)這些隱藏信息的工具。電子政務(wù)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘研究和應(yīng)用所面臨的主要問題:挖掘的對(duì)象:更大型的數(shù)據(jù)庫、更高的維數(shù)和屬性之間的復(fù)雜關(guān)系;多種形式的輸入數(shù)據(jù);用戶參與和領(lǐng)域知識(shí)的融合;證實(shí)(Validation)技術(shù);知識(shí)的表達(dá)和解釋機(jī)制;知識(shí)的更新和維護(hù);多平臺(tái)支持、與其他系統(tǒng)的集成。
中圖分類號(hào)TP3 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674—6708(2012)76—0209—02
近幾年來,隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界和整個(gè)社會(huì)的極大關(guān)注。因?yàn)槿藗兯鶕碛械臄?shù)據(jù)量在不斷的增長,這就對(duì)數(shù)據(jù)的管理和分析提出了更高的要求,急需新的技術(shù)從大量的信息中提取或“挖掘”知識(shí),于是數(shù)據(jù)挖掘(Data Mining)技術(shù)被受人們關(guān)注和使用。
1 數(shù)據(jù)挖掘技術(shù)定義
數(shù)據(jù)挖掘技術(shù)是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。在大多數(shù)情況下,人們只知道儲(chǔ)存數(shù)據(jù),數(shù)據(jù)越來越多,可是不知道數(shù)據(jù)中存有很多重要的信息,數(shù)據(jù)挖掘就可以從這大量的數(shù)據(jù)中搜索出重要的信息。
2 數(shù)據(jù)挖掘常用的方法
1)決策樹。決策樹方法是把數(shù)據(jù)分類,構(gòu)成測試函數(shù),建立樹每一層分支,重復(fù)下去就構(gòu)成了決策樹。在構(gòu)造決策樹時(shí),樹盡可能精度高,規(guī)模小。商業(yè)銀行在對(duì)風(fēng)險(xiǎn)決策時(shí)經(jīng)常用此方法;
2)人工神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)方法引用生物神經(jīng)網(wǎng)絡(luò)的方法,就好像人的神經(jīng)網(wǎng)絡(luò),它連接輸入、輸出信號(hào)的樞紐。它在很大程度上模擬人腦的神經(jīng)系統(tǒng)處理信息。人工神經(jīng)網(wǎng)絡(luò)具有四個(gè)基本特征:非線性、非局限性、非常定性、非凸性。用人工神經(jīng)網(wǎng)絡(luò)方法建立的模型具有很強(qiáng)的非線性擬合能力,學(xué)習(xí)規(guī)則簡單,控制能力強(qiáng)等優(yōu)點(diǎn);
3)遺傳算法(Genetic Algorithm,GA)。遺傳算法是模仿達(dá)爾文生物進(jìn)化的自然選擇和遺傳機(jī)制的一種尋優(yōu)算法。群體中的所有個(gè)體為研究對(duì)象,利用隨機(jī)化技術(shù)搜索編碼,然后分別利用選擇、交叉和變異這三個(gè)基本遺傳算子對(duì)其進(jìn)行遺傳操作就能尋找到問題的最優(yōu)解或者是最滿意解。遺傳算法的優(yōu)點(diǎn)是過程簡單,具有隨機(jī)性,可擴(kuò)展性。實(shí)用。在很多領(lǐng)域得到了很大的應(yīng)用。缺點(diǎn)是編程比較復(fù)雜,需要對(duì)問題進(jìn)行編碼,找到滿意解后還要對(duì)問題解碼。算法速度比較慢,對(duì)初始種群的選擇有依賴性等缺點(diǎn);
4)聚類算法。聚類算法可以說是多元統(tǒng)計(jì)研究“物以類聚,人以群分”的一種方法,主要任務(wù)是發(fā)現(xiàn)大型數(shù)據(jù)中的積聚現(xiàn)象。聚類分析是把相似特征的樣本歸為一類,類內(nèi)差異差距較小,類間距差距較大。聚類算法在好多領(lǐng)域有應(yīng)用。在商務(wù)上,根據(jù)客戶不同的消費(fèi)模式進(jìn)行分類,對(duì)客戶進(jìn)行劃分,幫助商家獲得更多利益。在生物學(xué)中,對(duì)動(dòng)植物進(jìn)行分類,了解各自的基因特征。聚類的算法也比較多,例如:基于模糊的聚類方法、基于粒度的聚類方法、量子聚類、核聚類、譜聚類,這些是新發(fā)展的聚類算法。還有常用的聚類算法—BIRCH算法、K—MEANS算法、均值計(jì)算方法等。
3 數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在好多領(lǐng)域有應(yīng)用。例如:金融業(yè)、通訊、教育、政府管理部門等等行業(yè)。1)金融業(yè)。例如:金融事務(wù)需要搜集和處理大量復(fù)雜的數(shù)據(jù),許多銀行和金融機(jī)構(gòu)提供多種多樣的投資服務(wù)(如共同基金)、信用服務(wù)(如個(gè)人信用卡)和銀行服務(wù)(如個(gè)人存款)。由于交易的頻繁性、信息的不對(duì)稱性和復(fù)雜性,必須從海量數(shù)據(jù)中挖掘信息,金融數(shù)據(jù)挖掘技術(shù)可以幫助銀行系統(tǒng)查詢客戶以往的需求情況并預(yù)測未來;可以分析潛在的信譽(yù)較差的客戶,及時(shí)采取措施減少資產(chǎn)損失;2)通訊業(yè)。例如:現(xiàn)今通信業(yè)務(wù)可以說是五花八門,多種多樣,適合不同需求的人群。要想退出新業(yè)務(wù),創(chuàng)效益。就必須先確定可能要試用此項(xiàng)業(yè)務(wù)的客戶特征。確定完成后先讓小范圍的客戶試用此項(xiàng)業(yè)務(wù),當(dāng)他們?cè)囉靡欢螘r(shí)間后,對(duì)客戶的反饋信息進(jìn)行分析,修改更新,反復(fù)這樣下去,直至此項(xiàng)業(yè)務(wù)成熟后,推廣進(jìn)入市場。那如何從大量的客戶消費(fèi)數(shù)據(jù)中得到這些客戶特征,這就需要數(shù)據(jù)挖掘技術(shù)對(duì)客戶進(jìn)行詳細(xì)的深層次的分析,得到有效的,準(zhǔn)確的數(shù)據(jù);3)教育部門。例如:高校的招生可以說是任何一個(gè)高校的大事,招生好壞直接影響學(xué)校的生存。專業(yè)計(jì)劃的是否合理,就直接影響招生。我們需要對(duì)大量的招生錄取信息和就業(yè)信息進(jìn)行分析,數(shù)據(jù)挖掘技術(shù)就可以從這些信息中提取重要的信息預(yù)測未來的專業(yè)計(jì)劃如何投放,每個(gè)專業(yè)投放多少比較合理,不至于計(jì)劃浪費(fèi);4)政府管理部門。隨著社會(huì)的不斷進(jìn)步,政府部門內(nèi)部以及部門之間擁有了大量的政務(wù)信息,要想掌握有效,準(zhǔn)確的政務(wù)信息,我們可以利用數(shù)據(jù)挖掘中的決策樹方法,從大量的政務(wù)信息中提取準(zhǔn)確有效的信息,大大提高整個(gè)電子政務(wù)的智能化水平??梢酝ㄟ^對(duì)網(wǎng)絡(luò)各種經(jīng)濟(jì)資源的深度挖掘,確定未來的經(jīng)濟(jì)形勢(shì),從而可以指定出合理的宏觀調(diào)控政策。為社會(huì)經(jīng)濟(jì)提供有力的可靠的拐杖。
4 數(shù)據(jù)挖掘未來的展望
數(shù)據(jù)挖掘的應(yīng)用越來越廣泛,人們對(duì)數(shù)據(jù)挖掘技術(shù)的需求水平也就越來越高。它可以預(yù)測未來的發(fā)展趨勢(shì),所以今后研究焦點(diǎn)可能會(huì)集中到處理非數(shù)字?jǐn)?shù)據(jù);尋求數(shù)據(jù)挖掘過程中的可視化方法,便于在知識(shí)發(fā)現(xiàn)過程中的人機(jī)交互,使計(jì)算機(jī)真正實(shí)現(xiàn)智能化。這可能需要一段時(shí)間,需要計(jì)算機(jī)工作者的不斷的研究探索,可能需要很大的努力。但我相信,不久的將來我們會(huì)看到數(shù)據(jù)挖掘據(jù)技術(shù)很大的進(jìn)展。
參考文獻(xiàn)
[1][加]Jiawei Han Micheline Kamber著.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社.
[2]陳曉燕.遺傳算法在數(shù)據(jù)挖掘中的應(yīng)用[J].瓊州學(xué)院學(xué)報(bào),18(2).
[3]周明華.近代算法在工程領(lǐng)域中的應(yīng)用研究[D].浙江大學(xué)博士學(xué)位論文,2005,1.
[4]曾令明,金虎.基于遺傳算法的雙向關(guān)聯(lián)規(guī)則挖掘[J].微電子學(xué)與計(jì)算機(jī),2006(23):35—37.
[5]周濤,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用, 2012,48(12).
1 當(dāng)前很多高校學(xué)生的成績管理面臨的問題
目前大部分高校教務(wù)管理系統(tǒng)是采用聯(lián)機(jī)的事務(wù)處理系統(tǒng)對(duì)學(xué)生成績進(jìn)行管理,成績數(shù)據(jù)只能簡單地存儲(chǔ)于數(shù)據(jù)庫中,而對(duì)數(shù)據(jù)的處理也停留在單純的數(shù)據(jù)查詢和插入修改等功能上,僅有的對(duì)成績的分析可能也只是求總和、平均值、均方差和合格率等之類的統(tǒng)計(jì)。教務(wù)管理系統(tǒng)中的數(shù)據(jù)單純的保存了相關(guān)數(shù)據(jù)信息而沒有能夠挖掘出這些數(shù)據(jù)背后所隱藏的可能有用信息——例如學(xué)生每門課程取得的成績的可能原因、每門課程的諸多知識(shí)點(diǎn)之間以及課程和課程之間的聯(lián)系。龐大的數(shù)據(jù)庫里數(shù)據(jù)和數(shù)據(jù)之間存在著很多的關(guān)聯(lián),我們?nèi)绾纬浞掷眠@些數(shù)據(jù)關(guān)聯(lián),為高校教育教學(xué)決策者提供一定的決策依據(jù),從而科學(xué)的指導(dǎo)教學(xué),提高高校的教學(xué)及管理水平,進(jìn)一步提高辦學(xué)效益和水平,是目前高校需要去面對(duì)和解決的問題。
2 利用數(shù)據(jù)挖掘技術(shù)管理學(xué)生成績
數(shù)據(jù)挖掘技術(shù)就是從大量的、有噪聲的、不完全的、隨機(jī)的、模糊的應(yīng)用數(shù)據(jù)中來提取隱藏在其中的潛在并且十分有用的信息過程[2]。利用數(shù)據(jù)挖掘?qū)Υ鎯?chǔ)在高校成績數(shù)據(jù)庫中的學(xué)生成績數(shù)據(jù)信息進(jìn)行全面的深層次的分析和挖掘,達(dá)到全面地分析成績數(shù)據(jù)的優(yōu)劣及產(chǎn)生原因、各種因素之間隱含的內(nèi)在聯(lián)系的目的。挖掘分析這些數(shù)據(jù)所隱藏的有用信息,找到對(duì)指導(dǎo)教師教學(xué)和學(xué)生學(xué)習(xí)有用的知識(shí),幫助高校管理者對(duì)未來高校的發(fā)展進(jìn)步的決策。由此可見,數(shù)據(jù)挖掘技術(shù)一定會(huì)在教師提高教學(xué)質(zhì)量、學(xué)生增加學(xué)習(xí)效率和學(xué)校強(qiáng)化管理水平等方面起到至關(guān)重要的引導(dǎo)作用[3]。
第一,使用計(jì)算機(jī)對(duì)高校學(xué)生成績進(jìn)行信息管理相對(duì)于傳統(tǒng)管理方法有著十分明顯優(yōu)勢(shì):在現(xiàn)代的互聯(lián)網(wǎng)時(shí)代,信息的管理早已經(jīng)超越傳統(tǒng)概念,使用計(jì)算機(jī)存儲(chǔ)量大且成本低,可以長久保存,同時(shí)對(duì)信息的檢索更迅速也更方便,結(jié)果的可靠性也是傳統(tǒng)管理方法不可比擬的,這些也正是高校管理正規(guī)化和教育單位的科學(xué)化所必需的。
第二,學(xué)生成績管理系統(tǒng)對(duì)于任何一個(gè)教育單位來說都是一個(gè)不可或缺的組成部分。它對(duì)于高校的管理者的辦學(xué)思路的抉擇來說是至關(guān)重要的。高校的成績管理系統(tǒng)不僅應(yīng)該做到為用戶提供方便快捷的查詢手段還用改能夠提供充分的信息量以滿足不同用戶的不同查詢需求。學(xué)生可以通過這個(gè)系統(tǒng)方便的查找自己到各門課的考試成績及其他的教學(xué)相關(guān)信息;教師也能夠通過系統(tǒng)提供的查詢和分析工具非常準(zhǔn)確的掌握學(xué)生的成績變化,及時(shí)獲取教學(xué)效果反饋信息,改進(jìn)教學(xué)方式方法等;對(duì)高校的管理者來說,運(yùn)用了最新的數(shù)據(jù)挖掘技術(shù)的學(xué)生成績管理系統(tǒng)也可以讓他們更及時(shí)快捷的從海量的數(shù)據(jù)中找到有用的信息,從而為不斷提高高校的辦學(xué)質(zhì)量和管理水平提供保障。
3 學(xué)生成績管理系統(tǒng)的設(shè)計(jì)
3.1數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘是一個(gè)多階段的復(fù)雜過程,如圖1所示直接數(shù)據(jù)目標(biāo)數(shù)據(jù)凈化數(shù)據(jù)數(shù)據(jù)源知識(shí)數(shù)據(jù)選擇清理與集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)挖掘模式評(píng)價(jià)數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘解釋和評(píng)價(jià)。
主要分為以下六個(gè)主要步驟[4]:
1)確定數(shù)據(jù)源。數(shù)據(jù)源的確立是整個(gè)系統(tǒng)的基礎(chǔ),是挖掘結(jié)果準(zhǔn)確的保證。對(duì)學(xué)生成績信息進(jìn)行數(shù)據(jù)挖掘時(shí),面向?qū)ο笫歉黝惒煌膶W(xué)生,例如教務(wù)處要挖掘的信息是面向全校學(xué)生的成績,從而掌握全校學(xué)生的學(xué)習(xí)情況,而每個(gè)系所要掌握的學(xué)生的學(xué)習(xí)情況是針對(duì)本系的學(xué)生來說的,所以要挖掘的對(duì)象也只是每個(gè)系學(xué)生的成績信息。他們面向?qū)ο蠛蛿?shù)據(jù)挖掘的目的都是不同的;
2)選定模型。為所挖掘的問題選擇恰當(dāng)?shù)臄?shù)據(jù)挖掘方法,并且針對(duì)該挖掘方法選擇幾種或是一種的算法。選擇何種算法將直接影響挖掘信息的質(zhì)量;
3)采集數(shù)據(jù)。這個(gè)階段在整個(gè)開發(fā)過程中將會(huì)占用開發(fā)者大部分的工作量和時(shí)間。因?yàn)殚_發(fā)者需要收集在以往的教學(xué)實(shí)踐中的數(shù)據(jù)信息,這些信息中,有些數(shù)據(jù)他們可以以直接的方式獲得,而有些數(shù)據(jù)可能需要對(duì)學(xué)生以問卷調(diào)查等形式獲得。
4)數(shù)據(jù)預(yù)處理。開發(fā)者在這一步需要將收集到的大量的不同的數(shù)據(jù)預(yù)處理,使其為一個(gè)分析數(shù)據(jù)模型;數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘很重要的一步,數(shù)據(jù)只有經(jīng)過預(yù)處理才能提高挖掘?qū)ο蟮馁|(zhì)量;
5)數(shù)據(jù)挖掘。算法在這一步得到具體的實(shí)現(xiàn),開發(fā)者將對(duì)經(jīng)過預(yù)處理的數(shù)據(jù)信息進(jìn)行挖掘;
6)解釋和評(píng)價(jià)。分析和驗(yàn)證上一步的挖掘結(jié)果,并從中找到有價(jià)值的信息,將其集成到教師的教學(xué)環(huán)節(jié)和學(xué)生的學(xué)習(xí)環(huán)節(jié)中去,使教師和學(xué)生可利用所得信息改進(jìn)教和學(xué)的策略,指導(dǎo)學(xué)生進(jìn)一步更好的學(xué)習(xí)。
3.2數(shù)據(jù)挖掘的方法
在實(shí)際應(yīng)用中需要根據(jù)對(duì)信息的實(shí)際需求選擇恰當(dāng)?shù)耐诰蛩惴?。通過對(duì)幾種常用的數(shù)據(jù)挖掘方法進(jìn)行比較和分析,本文選擇了以下兩種適合的算法:關(guān)聯(lián)分析方法以及決策樹分類方法。
1)關(guān)聯(lián)分析
利用關(guān)聯(lián)分析對(duì)數(shù)據(jù)進(jìn)行挖掘的目的就是挖掘出隱含在數(shù)據(jù)之間的關(guān)系。首先給定一組或一個(gè)記錄的集合,然后,通過分析此記錄集合從而推導(dǎo)出信息之間的相關(guān)性[5]。一個(gè)適用于關(guān)聯(lián)規(guī)則的最有說服力的例子就是“90%客戶在購買黃油和面包的同時(shí)也會(huì)選擇購買牛奶”,即:規(guī)則“購買黃油和面包也會(huì)同時(shí)購買牛奶”的信息可信度高達(dá)90%。在大型的數(shù)據(jù)庫系統(tǒng)中,類似的關(guān)聯(lián)規(guī)則會(huì)產(chǎn)生很多,因此需要開發(fā)者進(jìn)行篩選。一般來說,我們會(huì)采用 “可信度”和“支持度”這兩個(gè)閩值去淘汰一些沒有太多實(shí)際意義的規(guī)則。
關(guān)聯(lián)規(guī)則算法主要 有以下兩個(gè)步驟:第一步要求開發(fā)者查找出所有的頻繁項(xiàng)集。頻繁項(xiàng)集就是指其支持度大于或是等于最小支持度的那些項(xiàng)目集。第二步是指由頻繁項(xiàng)集所產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則,即所產(chǎn)生的以上規(guī)則一定要滿足最小置信度和最小支持度[6]。
在實(shí)際教學(xué)中應(yīng)用關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法對(duì)學(xué)生成績信息進(jìn)行分析和處理,研究課程的開設(shè)先后關(guān)系以及各門課程的成績相關(guān)性,分析的結(jié)果將對(duì)一些課程的教與學(xué)提供很多有用的信息,使高校的教學(xué)工作邁上一個(gè)新的臺(tái)階。
2)決策樹算法對(duì)學(xué)生成績的分析
決策樹算法是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,用來形成數(shù)據(jù)挖掘的預(yù)測模型和分類器,同時(shí)可以對(duì)大量未知數(shù)據(jù)進(jìn)行預(yù)測或分類、數(shù)據(jù)的預(yù)處理以及數(shù)據(jù)挖掘等。通常包括兩部分:樹的生成和樹的剪枝[7]。
使用決策樹算法來提取分類規(guī)則時(shí),規(guī)則使用以“if——then”的形式表示。決策樹算法和其他算法相比具有以下的優(yōu)勢(shì):處理速度較快;從結(jié)果上來說,分類準(zhǔn)確率也更相近,算法更容易轉(zhuǎn)換為SQL語句。
4 結(jié)論
利用數(shù)據(jù)挖掘技術(shù)進(jìn)行高校學(xué)生的成績、心理分析和德育評(píng)估、教學(xué)及管理決策、教學(xué)質(zhì)量評(píng)估等,能夠?yàn)閷W(xué)生、教師以及教學(xué)管理人員等用戶提供相應(yīng)的數(shù)據(jù)信息支持,對(duì)教務(wù)管理和教學(xué)過程有著極為重要的指導(dǎo)意義,同時(shí)也為高校教與學(xué)、管理與決策的服務(wù)提供了一種新的思路。
參考文獻(xiàn)
[1]劉春陽,數(shù)據(jù)挖掘技術(shù)在高校成績管理中的應(yīng)用研究,學(xué)位論文大連交通大學(xué),2009.
[2]J.Braehaan,T.Anand.The Proeess of Knowledge Diseovery in Databases.A Human一eentered APProaeh.1996:37-58.
[3]劉軍.決策樹分類算法的研究及其在教學(xué)分析中的應(yīng)用[D].河海大學(xué),2006.
[4]鄧景毅.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘綜述[J].電腦學(xué)習(xí),2006(3):2-3.
數(shù)據(jù)挖掘技術(shù)作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識(shí)別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的知識(shí),也就是從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術(shù)也是現(xiàn)在智能理論系統(tǒng)的重要研究內(nèi)容,已經(jīng)開始被應(yīng)用于行政管理、醫(yī)學(xué)、金融、商業(yè)、工業(yè)等不同的領(lǐng)域當(dāng)中,在保護(hù)設(shè)備故障信息管理方面發(fā)揮出了積極的作用。
一、數(shù)據(jù)挖掘技術(shù)的概念
隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的有用信息和知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當(dāng)前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應(yīng)用于了醫(yī)藥業(yè)、保險(xiǎn)業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場營銷等不同的領(lǐng)域,隨著計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)以及信息技術(shù)的不斷進(jìn)步,在故障診斷過程中所采集到的數(shù)據(jù)可以被廣泛地存儲(chǔ)在不同的數(shù)據(jù)庫當(dāng)中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來對(duì)這些海量的信息數(shù)據(jù)進(jìn)行分析處理,不僅會(huì)浪費(fèi)大量的實(shí)踐而且也很難挖掘到有效的信息數(shù)據(jù),同時(shí),盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過程中已經(jīng)被得到了廣泛的應(yīng)用,但是這些方法卻仍然存在著很多推理困難、知識(shí)瓶頸等一些尚未完全被解決的問題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來解決這些難題,在故障診斷的過程中發(fā)揮其獨(dú)特的優(yōu)勢(shì)。wWW.133229.Com從不同的角度進(jìn)行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡(luò)方法以及決策樹方法等。
二、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法
1.基本原理。在設(shè)備出現(xiàn)故障時(shí)采用數(shù)據(jù)挖掘技術(shù)對(duì)設(shè)備進(jìn)行一系列的故障診斷,也就是說根據(jù)這一設(shè)備的運(yùn)行記錄,對(duì)其運(yùn)行的趨勢(shì)進(jìn)行預(yù)測,并對(duì)其可能存在的運(yùn)行狀態(tài)進(jìn)行分類,故障診斷的實(shí)質(zhì)就是一種模式識(shí)別方式,對(duì)機(jī)器設(shè)備的故障進(jìn)行診斷的過程也就是該模式匹配和獲取的過程。
2.對(duì)故障診斷的數(shù)據(jù)挖掘方法建模。針對(duì)機(jī)械故障的診斷來說,首先就應(yīng)當(dāng)獲取一些關(guān)于本機(jī)組的一些運(yùn)行參數(shù),既要包括機(jī)器在正常運(yùn)行以及平穩(wěn)工作時(shí)的信息數(shù)據(jù),也應(yīng)當(dāng)包括機(jī)器在出現(xiàn)故障時(shí)的一些信息數(shù)據(jù),在現(xiàn)場的監(jiān)控系統(tǒng)中往往就會(huì)存在著相應(yīng)的正常工作狀態(tài)下以及出現(xiàn)故障時(shí)的不同運(yùn)行參數(shù),而數(shù)據(jù)挖掘的任務(wù)就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對(duì)故障的模式進(jìn)行劃分時(shí),我們通??梢越柚怕式y(tǒng)計(jì)的方式,在對(duì)故障模式進(jìn)行識(shí)別時(shí)可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實(shí)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類所需要用到的一些規(guī)則,從而最終達(dá)到分類的目的,依據(jù)這些規(guī)則,就可以對(duì)一些新來的數(shù)據(jù)進(jìn)行判斷,而且可以準(zhǔn)確地對(duì)故障進(jìn)行分類,找出故障所產(chǎn)生的原因和解決故障的正確方法。
三、數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能
1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個(gè)子站的一個(gè)數(shù)據(jù)匯總,而保護(hù)設(shè)備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進(jìn)行數(shù)據(jù)的處理時(shí)又能做到不影響原先分站數(shù)據(jù)庫的正常運(yùn)行,并且具備抗干擾能力強(qiáng)、計(jì)算效率高的優(yōu)點(diǎn)。
2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運(yùn)行時(shí),會(huì)從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對(duì)這些采集到的數(shù)據(jù)進(jìn)行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對(duì)龐大的故障數(shù)據(jù)進(jìn)行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對(duì)信息進(jìn)行有效地存儲(chǔ)和分類。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢的功能,可以進(jìn)行不同條件下的查詢,例如按時(shí)間段、報(bào)告類型、設(shè)備型號(hào)以及單位等進(jìn)行查詢,實(shí)現(xiàn)查詢后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產(chǎn)繼電保護(hù)動(dòng)作的分析報(bào)告,主要包括對(duì)故障過程的簡述、故障切除情況以及保護(hù)動(dòng)作情況等,可以便于繼電保護(hù)人員直觀的對(duì)保護(hù)裝置的動(dòng)作情況進(jìn)行分析。
四、結(jié)語
隨著企業(yè)自動(dòng)化程度的不斷提高以及數(shù)據(jù)庫技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設(shè)備方面都安裝了監(jiān)測系統(tǒng),對(duì)設(shè)備運(yùn)行過程中的一些重要參數(shù)和數(shù)據(jù)進(jìn)行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設(shè)備故障診斷中的一些知識(shí)獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應(yīng)用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實(shí)證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到故障診斷中是非常有效的,也是值得研究和學(xué)習(xí)的新型技術(shù)手段。
參考文獻(xiàn):
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)[j].電力自動(dòng)化設(shè)備,2011,9
一、引言
隨著我國高等教育的改革和發(fā)展,高校進(jìn)入大規(guī)模舉債辦學(xué)的階段,高校財(cái)務(wù)面臨的局面越來越復(fù)雜。高校不僅有基礎(chǔ)建設(shè)、事業(yè)單位經(jīng)費(fèi)收支,還涉及到科研經(jīng)費(fèi)、校辦企業(yè)投資等,高校一旦發(fā)生財(cái)務(wù)問題,影響的不僅僅是高校本身,更會(huì)引發(fā)各式各樣的社會(huì)問題,因此需要對(duì)影響高校正常運(yùn)行的各種財(cái)務(wù)問題進(jìn)行實(shí)時(shí)有效的監(jiān)控。
傳統(tǒng)的財(cái)務(wù)分析方法單純以財(cái)務(wù)報(bào)表為基礎(chǔ),就多個(gè)指標(biāo)進(jìn)行分析,也就是單純地看最近一年或幾年,或者某個(gè)院系的指標(biāo)。與這些靜態(tài)的分析方法相比,把商業(yè)智能運(yùn)用到財(cái)務(wù)預(yù)警系統(tǒng),即將財(cái)務(wù)數(shù)據(jù)和各種外部數(shù)據(jù)進(jìn)行收集、歸納、量化(ETL技術(shù))建立數(shù)據(jù)倉庫,高校財(cái)務(wù)部門可以通過提取有用的數(shù)據(jù)經(jīng)過聯(lián)機(jī)分析處理工具(OLAP)或數(shù)據(jù)挖掘工具(Date Mining)結(jié)合財(cái)務(wù)部門的專業(yè)知識(shí)進(jìn)行分析,轉(zhuǎn)化為對(duì)高校財(cái)務(wù)分析有用的信息,從而為高校財(cái)務(wù)提供一個(gè)動(dòng)態(tài)的風(fēng)險(xiǎn)預(yù)警方案??偠灾瑢⑸虡I(yè)智能運(yùn)用于高校的財(cái)務(wù)分析系統(tǒng),可以根據(jù)不同的決策層靈活地展現(xiàn)財(cái)務(wù)分析結(jié)果,也可以連續(xù)分析財(cái)務(wù)問題,還可以與高校其他院系聯(lián)合在一起進(jìn)行綜合分析。
二、高校財(cái)務(wù)指標(biāo)體系的構(gòu)建
高校財(cái)務(wù)指標(biāo)是高校財(cái)務(wù)預(yù)警的一個(gè)核心,相關(guān)學(xué)者對(duì)高校財(cái)務(wù)指標(biāo)體系已經(jīng)有了一定的研究,本文針對(duì)高校過度舉債、資金利用率低等問題,就高校財(cái)務(wù)指標(biāo)作了相應(yīng)的調(diào)整,再結(jié)合指標(biāo)選取原則初步建立了有效的高校指標(biāo)體系。
(一)償債能力
為了反映高校償還債務(wù)能力和資產(chǎn)負(fù)債水平,選取流動(dòng)比率、資產(chǎn)負(fù)債率、長期負(fù)債率、貸款收入比重、利息保障倍數(shù)五個(gè)指標(biāo)。
(二)營運(yùn)能力
為了反映高校的經(jīng)營狀況選取現(xiàn)實(shí)支付比率、潛在的支付比率、公共經(jīng)費(fèi)支出比率、投資收益比率、自有資金余額占年末貨幣資金比重五個(gè)指標(biāo)。
(三)發(fā)展能力
為了反映高校的成長性以及開源創(chuàng)收的能力,選取凈資產(chǎn)增長率、固定資產(chǎn)增長率、現(xiàn)金凈額增長率、自籌收入比率四個(gè)指標(biāo)。
(四)非財(cái)務(wù)因素
一些非財(cái)務(wù)因素也能體現(xiàn)出高校的辦學(xué)效率和發(fā)展實(shí)力,為了全面反映高校的發(fā)展?fàn)顩r選取了師生比、教師人均科研經(jīng)費(fèi)和教師貢獻(xiàn)率三個(gè)指標(biāo)。
即使指標(biāo)選擇嚴(yán)謹(jǐn),這些指標(biāo)中某些指標(biāo)間還是有一定的相關(guān)性,并且過多的指標(biāo)會(huì)增加信息的收集和整理難度,降低工作效率,所以要對(duì)這些指標(biāo)進(jìn)行優(yōu)化。將初選四個(gè)方面的所有十七個(gè)指標(biāo)匯總進(jìn)行正態(tài)性檢驗(yàn),將服從正態(tài)性分布的指標(biāo)體系進(jìn)一步做T檢驗(yàn),以確定哪些指標(biāo)具有顯著性作用,篩選出顯著性指標(biāo),刪除不顯著的指標(biāo);將沒有服從正態(tài)性分布的指標(biāo)體系進(jìn)一步做非參數(shù)檢驗(yàn),同理確定這部分指標(biāo)中的顯著性指標(biāo),刪除不顯著的指標(biāo),最后匯總所有顯著性指標(biāo)用于構(gòu)建高校財(cái)務(wù)預(yù)警模型指標(biāo)體系。此優(yōu)化過程不僅解決了預(yù)警指標(biāo)體系的顯著性問題,同時(shí)也達(dá)到了盡可能降低預(yù)警指標(biāo)體系維度的目的。
三、高校財(cái)務(wù)預(yù)警基于商業(yè)智能技術(shù)的實(shí)現(xiàn)
高校商業(yè)智能系統(tǒng)主要包括三部分:高校數(shù)據(jù)倉庫、多維分析和高校數(shù)據(jù)挖掘。高校數(shù)據(jù)倉庫用于存儲(chǔ)有用信息;多維分析可以從不同層面進(jìn)行全面了解儲(chǔ)存在高校數(shù)據(jù)倉庫中的信息;高校數(shù)據(jù)挖掘則是發(fā)現(xiàn)問題找規(guī)律,并對(duì)將來進(jìn)行預(yù)測。高校商業(yè)智能實(shí)現(xiàn)的大體過程是收集數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)化,存入數(shù)據(jù)倉庫,將倉庫數(shù)據(jù)變?yōu)樾畔?,并用OLAP工具、數(shù)據(jù)挖掘工具對(duì)信息進(jìn)行處理,將信息變?yōu)閷?duì)決策有用的知識(shí)。其架構(gòu)如圖1。
(一)財(cái)務(wù)數(shù)據(jù)倉庫的設(shè)計(jì)
高校數(shù)據(jù)倉庫的目的是通過對(duì)整個(gè)高校的相關(guān)數(shù)據(jù)進(jìn)行梳理,構(gòu)建一個(gè)體系化的數(shù)據(jù)存儲(chǔ)環(huán)境,把大量分散復(fù)雜的數(shù)據(jù)轉(zhuǎn)化成集成的、統(tǒng)一的信息,將正確的信息方便、準(zhǔn)確地傳遞給需要的人。數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)庫的最大區(qū)別在于傳統(tǒng)的數(shù)據(jù)庫是未經(jīng)整理的一堆雜亂數(shù)據(jù),而數(shù)據(jù)倉庫是經(jīng)過整理、規(guī)劃過的系統(tǒng)數(shù)據(jù)庫的子集合。數(shù)據(jù)倉庫可以使高校面對(duì)大量的錯(cuò)綜復(fù)雜的數(shù)據(jù)進(jìn)行靈活的處理,為內(nèi)部各個(gè)信息使用者提供他們所需要的有效信息。
1.數(shù)據(jù)倉庫概念模型的設(shè)計(jì)
數(shù)據(jù)倉庫的概念模型主要任務(wù)是界定系統(tǒng)邊界和確定主題域及內(nèi)容,星形概念模式是由一個(gè)事實(shí)表和一組維表組成,是一種多維的數(shù)據(jù)關(guān)系,相對(duì)于別的概念模型來說,星型雖然不節(jié)省空間,但是操作相對(duì)簡單,所以創(chuàng)建高校數(shù)據(jù)倉庫的概念模型采用星型。
高校各類指標(biāo)的多維分析是商業(yè)智能技術(shù)構(gòu)建高校財(cái)務(wù)預(yù)警的核心問題,所以在設(shè)計(jì)概念模型時(shí),應(yīng)選擇財(cái)務(wù)指標(biāo)作為數(shù)據(jù)倉庫的主題,并以這一主題建立事實(shí)表,然后從高校財(cái)務(wù)分析的角度來確定維度,如時(shí)間、項(xiàng)目、部門等。各高校可以根據(jù)自身的情況來設(shè)定維度,文章根據(jù)自身了解的情況擬設(shè)了六個(gè)維度作為介紹:院級(jí)單位、項(xiàng)目、部門、指標(biāo)、往來單位、時(shí)間。星型結(jié)構(gòu)設(shè)計(jì)如圖2。
2.財(cái)務(wù)數(shù)據(jù)倉庫邏輯模型設(shè)計(jì)
邏輯模型主要是根據(jù)星形維度的選擇,構(gòu)建維度的層次關(guān)系,層次關(guān)系以高校相關(guān)人員對(duì)信息的需求為主線,分析各維度的層次關(guān)系以及粒度的劃分、事實(shí)表的設(shè)計(jì)等。比如之前的高校數(shù)據(jù)倉庫概念模型設(shè)計(jì)分了六個(gè)維度,時(shí)間維度就可以從日、周、月、季度、年來進(jìn)行劃分層次;院級(jí)單位可以按一級(jí)單位(校),二級(jí)單位(院),三級(jí)單位(部門)依次劃分;指標(biāo)可以根據(jù)前文中所示的指標(biāo)類型進(jìn)行劃分;項(xiàng)目可以按照高校所承接的國家級(jí)項(xiàng)目、省級(jí)項(xiàng)目以及其他項(xiàng)目類別進(jìn)行劃分;部門可以按黨委部門、行政部門、教學(xué)單位、教輔單位、附屬單位依次劃分;往來單位按照政府、金融機(jī)構(gòu)、企業(yè)等進(jìn)行劃分。
3.財(cái)務(wù)數(shù)據(jù)倉庫物理模型設(shè)計(jì)
物理模型需要確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)、索引策略、數(shù)據(jù)存放位置及存儲(chǔ)分配等,主要目的是提高性能和更好地管理存儲(chǔ)數(shù)據(jù)。
4.數(shù)據(jù)ETL
ETL包括抽取、轉(zhuǎn)換、裝載。其中,抽取是將數(shù)據(jù)從各種原始存放系統(tǒng)(如各種帳套數(shù)據(jù)和Excel文件)中讀??;轉(zhuǎn)換是按照預(yù)先設(shè)計(jì)好的規(guī)則將數(shù)據(jù)轉(zhuǎn)換,使數(shù)據(jù)格式統(tǒng)一;裝載則是將轉(zhuǎn)換好的數(shù)據(jù)導(dǎo)入高校數(shù)據(jù)倉庫。
(二)基于OLAP技術(shù)的財(cái)務(wù)分析模型實(shí)現(xiàn)
OLAP技術(shù)(聯(lián)機(jī)分析處理技術(shù))以數(shù)據(jù)倉庫為基礎(chǔ),針對(duì)某個(gè)特定的主題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個(gè)維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運(yùn)營情況展現(xiàn)給使用者。OLAP技術(shù)的一個(gè)重要特點(diǎn)是通過多維交互的方式對(duì)數(shù)據(jù)進(jìn)行處理,與多維數(shù)據(jù)組織的數(shù)據(jù)倉庫相互結(jié)合、補(bǔ)充,這些多維分析操作可以使用戶從不同的維度和角度來分析數(shù)據(jù),其中主要方法包括切片、切塊、鉆取和旋轉(zhuǎn)。
而對(duì)于已經(jīng)建立并裝載完成了高校數(shù)據(jù)倉庫的,可以在此基礎(chǔ)上建立OLAP系統(tǒng)。首先對(duì)OLAP的多維數(shù)據(jù)結(jié)構(gòu)進(jìn)行設(shè)計(jì),包括維度和多維數(shù)據(jù)集的設(shè)計(jì),然后創(chuàng)建維度和多維數(shù)據(jù)集,可以采用Analysis Service做分析服務(wù)器,最后利用SSRS展示查詢數(shù)據(jù)。高校財(cái)務(wù)預(yù)警正是運(yùn)用OLAP技術(shù)實(shí)現(xiàn)各監(jiān)控指標(biāo)的多維綜合評(píng)價(jià),達(dá)到對(duì)高校財(cái)務(wù)數(shù)據(jù)的實(shí)時(shí)分析。
例如,通過對(duì)高校財(cái)務(wù)部門的調(diào)查研究,發(fā)現(xiàn)其需要了解高校不同時(shí)間、不同院系的科研收入、教學(xué)成果以及償債能力等,那么信息使用者可以在選擇范圍內(nèi)的維度和量度來進(jìn)行有意義的組合,還可以從其他不同的角度來了解高校的財(cái)務(wù)狀況。通過報(bào)表展示,可以選擇對(duì)不同維度上涉及到的數(shù)量進(jìn)行分析,并找到有價(jià)值的信息。高??梢赃x擇“時(shí)間”、“各級(jí)院”、“償債能力”組成一個(gè)三維的償債能力立方體,以表示在不同的時(shí)間,各個(gè)二級(jí)院校的償債能力如何。具體如圖3。
OLAP對(duì)于數(shù)據(jù)的即時(shí)處理和分析充分體現(xiàn)出財(cái)務(wù)分析的時(shí)效性和真實(shí)性,實(shí)現(xiàn)了商業(yè)智能技術(shù)與財(cái)務(wù)分析的融合。OLAP通過多維的方式對(duì)數(shù)據(jù)進(jìn)行了分析、查詢和定制報(bào)表。維是人們觀察數(shù)據(jù)的特定角度,多維分析方式符合思維模式,減少了混淆并且降低了出現(xiàn)錯(cuò)誤的可能性,它能使用戶多側(cè)面、多角度地觀察數(shù)據(jù)庫中的數(shù)據(jù)。OLAP可以通過切片、切塊、鉆取及旋轉(zhuǎn)等操作來分析數(shù)據(jù)倉庫中的財(cái)務(wù)數(shù)據(jù),以對(duì)高校的財(cái)務(wù)數(shù)據(jù)進(jìn)行更透徹形象地分析。
(三)基于數(shù)據(jù)挖掘技術(shù)的財(cái)務(wù)預(yù)警模型的實(shí)現(xiàn)
對(duì)于已經(jīng)存在的財(cái)務(wù)信息,可以利用OLAP技術(shù)從不同的維度由高校數(shù)據(jù)倉庫中獲取,但是高校數(shù)據(jù)倉庫數(shù)據(jù)中潛在的、隱藏的關(guān)系和信息很難得到充分的體現(xiàn),以確定高校的財(cái)務(wù)發(fā)展趨勢(shì)。因此需要利用數(shù)據(jù)挖掘技術(shù)對(duì)它們進(jìn)行深度的挖掘,構(gòu)建高校財(cái)務(wù)危機(jī)預(yù)警模型。
數(shù)據(jù)挖掘技術(shù)提供了多種財(cái)務(wù)預(yù)警計(jì)算方法,如神經(jīng)網(wǎng)絡(luò)算法、邏輯回歸算法、聚類分析算法、決策樹和關(guān)聯(lián)規(guī)則等,在前文已建立數(shù)據(jù)倉庫的基礎(chǔ)上,可以根據(jù)財(cái)務(wù)預(yù)警的具體需要選擇適當(dāng)?shù)乃惴?gòu)建財(cái)務(wù)預(yù)警模型,分析數(shù)據(jù)挖掘的結(jié)果。具體說,將已經(jīng)準(zhǔn)備好的數(shù)據(jù)分離到定型數(shù)據(jù)集中,并生成挖掘模型,通過創(chuàng)建預(yù)測查詢,運(yùn)用測試數(shù)據(jù)集驗(yàn)證模型的準(zhǔn)確性,以確定是否是性能最佳的模型。當(dāng)模型確定以后,進(jìn)行財(cái)務(wù)預(yù)警分析。
鑒于高校財(cái)務(wù)問題與一般企業(yè)的財(cái)務(wù)問題有著本質(zhì)的區(qū)別,高校財(cái)務(wù)數(shù)據(jù)并不如上市公司一樣公開,數(shù)據(jù)量不豐富,導(dǎo)致成熟的企業(yè)財(cái)務(wù)預(yù)警模型很難適用于高校,所以本文認(rèn)為數(shù)據(jù)挖掘方法中的灰色關(guān)聯(lián)計(jì)算方法更適合高校財(cái)務(wù)預(yù)警。運(yùn)用灰色關(guān)聯(lián)的數(shù)據(jù)挖掘技術(shù)進(jìn)行財(cái)務(wù)預(yù)警相對(duì)于傳統(tǒng)的財(cái)務(wù)分析方法能夠消除數(shù)據(jù)的噪聲,將非標(biāo)準(zhǔn)的數(shù)據(jù)標(biāo)準(zhǔn)化,在應(yīng)對(duì)高校面臨的外部環(huán)境多變的形勢(shì)下,運(yùn)用該項(xiàng)技術(shù)是必要的。具體做法是首先將數(shù)據(jù)從數(shù)據(jù)倉庫中提取出來,然后對(duì)數(shù)據(jù)進(jìn)行處理,如無量綱化,將處理后的數(shù)據(jù)帶入灰色關(guān)聯(lián)模型,得出結(jié)果并進(jìn)行分析。具體步驟如圖4。
四、結(jié)論
對(duì)于高校的財(cái)務(wù)預(yù)警問題,需要一個(gè)動(dòng)態(tài)的監(jiān)控系統(tǒng)來進(jìn)行實(shí)時(shí)監(jiān)控,而商業(yè)智能技術(shù)能夠促進(jìn)這一設(shè)想的實(shí)現(xiàn)。運(yùn)用商業(yè)智能來構(gòu)建高校財(cái)務(wù)預(yù)警系統(tǒng)可以將潛在的影響高校正常運(yùn)行的各種財(cái)務(wù)狀況實(shí)時(shí)反映出來。數(shù)據(jù)倉庫技術(shù)能夠使高校的數(shù)據(jù)進(jìn)行自動(dòng)的更新存儲(chǔ),OLAP技術(shù)能夠?qū)Ω咝,F(xiàn)有的財(cái)務(wù)數(shù)據(jù)進(jìn)行多維的分析,同時(shí)應(yīng)用數(shù)據(jù)挖掘技術(shù)建立財(cái)務(wù)預(yù)警模型,實(shí)現(xiàn)了對(duì)高校財(cái)務(wù)進(jìn)行動(dòng)態(tài)的監(jiān)控。
【參考文獻(xiàn)】
[1] 田隆.基于財(cái)務(wù)數(shù)據(jù)中心的商業(yè)智能平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京信息控制研究所碩士學(xué)位論文,2010.
[2] 陳俊.財(cái)務(wù)商業(yè)智能系統(tǒng)的研究及其實(shí)現(xiàn)[D].中國航天第二研究院碩士學(xué)位論文,2008.
[3] 丁博.基于商業(yè)智能的A央企財(cái)務(wù)分析系統(tǒng)研究[D].北京:北京交通大學(xué)碩士學(xué)位論文,2012.
關(guān)鍵詞:高校教育教學(xué);數(shù)據(jù)挖掘技術(shù);運(yùn)用
一、數(shù)據(jù)挖掘概述
所謂的數(shù)據(jù)挖掘,具體指的就是在海量且模糊隨機(jī)數(shù)據(jù)當(dāng)中提取出隱含其中,同時(shí)具有潛在價(jià)值的信息與知識(shí)過程。將數(shù)據(jù)挖掘技術(shù)應(yīng)用在教育教學(xué)當(dāng)中,可以對(duì)海量數(shù)據(jù)予以深入挖掘與分析,進(jìn)而獲得數(shù)據(jù)當(dāng)中所隱含的潛在信息內(nèi)容,更好地為高校教育教學(xué)管理人員決策提供有力支持[1]。
二、高校教育教學(xué)管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用
2.1在教學(xué)質(zhì)量提升方面的應(yīng)用
高等院校為了更好地提高教學(xué)管理的質(zhì)量,教務(wù)管理部門會(huì)在學(xué)期期末測評(píng)學(xué)員領(lǐng)導(dǎo)與任課教師的教學(xué)思想、態(tài)度以及教學(xué)方法等,并且根據(jù)最終的評(píng)分結(jié)果來明確教師的教學(xué)質(zhì)量。然而,受評(píng)價(jià)人員對(duì)標(biāo)準(zhǔn)理解以及把握程度的影響,學(xué)生評(píng)價(jià)仍存在隨意性特征。
在這種情況下,導(dǎo)致評(píng)分結(jié)果很難對(duì)教學(xué)效果進(jìn)行真實(shí)地反映,因而也影響了教學(xué)質(zhì)量的評(píng)估。
但是,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在教學(xué)質(zhì)量評(píng)估方面,通過對(duì)關(guān)聯(lián)規(guī)則算法的合理運(yùn)用,可以將教學(xué)質(zhì)量評(píng)價(jià)當(dāng)中的不同指標(biāo)權(quán)重系數(shù)進(jìn)行設(shè)定,并通過Apriori的算法來掃描數(shù)據(jù)集,在數(shù)據(jù)挖掘的作用下,獲取學(xué)歷、年齡以及職稱三者之間存在的聯(lián)系,同樣也可以獲得教學(xué)質(zhì)量和方法的關(guān)系[2]。
為此,高校教務(wù)管理部門就可以將獲得的規(guī)律應(yīng)用在教學(xué)管理實(shí)踐當(dāng)中,合理地設(shè)置督學(xué)小組并制定出聽課制度,將教學(xué)課堂教學(xué)的質(zhì)量真實(shí)且客觀地反映出來,實(shí)現(xiàn)高校教學(xué)水平的全面提升。
2.2課程體系結(jié)構(gòu)的有效完善
高等院校教育體系當(dāng)中的專業(yè)建設(shè)作用十分重要,所以,必須要具備高質(zhì)量的課程體系結(jié)構(gòu)設(shè)置。在對(duì)學(xué)生成績數(shù)據(jù)庫以及畢業(yè)生去向數(shù)據(jù)庫等多種數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘以后,可以通過對(duì)關(guān)聯(lián)分析與序列模式的分析和探究,獲得數(shù)據(jù)與數(shù)據(jù)間存在的相關(guān)性。
其中,課程間的關(guān)系和先后順序亦或是課程和課程體系結(jié)構(gòu)之間的關(guān)系等等。在此基礎(chǔ)上,保證學(xué)習(xí)高級(jí)課程前事先學(xué)習(xí)先行課程。以計(jì)算機(jī)專業(yè)《數(shù)據(jù)結(jié)構(gòu)》為例,在教學(xué)中將《C語言》作為重要的先行課程,以保證學(xué)生在學(xué)習(xí)《數(shù)據(jù)結(jié)構(gòu)》內(nèi)容的時(shí)候可以具備良好語言基礎(chǔ),更深入地理解并靈活地應(yīng)用數(shù)據(jù)結(jié)構(gòu)當(dāng)中的算法。
而在完成《數(shù)據(jù)結(jié)構(gòu)》學(xué)習(xí)以后,應(yīng)根據(jù)學(xué)生就業(yè)走向和市場的實(shí)際需求來確定是否安排《JAVA語言程序設(shè)計(jì)》課程教學(xué)。這樣一來,學(xué)生的學(xué)習(xí)成績實(shí)現(xiàn)了有效地提高,更利于學(xué)生未來就業(yè)。除此之外,對(duì)內(nèi)容重復(fù)的課程進(jìn)行有效地壓縮,將落后的課程內(nèi)容適當(dāng)?shù)貏h除,與專業(yè)特點(diǎn)相結(jié)合。
由此可見,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在高校教學(xué)中,對(duì)于專業(yè)建設(shè)以及課程改革決策具有積極的作用。
三、網(wǎng)絡(luò)教學(xué)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用
在網(wǎng)絡(luò)教學(xué)中應(yīng)用數(shù)據(jù)挖掘技術(shù),可以從Web文件以及Web活動(dòng)當(dāng)中選擇出用戶較為感興趣的有價(jià)值模式以及信息,這就是所謂的Web挖掘[3]。因?yàn)榻邮芙逃龑?duì)象在多個(gè)方面都存在差異,具體表現(xiàn)在個(gè)人學(xué)習(xí)目標(biāo)、學(xué)習(xí)能力與知識(shí)基礎(chǔ)的差異等。為此,網(wǎng)絡(luò)教學(xué)也必須要能夠適應(yīng)個(gè)性化的學(xué)習(xí)需求??梢园巡煌脩魧W(xué)習(xí)狀況與軌跡詳細(xì)記錄并存放至數(shù)據(jù)庫當(dāng)中,通過對(duì)WEB挖掘技術(shù)的合理運(yùn)用,在序列模式挖掘的作用下合理地分類文檔,以保證學(xué)生信息檢索速度的提高。
另外,也可以根據(jù)學(xué)生訪問瀏覽的數(shù)據(jù)挖掘并分析,針對(duì)訪問的數(shù)據(jù)展開聚類分析,以保證更好地了解學(xué)生感興趣的內(nèi)容,并為其推送相關(guān)內(nèi)容。與此同時(shí),可以在相關(guān)聯(lián)的頁面當(dāng)中合理地設(shè)置超鏈接,對(duì)網(wǎng)站結(jié)構(gòu)予以有效地改善,確保頁面間的鏈接與用戶訪問的習(xí)慣更吻合。
結(jié)束語:
總而言之,在高校教育教學(xué)中合理地運(yùn)用數(shù)據(jù)挖掘技術(shù)可以在大量數(shù)據(jù)信息當(dāng)中處理并提取出更具價(jià)值的信息內(nèi)容,促進(jìn)高等院校教育教學(xué)管理工作的正常開展,特別是評(píng)估與決策方面,數(shù)據(jù)挖掘技術(shù)的作用更為明顯。
除此之外,該技術(shù)也可以應(yīng)用在網(wǎng)絡(luò)教學(xué)當(dāng)中,使得網(wǎng)絡(luò)教學(xué)資源配置更加合理,在教育教學(xué)中充分發(fā)揮自身的效用。上文針對(duì)數(shù)據(jù)挖掘技術(shù)在高校教育教學(xué)中的實(shí)際應(yīng)用展開了相關(guān)性地研究和分析,主要的目的就是為了更好地幫助高校進(jìn)行決策,為學(xué)生提供更為理想的學(xué)習(xí)環(huán)境,在提高學(xué)生學(xué)習(xí)興趣的基礎(chǔ)上,增強(qiáng)高校教育教學(xué)的質(zhì)量與效率。
參考文獻(xiàn)