韩国激情一区二区高清在线,亚洲中文字幕网址在线,九色在线精品视频,久久深夜福利亚洲网站

    <object id="jtoc7"><button id="jtoc7"></button></object>

      <object id="jtoc7"></object>

      期刊 科普 SCI期刊 投稿技巧 學術(shù) 出書 購物車

      首頁 > 優(yōu)秀范文 > 數(shù)據(jù)挖掘論文

      數(shù)據(jù)挖掘論文樣例十一篇

      時間:2022-12-20 18:09:05

      序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗,特別為您篩選了11篇數(shù)據(jù)挖掘論文范文。如果您需要更多原創(chuàng)資料,歡迎隨時與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識!

      數(shù)據(jù)挖掘論文

      篇1

      2模糊集理論的引入

      在討論實際問題的時候,需要判定模糊概念涵義,如判斷某個數(shù)據(jù)在模糊集的定義和歸屬,這時就需要普通集合與模糊集合可依某種法則相互轉(zhuǎn)換。模糊理論中的截集是模糊集合和普通集合之間相互轉(zhuǎn)換的一座橋梁。

      3基于事務間數(shù)值型關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法

      假設有一就業(yè)數(shù)據(jù)庫,先通過數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個單位。由此就得到了經(jīng)過偏置后的數(shù)據(jù)庫記錄。再依滑動窗口方法,設maxspan=1(該值可以依實際情況的需要來定),就可將偏置后的數(shù)據(jù)庫數(shù)據(jù)整理轉(zhuǎn)化為擴展事務數(shù)據(jù)庫。再把擴展事務數(shù)據(jù)庫記錄通過隸屬度函數(shù)轉(zhuǎn)化為對應的隸屬度。

      篇2

      二、石家莊地區(qū)制藥企業(yè)專利數(shù)據(jù)挖掘

      本文對石家莊地區(qū)制藥企業(yè)的專利數(shù)據(jù)進行挖掘分析,挖掘?qū)ο笫侨A北制藥集團公司、石家莊制藥集團有限公司、石家莊神威藥業(yè)股份有限公司、石家莊四藥股份、河北以嶺藥業(yè)股份有限公司、石家莊市華曙制藥集團、河北醫(yī)科大學制藥廠、河北圣雪大成制藥有限責任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數(shù)據(jù)能夠找到石家莊地區(qū)制藥領(lǐng)域的核心組成,并能為藥企更好地發(fā)展提供有力的信息支持。IPC號是目前權(quán)威的專利技術(shù)主題的標識編碼之一,基本包含了各行各業(yè)的專利信息,是一個龐大的專利信息體系。目前國內(nèi)外很多分析方法及技術(shù)大部分是基于專利的IPC分類號來分析專利技術(shù)主題的,此分析方法有一定的參考價值和科學性,而且對于具有大量專利信息的分析具有很好的總結(jié)概括效果。本文以專利全部IPC號為分析對象,并且構(gòu)建IPC號之間的關(guān)聯(lián)規(guī)則,在最大程度上揭示隱含的專利技術(shù)關(guān)聯(lián)性,從而為石家莊地區(qū)制藥企業(yè)專利技術(shù)的發(fā)展提供參考。

      1.數(shù)據(jù)準備。數(shù)據(jù)來源的準確與否是數(shù)據(jù)分析與挖掘的基礎,是數(shù)據(jù)分析與挖掘的根本。本文所使用的石家莊地區(qū)制藥領(lǐng)域?qū)@麛?shù)據(jù)由萬方數(shù)據(jù)公司提供,以制藥企業(yè)地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區(qū)制藥領(lǐng)域?qū)@?44條,分別分布在A、B、C、D、E、F、G、H八個大部。對專利數(shù)據(jù)庫中的644條專利進行篩選,根據(jù)“分類號”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區(qū)制藥領(lǐng)域沒有聯(lián)系或聯(lián)系很小,不宜保留。根據(jù)“申請人(專利權(quán)人)”字段的限制,剔除與石家莊地區(qū)制藥不相關(guān)或制藥企業(yè)地址不在石家莊地區(qū)的專利。最后篩選出590條最符合該領(lǐng)域特點的專利。由于IPC號在幾乎所有現(xiàn)存數(shù)據(jù)庫中均是以一個字段存儲一個專利的所有IPC分類號的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個專利一般都有好幾個分類號,而每個企業(yè)又研究大量的專利,所以在進行專利分析之前,需要對專利IPC號進行數(shù)據(jù)整理。由于過于細致的IPC分類號并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號的前4位。并將申請人與其對應的多條IPC號進行拆分,拆分后的數(shù)據(jù)項有773條,即顯示每個申請人對應的一條IPC分類號。

      2.數(shù)據(jù)挖掘。本文數(shù)據(jù)挖掘過程將采用Excel和SQLsever2005軟件,首先對所得到的數(shù)據(jù)導入SQLserver2005進行挖掘,利用SQLserver2005可以直接進行IPC號的關(guān)聯(lián)規(guī)則挖掘,然后對專利信息進行分析。

      3.數(shù)據(jù)挖掘結(jié)果與分析。基于關(guān)聯(lián)規(guī)則制作依賴關(guān)系網(wǎng)絡圖,可以更加直觀地看到各個IPC號之間的關(guān)聯(lián)和依賴狀態(tài)。

      (1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術(shù)群。這些專利的IPC分類號是關(guān)鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫(yī)用、牙科用等的配置品)是項集次數(shù)最多的,即支持度較高的,C12P(發(fā)酵或使用酶的方法合成目標化合物或組合物或從外消旋混合物中分離旋光異構(gòu)體)、C12N(微生物或酶;其組合物)、C07D(雜環(huán)環(huán)合物,例如鄰氯芐星青霉素的合成)、C07C(無環(huán)和碳環(huán)化合物)通過專利相關(guān)知識我們已經(jīng)知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領(lǐng)域的核心。這也是和石家莊地區(qū)制藥企業(yè)的核心領(lǐng)域相符合的。另外這些專利主題的相互關(guān)聯(lián)、依賴說明了石家莊地區(qū)制藥企業(yè)在該領(lǐng)域具有很好的布局網(wǎng)絡,在研發(fā)數(shù)量上也占有一定優(yōu)勢,所以說是石家莊地區(qū)制藥企業(yè)的主要研究領(lǐng)域。

      (2)以B65G、C12M為中心的輔助設備專利技術(shù)群。藥品的生產(chǎn)離不開設備的支持,所以設備方面的專利也能體現(xiàn)制藥企業(yè)的技術(shù)水平。在圖1中也能體現(xiàn)出來,專利間有著很強的依賴性和關(guān)聯(lián)性,在核心專利周邊有B65G(運輸或貯存裝置,例如裝載或傾斜用輸送機、車間輸送機系統(tǒng)、氣動管道輸送機)、C12M(酶學或微生物學裝置),這些是制藥的輔助技術(shù)手段,與中心專利是相互聯(lián)系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領(lǐng)域的發(fā)展。先進藥品的研制離不開先進制藥設備支持,所以設備水平的提高也是關(guān)鍵的。如圖3所示,石家莊地區(qū)制藥企業(yè)在這一方面的技術(shù)依賴網(wǎng)絡也已經(jīng)形成,說明在此技術(shù)領(lǐng)域也已經(jīng)擁有較強實力。但與中心主要專利相比,輔助設備專利技術(shù)還是需要不斷提高的。

      篇3

      主要采用關(guān)聯(lián)規(guī)則與頻次分析相結(jié)合的數(shù)據(jù)挖掘方法,關(guān)聯(lián)規(guī)則旨在提示處方中存在的兩個或兩個以上腧穴之間的配伍形式,頻次分析能夠提供針灸治療某一疾病選用的腧穴及其頻繁程度。羅玲等在全面采集古代針灸治療中風文獻基礎上,重點進行了選穴的經(jīng)絡癥狀關(guān)聯(lián)分析,發(fā)現(xiàn)針刺治療中風半身不遂使用腧穴頻次最多的為曲池、肩等手陽明經(jīng)穴;肩、曲池、足三里、百會、風池配伍是最常用處方;多選用足少陽經(jīng)和手足陽明經(jīng)穴位。針刺治療中風不省人事使用腧穴頻次最多的為督脈百會穴、心包經(jīng)中沖穴;風池、百會、曲池配伍或大椎、百會、風池配伍是最常用處方;經(jīng)脈多選用督脈和足少陽、手陽明等陽經(jīng)穴位。以上表明針灸治療中風遵循了辨證循經(jīng)取穴的處方規(guī)律。何冬鳳等在全面采集現(xiàn)代針灸治療心絞痛臨床文獻基礎上,重點進行了選穴的經(jīng)絡部位關(guān)聯(lián)分析。結(jié)果發(fā)現(xiàn),心絞痛選穴分布在心包經(jīng)、膀胱經(jīng)、任脈、心經(jīng)最多;選穴主要分布在上肢部、背部、胸部,上肢部用穴中近90%分布于心包經(jīng)和心經(jīng),背部用穴近95%分布于膀胱經(jīng),胸部用穴全分布于任脈和心經(jīng)。以上表明針灸治療心絞痛遵循了辨位循經(jīng)取穴的處方規(guī)律。數(shù)據(jù)挖掘結(jié)果證實了古代、現(xiàn)代取穴規(guī)律和特點與針灸臨床理論的一般規(guī)律和特點是基本相符的。經(jīng)絡辨證提示了經(jīng)穴效應的循經(jīng)性,特定穴的選用提示了經(jīng)氣會聚狀態(tài)是腧穴發(fā)揮效應特異性的關(guān)鍵。

      1.2腧穴運用規(guī)律的研究

      1)神經(jīng)系統(tǒng)疾?。黑w凌等收錄了從先秦至清末的偏頭痛針灸專著,采用多層關(guān)聯(lián)規(guī)則挖掘算法,計算腧穴項集的支持度和置信度,發(fā)現(xiàn)手足少陽經(jīng)脈的穴位絲竹空、風池、率谷、頷厭、頭臨泣出現(xiàn)頻次最高,偏頭痛處方配伍中以合谷一風池出現(xiàn)的頻次最高,少陽經(jīng)的交會穴選用最多。楊潔等發(fā)現(xiàn)針灸治療貝爾面癱中,手足陽明經(jīng)穴選用最多,重視局部穴位,配合遠端選穴,地倉穴為使用頻次最多經(jīng)穴,交會穴、五輸穴、下合穴等特定穴運用廣泛。吳糧葶等挖掘針灸治療中風后遺癥的現(xiàn)代文獻,表明針灸治療中風后遺癥選穴以循經(jīng)為基礎,首選陽經(jīng)腧穴,分布主要在四肢,陽明經(jīng)與少陽經(jīng)的配伍關(guān)系最為常用,特定穴為選穴的主體,特別重視交會穴及肘膝關(guān)節(jié)以下的特定穴。李旗等挖掘出針刺治療格林巴利綜合征所選腧穴以足三里、合谷、曲池、陽陵泉、外關(guān)、三陰交使用頻率最高,經(jīng)絡則以手足陽明經(jīng)最為常用。CongMen等以不同針刺手法刺激小鼠足三里,構(gòu)筑神經(jīng)元混沌放電的復雜網(wǎng)絡來刻畫神經(jīng)元放電時間序列的時變特性。

      2)消化系統(tǒng)疾?。喝斡裉m等通過多維、多層的關(guān)聯(lián)規(guī)則分析針刺治療功能性消化不良的古文獻,發(fā)現(xiàn)足三里、中脘、脾俞、胃俞、內(nèi)關(guān)是治療FD最常用的主要腧穴,足三里與中脘相配是最主要穴位組配方式;取穴以循經(jīng)為基礎,主要集中在任脈、膀胱經(jīng)、脾胃經(jīng)上;所選腧穴以特定穴為主體,遵循局部與遠端取穴相結(jié)合原則。張勇等以古文獻中治療鼓脹的經(jīng)穴為原始數(shù)據(jù),運用頻數(shù)統(tǒng)計及關(guān)聯(lián)規(guī)則算法,統(tǒng)計出古代治療鼓脹最常用經(jīng)穴為足三里、水分、氣海等,通過2次priori關(guān)聯(lián)結(jié)果,最終確認組穴1(復溜,中風)和組穴2(復溜,脾俞)在臨床應用中具有強關(guān)聯(lián)性。鄭華斌等發(fā)現(xiàn)在治療腸易激綜合征中,特定穴的使用廣泛,其中以足三里為最,其次為天樞、上巨虛、中脘等,臟腑辨證取穴為針刺治療腸易激綜合征的重要原則,以足陽明胃經(jīng)的足三里和天樞為主。

      3)心血管系統(tǒng)疾?。汉味P等收集從先秦至清末有關(guān)胸痹的文獻,挖掘結(jié)果為歷代針灸治療胸痹以心包經(jīng)選用頻次最高,陰經(jīng)使用最為頻繁,特定穴的選用占有絕對優(yōu)勢,如五輸穴原穴絡穴等,體現(xiàn)了循經(jīng)取穴原則。高麗美通過頻次分析及關(guān)聯(lián)規(guī)則算法挖掘現(xiàn)代穴位貼敷治療心絞痛文獻,結(jié)果表明心俞、膻中、內(nèi)關(guān)、厥陰俞使用頻次最多,腧穴選用以特定穴為主,俞募配伍使用最多。腧穴分部以胸腹部、背部腧穴為主;以足太陽膀胱經(jīng)、任脈、手厥陰心包經(jīng)選用頻次較高。

      4)其他系統(tǒng)疾?。和鹾楸虻冉梃b文獻計量學及數(shù)據(jù)挖掘的相關(guān)方法,對針灸治療更年期綜合征的常用腧穴及經(jīng)絡進行描述性統(tǒng)計。發(fā)現(xiàn)現(xiàn)代治療女性更年期綜合征所選取的穴位中以三陰交、腎俞、關(guān)元、足三里使用頻率最高,膀胱經(jīng)、任脈、脾經(jīng)腧穴應用最為廣泛。王靜等發(fā)現(xiàn)源于149篇文獻的186條數(shù)據(jù)元素組成的阿片類藥依賴針灸治療數(shù)據(jù)庫中,用穴頻次居于前五的經(jīng)穴足三里、三陰交、內(nèi)關(guān)、合谷和神門構(gòu)成了穴—穴,癥—穴,研究對象—穴,—穴和戒毒分期—穴等關(guān)聯(lián)規(guī)則中的穴位主體。

      1.3刺灸方法的應用規(guī)律研究

      賈春生等提出建立刺灸法文獻數(shù)據(jù)庫并設計文獻數(shù)據(jù)應用平臺,在此基礎上分析數(shù)據(jù)資料,建立刺灸法數(shù)據(jù)挖掘模型。此后,各學者運用數(shù)據(jù)挖掘方法對穴位注射、火針、穴位敷貼、穴位埋線、刺絡放血等刺灸法進行了特異性規(guī)律及特點的研究。刺灸法挖掘技術(shù)的應用中,頻次分析最為常用,能夠提供各類刺灸法治療不同疾病的頻繁程度,篩選其治療的優(yōu)勢病種。張選平等發(fā)現(xiàn)穴位埋線療法主要優(yōu)勢病種是內(nèi)科的胃脘痛、肥胖病、癇證、哮喘、腹痛、面癱、便秘;外科的腰腿痛;皮膚科的牛皮癬和五官科的重瞼術(shù)。劉新等總結(jié)出放血針具共涉及9種,以三棱針使用頻次最高,將放血量人為分為6個等級,其中放血量為少許(少于0.1mL)的出現(xiàn)頻次最高,為401次。許曉康等發(fā)現(xiàn)水針療法在內(nèi)科疾病治療中出現(xiàn)頻次最高,其次為外科疾病,相對于其他疾病,呃逆出現(xiàn)頻次最高。

      1.4腧穴疾病譜的研究

      吳糧葶等通過規(guī)范病癥、腧穴名稱,統(tǒng)計中風后遺癥所屬病癥的針灸病癥譜及總結(jié)針灸治療中風后遺癥的腧穴譜,結(jié)果顯示針灸病癥譜分布呈偏向性,腧穴譜遍布十四經(jīng)脈,首選陽經(jīng)腧穴,常用腧穴以陽明少陽經(jīng)穴為主。邢晶晶等通過文獻比例、疾病比例對內(nèi)關(guān)及其常見配伍的針刺病譜進行分析,總結(jié)出內(nèi)關(guān)針刺病譜主要分布于脾胃系和心系;單穴內(nèi)關(guān)針刺病譜中冠心病文獻比例最高;內(nèi)關(guān)配伍足三里針刺病譜中呃逆文獻比例最高;內(nèi)關(guān)配伍三陰交針刺病譜中焦慮抑郁文獻比例較高。黃宗雄等通過對清代及清以前昆侖穴相關(guān)文獻的整理,挖掘得出:昆侖單穴主治病證33種,篩選出2種優(yōu)勢病證;配伍主治病證45種,篩選出19種優(yōu)勢病證及其高頻配伍處方。陳文修等統(tǒng)計出百會單穴主治病證73種,篩選出22種優(yōu)勢病證;配伍主治病證106種,篩選出21種優(yōu)勢病證及其高頻配伍處方。

      1.5名老中醫(yī)經(jīng)驗挖掘

      張華等對田從豁教授臨床病歷資料進行整理,發(fā)現(xiàn)田從豁教授臨床應用穴方共19個,陰交、肓俞、水分配伍使用頻次最多。陳裕收集當代名中醫(yī)針灸治療偏頭痛醫(yī)案247篇,總結(jié)出臨床與肝陽上亢型關(guān)聯(lián)密切的是足少陽膽經(jīng),血瘀阻絡型是手少陽三焦經(jīng),風邪上擾型是足太陽膀胱經(jīng),氣血不足型是足陽明胃經(jīng)。并且,根據(jù)關(guān)聯(lián)規(guī)則挖掘提出的基本配穴規(guī)律與中醫(yī)經(jīng)絡理論相契合。

      1.6針灸臨床決策支持系統(tǒng)構(gòu)建

      針灸臨床決策支持系統(tǒng)對于實現(xiàn)針灸臨床決策模式的轉(zhuǎn)變有重大意義,基于數(shù)據(jù)挖掘方法,各學者在此方向進行了有益的探索。任玉蘭等提出建立疾病癥狀、證候癥狀關(guān)系的樣本數(shù)據(jù)庫、概率數(shù)學模型;再通過遺傳算法進行針灸治療最優(yōu)方案的選擇,構(gòu)建具有人工智能特征的針灸臨床循證診療決策輔助支持平臺。王佑林等利用復雜網(wǎng)絡的K核心思想并改進來尋找針灸治療疾病所用穴位的主穴信息,使其更好地適應中醫(yī)決策系統(tǒng)并提供支持。李云松等發(fā)現(xiàn)在決策系統(tǒng)中,使用一元字串和二元字串的特征更適合腧穴處方的自動生成,提出了一種基于K近鄰方法的腧穴處方自動生成算法,通過分析病歷庫中與目標現(xiàn)病史最相似K條病歷的穴位配方,來自動給出患者針灸治療的推薦方案。胡綠慧等提出使用Weka平臺進行編程,分析穴位的支持度與置信度,找出適用于針灸臨床方案決策研究的最好方法,用以指導臨床醫(yī)生的方案決策。

      2分析與展望

      2.1數(shù)據(jù)挖掘結(jié)果能夠與傳統(tǒng)的中醫(yī)學理論相契

      合并提供新知《席弘賦》云:“凡欲行針須審穴。”可見臨證選穴及配伍的重要性。查閱近幾年針灸數(shù)據(jù)挖掘的結(jié)果,不難發(fā)現(xiàn),針灸處方的配伍仍大量選用“原絡配穴”“俞募配穴”“八脈交會配穴”“合募配穴”“遠近配穴”等傳統(tǒng)配穴方法,遵循著“循經(jīng)取穴”的規(guī)則,體現(xiàn)了“經(jīng)脈所過,主治所及”“腧穴所在,主治所及”的規(guī)律。數(shù)據(jù)挖掘在驗證傳統(tǒng)的中醫(yī)學理論的同時,還能在海量的文獻中發(fā)掘出新知,如趙凌等挖掘偏頭痛文獻時即發(fā)現(xiàn)古代針灸治療該病多采用同名經(jīng)的配穴方法,發(fā)生疾病時即可在相聯(lián)系的手足同名經(jīng)的相應部位針刺;趙華等挖掘田從豁教授治療痹癥經(jīng)驗的結(jié)果提示上肢疼痛與寒凝、血瘀相關(guān),風寒痹阻與下肢發(fā)涼相關(guān)。這些新的治療方法、不易發(fā)現(xiàn)的疾病、證候、癥狀之間的聯(lián)系,通過數(shù)據(jù)挖掘為臨床提供了新的思路與治療模式。

      2.2數(shù)據(jù)挖掘在針灸領(lǐng)域存在的不足及展望

      篇4

      二、數(shù)據(jù)挖掘的方法

      1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。

      2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

      3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。

      4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數(shù)據(jù)挖掘的分類方面。

      5.神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡建立在自學習的數(shù)學模型基礎之上,能夠?qū)Υ罅繌碗s的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。

      6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設來生成后續(xù)的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現(xiàn)各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

      7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎,解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

      8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎上發(fā)展出來的一種新的機器學習方法。它基于結(jié)構(gòu)風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡和多項式神經(jīng)元網(wǎng)絡的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡在內(nèi)的其他算法所不能及的。支持向量機可以應用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

      事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

      三、結(jié)束語

      目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應用,并取得更加顯著的效果。

      參考文獻:

      篇5

      隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應運而生。

      一、數(shù)據(jù)挖掘的定義

      數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

      二、數(shù)據(jù)挖掘的方法

      1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。

      2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

      3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。

      4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數(shù)據(jù)挖掘的分類方面。

      5.神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡建立在自學習的數(shù)學模型基礎之上,能夠?qū)Υ罅繌碗s的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。

      6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設來生成后續(xù)的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現(xiàn)各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

      7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎,解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

      8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎上發(fā)展出來的一種新的機器學習方法。它基于結(jié)構(gòu)風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡和多項式神經(jīng)元網(wǎng)絡的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡在內(nèi)的其他算法所不能及的。支持向量機可以應用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

      事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

      三、結(jié)束語

      篇6

      (1)傳統(tǒng)電網(wǎng)能量流由電網(wǎng)單方向流向客戶,智能配電網(wǎng)的能量流可雙向流動。

      (2)傳統(tǒng)電網(wǎng)信息流傳輸慢,信息不完整,存在較多信息孤島,智能配電網(wǎng)可以實現(xiàn)信息全面集成,高速雙向?qū)Φ韧ㄐ牛С址植际教幚怼?/p>

      (3)傳統(tǒng)電網(wǎng)的業(yè)務流程局限于部門內(nèi)部,智能配電網(wǎng)的業(yè)務流程貫穿多個部門,支持互動業(yè)務流程,全局角度的優(yōu)化決策。因此,涵蓋電源、電網(wǎng)、用戶的全流程,貫穿電網(wǎng)規(guī)劃、設計、建設、運行維護、技術(shù)改造、退役的全過程,最終形成電力流、信息流、業(yè)務流的高度融合和一體化,將成為智能配電網(wǎng)發(fā)展、研究、建設的重點。

      智能配電網(wǎng)的信息化建設已經(jīng)全面開始,但我們?nèi)匀徊荒芎雎源嬖诘膯栴}。

      (1)對配網(wǎng)信息化的認識和定位不清楚,應用主體不明確,導致后期的應用具體的受益者少或不明顯。

      (2)對配電信息化系統(tǒng)缺乏統(tǒng)一細致的規(guī)劃,存在“盲人摸象”的現(xiàn)象,提不出完整而準確的需求。

      (3)容易套用調(diào)度自動化的建設思路,過分強調(diào)實時應用,而沒有針對配電信息量大面廣的特點,忽視了對其它系統(tǒng)的相關(guān)數(shù)據(jù)利用和整合,造成配電系統(tǒng)的信息缺口很大,模型不完整,后期的應用無法實用化。

      (4)配電自動化涉及供電企業(yè)內(nèi)部的生產(chǎn)管理環(huán)節(jié)較多,因此存在管理體制對自動化基于實時歷史數(shù)據(jù)庫開展配電網(wǎng)數(shù)據(jù)挖掘的應用與研究文/楊劭煒邱佳杰葉偉寶當前全球能源開發(fā)利用正呈現(xiàn)多元化、清潔化的發(fā)展趨勢,我國經(jīng)濟快速發(fā)展,用電需求急速增加,而煤炭、風能、水能、太陽能等傳統(tǒng)與新能源資源的分布與消費呈逆向分布,因此,國家電網(wǎng)公司在2009年5月21日,提出了建設“堅強智能電網(wǎng)”的發(fā)展戰(zhàn)略,并分三個階段逐步實現(xiàn)。國家電網(wǎng)“十二五”電網(wǎng)智能規(guī)劃中明確了“電網(wǎng)發(fā)展方式的轉(zhuǎn)變”是這一期間的核心,而作為“兩個薄弱點”之一的“配電網(wǎng)”將是重點需要解決的。本文以配電網(wǎng)為切入點,引入數(shù)據(jù)挖掘技術(shù),圍繞最能體現(xiàn)配網(wǎng)管理水平的各類業(yè)務,既提高了傳統(tǒng)配電網(wǎng)業(yè)務的執(zhí)行效率,又能發(fā)揮信息技術(shù)強大的智能決策優(yōu)勢。摘要系統(tǒng)的不適應,或者說是自動化系統(tǒng)對不同的管理體制的適應性不強。造成工作職責界定不清楚,運行管理工作跟不上,系統(tǒng)應用和數(shù)據(jù)維護工作很薄弱。另外,根據(jù)國網(wǎng)“十二五”規(guī)劃,國家電網(wǎng)公司明確要制定實施農(nóng)電發(fā)展戰(zhàn)略,大力加強農(nóng)網(wǎng)建設。本項目正是以縣公司這樣的基層供電公司為研究對象,綜合考慮配電網(wǎng)業(yè)務的復雜性,及縣公司覆蓋城網(wǎng)和農(nóng)網(wǎng)的特點,力圖在建立一個有效配電網(wǎng)數(shù)據(jù)挖掘與分析模型的基礎上,依托先進的技術(shù)手段,提高在縣公司對智能配電網(wǎng)的認識和管理水平,并在可能的情況下,將研究成果在浙江省范圍內(nèi)的縣級供電企業(yè)進行推廣。

      2項目建設目標

      實現(xiàn)對配調(diào)圖形數(shù)據(jù)的智能化管理與各業(yè)務環(huán)節(jié)的正常流轉(zhuǎn);研究無線數(shù)據(jù)通信節(jié)點的接入及組網(wǎng)管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、樹型等網(wǎng)絡結(jié)構(gòu),管理并維護多個節(jié)點,對數(shù)據(jù)進行預處理;應用有源電子標簽的電子標識系統(tǒng)來定位現(xiàn)場配網(wǎng)設備,解決管理人員在日常巡檢和維護中,突發(fā)狀況時的準確定位及地理環(huán)境變遷后的配網(wǎng)設備查找;為移動終端上各類信息(地理背景、電力網(wǎng)架、電力用戶信息,配網(wǎng)設備臺帳等)提供圖形化的展示和管理;實現(xiàn)以文件或接口的方式導入電網(wǎng)拓撲、電力用戶信息、設備臺帳信息等。項目主要研究內(nèi)容:

      (1)工作任務生成與流轉(zhuǎn)方式的研究。提出工作任務的概念,將其作為系統(tǒng)中業(yè)務流轉(zhuǎn)的唯一單元。設計并實現(xiàn)其具體流轉(zhuǎn)方式。

      (2)無線數(shù)據(jù)網(wǎng)絡的研究。分析以無線數(shù)據(jù)網(wǎng)作為整個系統(tǒng)的通訊核心的技術(shù)可行性。研究無線數(shù)據(jù)通信節(jié)點的接入及組網(wǎng)管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、樹型等網(wǎng)絡結(jié)構(gòu),管理并維護多個節(jié)點,對數(shù)據(jù)進行預處理。

      (3)有源電子標簽的研究與應用。研究使用有源電子標簽的電子標識系統(tǒng)來定位現(xiàn)場配網(wǎng)設備的技術(shù)可行性,以解決管理人員在日常巡檢和維護中,對突發(fā)狀況時的準確定位及地理環(huán)境變遷后的配網(wǎng)設備查找。

      (4)移動終端上配網(wǎng)信息可視化展現(xiàn)的研究。為移動終端上各類信息(地理背景、電力網(wǎng)架、電力用戶信息,配網(wǎng)設備臺帳等)提供圖形化的展示和管理。

      (5)與相關(guān)系統(tǒng)數(shù)據(jù)接口的研究與實現(xiàn)。研究電網(wǎng)拓撲、電力用戶信息、設備臺帳信息等數(shù)據(jù)的載入方式及其技術(shù)可行性。涉及系統(tǒng)包括:GIS,PMS,營銷系統(tǒng)等。

      3項目技術(shù)方案詳情

      3.1系統(tǒng)架構(gòu)

      (1)總體要求及架構(gòu)。系統(tǒng)將采用面向服務架構(gòu)(SOA),遵循IEC61970標準接口和CIM數(shù)據(jù)標準,集成SCADA、市公司數(shù)據(jù)交換總線(IEB)、電力營銷、氣象網(wǎng)站、負控管理等相關(guān)系統(tǒng),采用數(shù)據(jù)倉庫技術(shù),有效解決多源頭復雜數(shù)據(jù)的采集、海量數(shù)據(jù)之上進行快速準確科學的數(shù)據(jù)分析的難題,貼近國內(nèi)供電企業(yè)電網(wǎng)運行工況和負荷分析預測人員及電網(wǎng)規(guī)劃人員日常工作所需的基于省公司實時歷史數(shù)據(jù)庫開展配電網(wǎng)數(shù)據(jù)挖掘系統(tǒng)。

      (2)技術(shù)路線。①基于IEC、CIM等標準,建立資源中心,通過IEB企業(yè)總線接收來自PMS、ACADA、電力營銷、用電采集、氣象系統(tǒng)等的多維數(shù)據(jù);②采用C/A/S三層架構(gòu),保證平臺的穩(wěn)定性和時效性;③部署上滿足大范圍推廣應用;

      3.2集成框架

      基于省公司實時歷史數(shù)據(jù)庫開展配電網(wǎng)數(shù)據(jù)挖掘平臺集成了SCADA、市公司數(shù)據(jù)交換總線(IEB)、電力營銷、氣象網(wǎng)站、負控管理等相關(guān)系統(tǒng)。集成框架如圖1所示。

      4硬件架構(gòu)

      平臺應用采用單獨的應用服務器獨立部署,需要配置相應的軟硬件環(huán)境。應用服務器通過F5實現(xiàn)均衡負載,當用戶增加,已有服務器性能影響用戶體驗時,通過增加應用服務器的方式提升系統(tǒng)整體性能。

      5軟件架構(gòu)

      基于省公司實時歷史數(shù)據(jù)庫開展配電網(wǎng)數(shù)據(jù)挖掘平臺將提供6大業(yè)務分析功能及3個基礎管理功能,共約40個分析子功能項,滿足各級負荷分析預測人員的日常工作所要。

      篇7

      1.1領(lǐng)域本體對特定專業(yè)領(lǐng)域中的概念及之間關(guān)系的描述,即為領(lǐng)域本體,它是對一個應用領(lǐng)域的描述,具體來說,分為本體知識庫和領(lǐng)域本體模式兩種成分,進而描述特定的領(lǐng)域知識和信息,即為領(lǐng)域本體模式,此外,模式描述了應用領(lǐng)域的知識構(gòu)成或靜態(tài)信息。而所謂的顧客價值需求領(lǐng)域本體,描述的是邏輯關(guān)系、描述的對象是顧客價值需求目標概念機需求行為概念,明確則是指概念及約束是顯式的定義,基于其具有計算機刻度的特點,構(gòu)成了形式化,研究目的將領(lǐng)域體原語定義的具體情況如下:定義一:顧客價值需求領(lǐng)域本體的概念構(gòu)成,Concerpts={Concerpts1,Concerpts2,Concerpts3},式中,顧客機制需求特性概念用Concerpts1表示,顧客的價值需求決策行為概念用Concerpts2表示,如環(huán)境約束分析、方略設計、實施等;顧客的基本特征概念則用Concerpts3表示。定義二:顧客價值需求領(lǐng)域本體形式化為三元組:ODomain={Concerpts,Relations,Instances},式中,領(lǐng)域概念的集合用Concerpts表示,領(lǐng)域概念間的關(guān)系集合用Relations表示,而ODomain為領(lǐng)域本體,本體實例的集合則用Instances表示,形成三元組。定義三:顧客價值需求領(lǐng)域本體的關(guān)系集合表示的是概念集合中各個概念之間的關(guān)系,具體數(shù)來,表現(xiàn)為n維笛卡爾積的子集。關(guān)系集合中存在5種關(guān)系,有Part-of:某個概念是另一個概念的屬性。Means-end:不同需求概念之間因果解構(gòu)關(guān)系。Subclass-of:概念之間的繼承關(guān)系。Drive-adjust:不同需求概念之間因果解構(gòu)關(guān)系。Attibute-of:某個概念是另一一個概念屬性。也就是行為感知影響目標調(diào)整,且目標驅(qū)動行為,二者關(guān)系密切。定義四:領(lǐng)域模式在應用域的實例,即顧客價值需求領(lǐng)域本體的實例。如“大學生的移動產(chǎn)品需求”本體、“政府顧客的移動產(chǎn)品需求”本體等。

      1.2任務本體對特定任務或行為求解方法的描述即為任務本體,對其的設計,應當以顧客需求管理領(lǐng)域決策信息及問題的需求為基礎,有文獻指出,顧客吸引、識別、保持及發(fā)展,為顧客生命周期管理涉及到的4個管理主題,如表1所示,也包括了上述主題的決策分析問題。綜合數(shù)據(jù)挖掘的任務來看,其囊括了一個或多個挖掘子任務、挖掘算法等,結(jié)合本次研究,實施了對該領(lǐng)域的任務本體原語定義的設計,如下:OTaske=(Taskea,Inputsa,Methodsa,Outputsa)上式中,挖掘任務本體用OTaske表示;α管理主題下Taskea挖掘任務的輸出變量用Inputsa表示,如興趣參量、聚類變量、規(guī)則前、后件變量;α管理主題下的挖掘任務用Taskea,如顧客細分以及需求特征描述等;挖掘結(jié)果輸出表達形式或格式用Outputsa表示,如聚類中心、“類”聚類變量均值、“類”樣本數(shù)等;挖掘方法用Methodsa表示,如K-means聚類。另外,α∈(識別顧客,吸引、保留和發(fā)展顧客)共同構(gòu)成了任務本體。

      2對本體下顧客需求數(shù)據(jù)挖掘過程的改進

      結(jié)合現(xiàn)實發(fā)展中的相關(guān)問題,在本體的顧客需求數(shù)據(jù)挖掘過程的改進方面,主要體現(xiàn)了挖掘目和任務、方法的選擇及確定及數(shù)據(jù)源轉(zhuǎn)化、約束參數(shù)的選擇等。這種方式下,對目標的搜索范圍進行了有效的縮小,進而在此基礎上提高了挖掘質(zhì)量和效率,如圖1所示。

      2.1支持管理決策的挖掘任務首先要進行的是對數(shù)據(jù)挖掘任務和目標的確定,基于操作中驗證或探索可支持實際管理決策的信息結(jié)構(gòu),具有較大的價值,其知識內(nèi)容包括了規(guī)則、規(guī)律、模式及關(guān)系等,結(jié)合文中研究主題,依據(jù)顧客需求相應決策問題來進行具體數(shù)據(jù)挖掘任務的設置,在對挖掘任務和目標的完善方面,有效地結(jié)合了領(lǐng)域知識的本體模型。在對應概念及關(guān)系語義匹配方面,根據(jù)該領(lǐng)域需求目標、行為信息的本體模型來進行,繼而確定本次數(shù)據(jù)挖掘任務。

      2.2挖掘數(shù)據(jù)空間及預處理在具體的實施過程中,以數(shù)據(jù)挖掘任務和領(lǐng)域本體模型為基礎,指導完成數(shù)據(jù)集成、選擇以及預處理3個環(huán)節(jié),這便是挖掘數(shù)據(jù)空間及預處理,細分有以下內(nèi)容:(1)提取、歸并處理多數(shù)據(jù)庫運行環(huán)境中顧客數(shù)據(jù),以及遺漏和洗清臟數(shù)據(jù)等;(2)基于數(shù)據(jù)來進行數(shù)據(jù)的選擇方面的需求,應依據(jù)數(shù)據(jù)挖掘任務需要分析的數(shù)據(jù)來實施,進而有效減少了不相關(guān)或冗余的屬性,也得到了符合約束的數(shù)據(jù)挖掘有限數(shù)據(jù)基,實現(xiàn)了數(shù)據(jù)挖掘搜索效率的有效提高,使得相關(guān)屬性或遺漏等現(xiàn)象得到了有效避免;(3)基于顧客“需求行為”領(lǐng)域本體的概念語義即為預處理,旨在檢查轉(zhuǎn)載的數(shù)據(jù),確保其合法性,并及時修正其中的錯誤,預處理其中的異常數(shù)據(jù)。

      2.3挖掘方法算法及執(zhí)行流程依據(jù)本次研究的需要,在具體的執(zhí)行過程中,設定先明確數(shù)據(jù)挖掘的任務和目的,詳細可分為驗證性、探索性挖兩種,前者由用戶事先給定假設,繼而在挖掘中發(fā)現(xiàn)蘊含的某些規(guī)則或規(guī)律,對所做的假設進行驗證;其次,對操作過程中的挖掘方法和算法進行確定,而挖掘方法和感興趣參數(shù)的設置則要根據(jù)挖掘任務來進行,如表1所示;最后,確定挖掘結(jié)果的表達方式,一般有神經(jīng)網(wǎng)絡、樹結(jié)構(gòu)以及規(guī)則(模板)等[6]。

      2.4評價挖掘結(jié)果作為整個實施過程的最后一個環(huán)節(jié),對于挖掘結(jié)果的評價和詮釋,對于整個操作過程具有十分重要的意義,在具體的評價過程中,不能有違背領(lǐng)域本體知識的行為,并要及時參與領(lǐng)域本體的概念關(guān)系,且還要采取相應的方法來提高綜合評價的有效性,如置信度、支持度以及興趣度等等,在必要的情況下,實施方應當反饋調(diào)整參數(shù)或約束等,繼而形成對用戶感興趣知識的重新挖掘,對其進行完善,基于本體用嚴格的邏輯語言表述過程中產(chǎn)生的新知識,需及時在實踐過程中的檢驗與完善,使得整個過程具有較高的可信度,收到良好的執(zhí)行效益。

      篇8

      2采用可視化圖形操作分析技術(shù)

      可視化分析技術(shù)能夠整合各式不同的數(shù)據(jù)來源或數(shù)據(jù)倉儲系統(tǒng),利用MicrosoftSQLServerAnalysisServices構(gòu)建多維結(jié)構(gòu)數(shù)據(jù)庫(Cube),而后存取、分析商業(yè)數(shù)據(jù),通過鼠標的拖、拉、點、選,操作各種維度與量值,迅速產(chǎn)生各式的分析圖表與統(tǒng)計結(jié)果??梢暬膱D形操作能為用戶迅速提供決策報表與在線分析處理(OLAP)等重要分析功能。運用專業(yè)工具所提供的報表(Reports)、實時查詢(AD-HocQuery)、聯(lián)機分析處理(OLAP)等重要商業(yè)智能的強大分析功能,使醫(yī)院獲得最全面、迅速的數(shù)據(jù)洞悉能力。具體功能如下:

      (1)表定制及報表的整合,在報表靈活性和報表開發(fā)易用性等方面具有突出的優(yōu)勢,其報表是通過圖形界面下的鼠標拖拽操作來直觀的完成的,無須編寫任何腳本或者代碼,即可實現(xiàn)復雜格式的報表。

      篇9

      二、數(shù)據(jù)挖掘技術(shù)在財務分析中的應用

      財務分析的主要目的是改善經(jīng)營管理,提高企業(yè)的經(jīng)濟效益,其主要目的是保證會計信息資料的正確可靠性,以保證企業(yè)財產(chǎn)的安全性、完整性。比如某生態(tài)園林企業(yè)需要投入大量資金完善生產(chǎn)基礎設施,并保證現(xiàn)場作業(yè)的有序,如有必要還要投資于企業(yè)產(chǎn)品周邊附屬產(chǎn)業(yè)的發(fā)展,因此財務決策的重要性不言而喻,而在財務決策中應用數(shù)據(jù)挖掘技術(shù)十分必要。財務分析中應用數(shù)據(jù)挖掘的基本流程包括問題識別、數(shù)據(jù)準備、數(shù)據(jù)開采及結(jié)果表達與解釋等四個步驟,圖1可將財務分析數(shù)據(jù)挖掘的過程直觀的表達出來:

      (一)問題識別

      典型的財務決策包括投資決策、籌資決策、成本決策、銷售決策等,企業(yè)要進行財務分析前必須識別決策問題,明確需要達到的決策目標等,再將決策目標轉(zhuǎn)換為數(shù)據(jù)挖掘的目標,最后進行準確的數(shù)據(jù)定義。如企業(yè)需要投資企業(yè)產(chǎn)品周邊附屬產(chǎn)業(yè),則需要利用數(shù)據(jù)挖掘技術(shù)明確以下問題:

      (1)企業(yè)經(jīng)營中可隨時支配的資金額度,需要財務人員建立數(shù)據(jù)庫模型,將可用于投資的資金情況準確、詳細的計算出來;

      (2)編制投資方案,即與本企業(yè)實際情況相結(jié)合,考慮具體投資計劃,并對投資方案的可操作性進行分析,比如上述園林生態(tài)企業(yè)需要投資進口園林機械的項目,就需要在投資前對該項目的大小做出合理評估,了解該品牌園林機械在國際市場的占有份額、品質(zhì)、成本及銷售價格等信息;

      (3)投資收益分析,投資的主要目的是獲得更高收益,因此在數(shù)據(jù)挖掘過程中,問題識別時必須做出可靠的收益預算。

      (二)數(shù)據(jù)準備

      在完成問題識別后,需要根據(jù)不同的需求、從相關(guān)數(shù)據(jù)庫信息中選擇適用的數(shù)據(jù)信息,即進行數(shù)據(jù)準備,該過程需要收集大量與企業(yè)財務分析相關(guān)的數(shù)據(jù)信息,以保證數(shù)據(jù)挖掘的真實性、客觀性,比如花卉市場分布信息、裝飾裝潢市場信息、園林設計與市場銷售等信息。通常情況下,數(shù)據(jù)準備又可分為數(shù)據(jù)集成、數(shù)據(jù)選擇及數(shù)據(jù)預處理等三個步驟,其中數(shù)據(jù)集成是把多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行合并處理,去除信息噪聲,剔除虛假數(shù)據(jù);而數(shù)據(jù)選擇則是分辨需要分析的數(shù)據(jù)集合,進一步縮小數(shù)據(jù)處理的范圍,提高數(shù)據(jù)質(zhì)量,從而保證數(shù)據(jù)挖掘的有效性;數(shù)據(jù)預處理的主要目的是解決數(shù)據(jù)挖掘工具局限性的問題。

      (三)數(shù)據(jù)挖掘

      當上述準備工作完成后即可進行深入的數(shù)據(jù)挖掘處理,挖掘過程中需要注意,必須以財務分析核心思想為指導,明確數(shù)據(jù)挖掘的目的性,數(shù)據(jù)挖掘的主要內(nèi)容包括:選擇合適的挖掘工具、具體的挖掘操作及證實發(fā)現(xiàn)的知識等,其中選擇合適的挖掘工具至關(guān)重要,限于篇幅此處對神經(jīng)網(wǎng)絡及決策樹兩種方法進行簡單介紹。神經(jīng)網(wǎng)絡是以自學習數(shù)學模型為基礎的,利用該方法可以很容易的解決具有上百個參數(shù)的問題,為高復雜度的問題提供一種相對簡單的方法;視經(jīng)網(wǎng)絡既可以表現(xiàn)為有指導的學習,也可以是無指導聚類,不過輸入神經(jīng)網(wǎng)絡中的值均為數(shù)值型的。實際應用中通常采用該方法進行財務預警分析。決策樹法是現(xiàn)階段應用最廣泛的歸納推理算法之一,其提供了一種展示在何種條件下會獲得對應值的規(guī)則的方法,是一種簡單的知識表示方法,在數(shù)據(jù)挖掘過程中,決策樹法主要用于數(shù)據(jù)挖掘的分類。

      (四)結(jié)果表達

      結(jié)果表達即是在處理數(shù)據(jù)庫信息的基礎上客觀的表達出數(shù)據(jù)挖掘的結(jié)果,以為企業(yè)財務分析提供可靠依據(jù)。可以說結(jié)果表達是數(shù)據(jù)挖掘的成果展示,其所表達的是最有價值的信息,如結(jié)果表達所提供的信息達不到?jīng)Q策的要求,則可重復挖掘過程,直至決策者滿意為止。

      篇10

      1.2分類。它能將數(shù)據(jù)庫中的數(shù)據(jù)項,映射到給定類別中的一個。分類[3]定義了一種從屬性到類別的映射關(guān)系,給定樣本的屬性值,根據(jù)已知的模式將其劃分到特定的類中。

      1.3聚類分析。聚類是根據(jù)一定的規(guī)則,按照相似性把樣本歸成若干類別。在對樣本合理劃分后,對不同的類進行描述。聚類通常用于將客戶細分成不同的客戶群,如有相同愛好的客戶群。

      1.4時間序列。按照時間的順序把隨機事件變化發(fā)展的過錯記錄下來就構(gòu)成了一個時間序列。對時間序列進行觀察、研究,找尋它變化發(fā)展的規(guī)律,預測它將來的走勢就是時間序列分析。

      1.5孤立點分析。孤立點在數(shù)學上是指坐標滿足曲線方程,但并不落在曲線上的點。它也可以被看作是在數(shù)據(jù)集合中與大多數(shù)數(shù)據(jù)特征不一致的數(shù)據(jù)。對孤立點進行分析極有可能發(fā)現(xiàn)重要的隱藏信息。

      1.6遺傳算法。它是一類借鑒生物界的進化規(guī)律(適者生存,優(yōu)勝劣汰遺傳機制)演化而來的隨機化搜索方法;是一個以適應度為目標函數(shù),對種群個體施加遺傳操作,實現(xiàn)群體結(jié)構(gòu)重組,經(jīng)迭代而達到總體優(yōu)化的過程。目前,將數(shù)據(jù)挖掘技術(shù)應用于煙草行業(yè)的研究逐步受到重視。歐陽秀君,劉文在《數(shù)據(jù)挖掘技術(shù)在煙草CRM中的應用》一文中[4],主要探討如何將數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則、聚類、分類方法應用于煙草CRM中。康江峰,陳輝[5]將基于數(shù)據(jù)挖掘的技術(shù)應用于對煙草精準營銷策略的研究。王辛盟[6]采用數(shù)據(jù)挖掘技術(shù),利用SPSS統(tǒng)計軟件,以某煙草配送中心的訂單數(shù)據(jù)和客戶資料數(shù)據(jù)為數(shù)據(jù)源,用聚類的方法對客戶群進行細分。鄭陽洋、劉希玉[7]采用基于多層次關(guān)聯(lián)規(guī)則挖掘技術(shù),對2007年山東省內(nèi)某地級市卷煙商業(yè)企業(yè)的銷售數(shù)據(jù)進行分析,得到“消費者在購買品名為紅河(軟甲)的客戶中,有57%會同時購買類名為八喜的卷煙”的規(guī)則。但以上對于煙草行業(yè)的數(shù)據(jù)挖掘研究的方法主要集中在關(guān)聯(lián)規(guī)則、聚類分析和分類三種方法上,在接下來的研究中,我將探討如何將更多的數(shù)據(jù)挖掘方法應用于煙草行業(yè)的數(shù)據(jù)分析上。

      2數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)中的應用

      2.1聚類分析在卷煙銷售中的應用為了便于日常卷煙銷售及統(tǒng)計,通常根據(jù)卷煙的屬性對進卷煙行分類,常見的卷煙分類方法如下:一是按照價位段劃分,5元以下、5-10元、10元以上等;二是按照利潤貢獻度,分為一類煙、二類煙、三類煙、四類煙和五類煙;三是按照卷煙品牌劃分,泰山系列、黃鶴樓系列、七匹狼系列等;四是按照產(chǎn)地劃分,魯產(chǎn)煙、滬產(chǎn)煙、外產(chǎn)煙等;五是按照焦油含量劃分,低焦油卷煙和高焦油卷煙。以上就卷煙的某一單一屬性對卷煙類別進行區(qū)分,極大的方便卷煙的銷售管理工作,然而,消費者在選擇卷煙時,往往會考慮多方面的屬性,因此單一屬性的卷煙分類無法解釋消費者偏好。因此需要引入基于多屬性的卷煙分類方法,由于卷煙規(guī)格多且本身具有多重屬性,基于主觀判別分類方法難以滿足分類要求,需借助統(tǒng)計學的方法對卷煙進行科學分類。聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程,同一類別的樣本表現(xiàn)出較高的相似性。因此,可將聚類分析用于解決上述卷煙分類問題,根據(jù)多屬性相似程度將卷煙分成幾個類別,消費者在同一類別中的香煙偏好無顯著差異,即同一類別中的香煙具有較高的替代效應。在實際銷售過程中,當某一牌號的卷煙斷貨、緊俏時,可推薦此牌號所在類別的其它牌號的卷煙給消費者作為有效替代。

      2.2時間序列用于卷煙銷售趨勢預測卷煙銷售市場季節(jié)性特別顯著,主要表現(xiàn)為兩個方面:一是市場以節(jié)假日為節(jié)點,節(jié)前卷煙銷售迅猛,節(jié)后消費趨于平淡;二是夏季是旅游市場的旺盛,旅游業(yè)帶動外來人口流動增加,卷煙銷售量也隨同增加。同時,卷煙市場也受經(jīng)濟、人口結(jié)構(gòu)等方面因素影響,使得卷煙銷售量存在明顯的非線性特征,波動范圍比較大,傳統(tǒng)線性預測模型難以準確預測。為了提高卷煙銷售預測精度,建立一個基于時間序列、能夠精確預測卷煙銷售量的模型已經(jīng)成為一種必然趨勢。時間序列由四個影響成分所組成,分別是長期趨勢、循環(huán)變動、季節(jié)變動、不規(guī)則變動。這四個影響成分與卷煙銷售市場的變動規(guī)律相吻合。通過建立卷煙銷售時間序列模型,對以往銷售的歷史數(shù)據(jù)進行分析,能夠有效地預測未來卷煙銷售市場的走勢和發(fā)展規(guī)律,更好地掌握卷煙市場的供需關(guān)系。在此基礎上,做好備貨工作,設立合理庫存,實現(xiàn)有效的貨源供應。通過對區(qū)域市場變化趨勢的預測并結(jié)合客戶實時經(jīng)營狀況,能夠?qū)蛻舻男枨罂偭孔龀鱿噙m應的預測,確保做好客戶的合理定量工作,保障不同零售客戶需求。預測結(jié)果還可為制定公平合理的貨源投放政策提供依據(jù),使得各類貨源能夠投放至有相應銷售能力的客戶手中,更好的滿足消費者的需求。

      2.3孤立點分析用于煙草專賣執(zhí)法數(shù)據(jù)挖掘中的孤立點分析方法可以通過計算數(shù)據(jù)點之間的距離,稠密度等來模擬用戶之間的屬性差異,由此找到那些屬性特征與正常點差異非常大的用戶數(shù)據(jù)點。人們普遍認為孤立點的存在極有可能是度量或執(zhí)行錯誤所導致的,因其不符合數(shù)據(jù)的一般模型,所以在研究普遍現(xiàn)象時,人們總是試圖使孤立點的影響最小化,而盡可能排除它們。然而,孤立點可能隱藏著比一般的數(shù)據(jù)更有價值的信息。近些年來,孤立點挖掘作為一個重要的研究課題,已被廣泛用于信用卡詐騙監(jiān)測、市場內(nèi)部交易偵測、工業(yè)設備故障探測等領(lǐng)域。在已建立的煙草分銷數(shù)據(jù)庫中儲存著大量客戶訂單信息,這些訂單信息包含多個維度,如用戶ID、商品編號、訂購數(shù)量、需求數(shù)量、同一品牌訂貨間隔等等??衫霉铝Ⅻc挖掘算法對客戶訂單數(shù)據(jù)進行分析,建立客戶評估監(jiān)測模型,找到以下“孤立點”:訂單金額高的,敏感牌號訂購量大的,敏感牌號訂購頻繁的,以往訂購敏感牌號頻率低但最近一段時間頻繁訂購的,按照商圈不具備高端敏感牌號銷路的卻頻繁訂購等等。這類訂單“異?!钡目蛻?,或者稱為“孤立點”,可以被認為是存在相當大的“違規(guī)”可能性,我們的專賣執(zhí)法人員應該對這一類的零售戶采取進一步的跟蹤調(diào)查。孤立點數(shù)據(jù)分析,勢必成為專賣執(zhí)法的又一利器。

      2.4遺傳算法用于車輛配送線路優(yōu)化卷煙商業(yè)企業(yè)的銷售收益主要來自于訂單,銷售成本主要產(chǎn)生在物流配送的環(huán)節(jié)。所以,在假設銷售量不變的情況下,如何優(yōu)化線路配置,降低成本,最大化公司利潤,在當前煙草行業(yè)面臨巨大的挑戰(zhàn)和壓力下,顯得尤為重要。因此,采用科學的、合理的方法來確定配送線路將是車輛優(yōu)化調(diào)度工作的重中之重,是物流系統(tǒng)優(yōu)化、物流科學化的關(guān)鍵。煙草商業(yè)企業(yè)已有的線路優(yōu)化系統(tǒng)中儲存有客戶商店位置、道路情況等信息,可以在此基礎上,利用遺傳算法對配送線路問題進行優(yōu)化。將一系列實際中車輛配送的約束條件,轉(zhuǎn)換成二進制編碼(染色體)并隨機產(chǎn)生初始種群,通過模擬達爾文的遺傳選擇和自然淘汰的生物進化過程,并借助于自然遺傳學的遺傳算子進行組合交叉和變異,逐代演化產(chǎn)生出越來越好的近似解,末代種群中的最優(yōu)個體經(jīng)過解碼,可以作為最終問題的近似最優(yōu)解,用以實現(xiàn)對車輛的優(yōu)化調(diào)度,即合理地進行配貨優(yōu)化、貨物配裝優(yōu)化,特別是配送路線優(yōu)化。從而達到提高里程利用率,降低行駛費用,減少車輛空駛里程,增加貨運量,節(jié)約燃料,降低大修費等,為企業(yè)帶來更大的經(jīng)濟效益。另外,車輛優(yōu)化調(diào)度在減少廢氣排放量,降低城市空氣污染方面也起到積極作用。

      篇11

      1.2模糊集理論的應用要點該方法通過模糊集合與模糊推理兩種方法,其研究測試的對象是各類不確定性因素,屬于傳統(tǒng)集合理論的創(chuàng)新。模糊集理論在設備狀態(tài)監(jiān)測和故障診斷中的應用,主要包含了兩個方面。一方面,是在相關(guān)數(shù)據(jù)概念的形成時,采用不準確和較為模糊的語言變量,根據(jù)人們習慣,對設備狀態(tài)的變化及變量變化狀態(tài)進行描述。具有較強的直觀性,且相關(guān)人員在接受該類概念時,也可以更方便的理解接受;另一方面,該方法通過提煉模糊性規(guī)則,在建模時模糊化,使得機械設備的控制、預測以及故障診斷等過程擁有更為廣闊的空間。

      1.3基于實例分析的方案優(yōu)化及調(diào)整該種方法擁有較為簡單的思路,在對設備未來運行情況進行預測時,系統(tǒng)會匹配與設備目前情況相似的實際案例,并從以往的解決方法中選出最佳的解決方案,再結(jié)合設備實際情況進行相應調(diào)整。此類方法的應用范圍較廣,且得到的計算結(jié)果也相對準確,但同時也具有一定缺陷,即無法全面整合以往設備數(shù)據(jù)及解決規(guī)律,缺乏充足的繼承性。該方法進行故障診斷的基本理念是,在選紅棗解決方法的過程中,利用歷史診斷方法成功案例為奠基,進行全面的推理工作,并采用類比和聯(lián)想法,較為全面的對故障進行診斷。

      1.4多種數(shù)據(jù)挖掘法的聯(lián)合應用除上述幾種數(shù)據(jù)挖掘技術(shù)外,實際工作中還涵蓋了以傳統(tǒng)數(shù)據(jù)統(tǒng)計為基礎的統(tǒng)計分析方法、人工神經(jīng)網(wǎng)絡元技術(shù)、等多種方法,考慮到每一種方法或多或少具有局限性,故為了有效提高各類方法的應用效果,可以將各類方法進行配合使用,代表性的算法組合類型如表1所示。

      以遺傳算法和模糊集理論的配合采用為例。由于模糊算法,主要是利用了最大隸屬原理和閥值原理,故可以按照不同故障的發(fā)生原因以及故障征兆的相互聯(lián)系,在綜合考慮的基礎上對機械設備故障的可能原因進行全面分析。而該方法在運用的過程中,會對各類故障征兆進行約簡化從而得到較為普遍的規(guī)律,但是所得到的規(guī)律也可能存在不可靠問題。故在實際應用模糊集理論的同時,配合采用遺傳算法,通過對模糊集理論所得到的結(jié)論及規(guī)則進行全面優(yōu)化,使得診斷的結(jié)果更為準確與高效。上述案例方法在渦輪機故障診斷過程中進行應用時,可先建立完善的渦輪機故障集,在此基礎上采用模糊集理論對渦輪機故障進行診斷,配合遺傳算法對渦輪機故障規(guī)律進行優(yōu)化,使得最終故障診斷結(jié)果更為準確。除遺傳算法與模糊集理論課進行配合使用外,其他各類方法也可以根據(jù)設備實際情況進行搭配,使得最終診斷結(jié)果更為準確有效。