時間:2024-03-28 11:07:29
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗,特別為您篩選了11篇社交媒體文本分析范文。如果您需要更多原創(chuàng)資料,歡迎隨時與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識!
中圖分類號: G206.2
文獻標(biāo)志碼: A
文章編號: 10012435(2017)02022306
Key words: Gender Language;topic;corpus;text classification;priority sequence
Abstract:
The priority sequence of topic selection between genders is variable.The previous researches mainly focus on the change of priority sequence in the daily conversation context,instead of the network virtual context.The thesis classifies 500,000 pieces of Chinese blog texts written by two genders respectively,which are gathered from the corpus of Network Media Language Branch in National Language Resources Monitoring Research Center(CNLR).Based on this largescale data,it investigates the priority sequence of topics and the intergroup differences between genders.It finds out that the priority sequences of topic selection between genders in new media context and daily conversation context are distinctively different.Also,highfrequency topics between genders in the new media context have similarities,while significant differences of the sequences,as well as topic amount exist between groups.“Rapporttalk” always dominates females both in daily chats and new media contexts,consequently the priority sequence is relatively stable.However,the mode of discourse by men is transforming from “Reporttalk” to “Rapporttalk” in the new media context,thus the priority sequence is less stable.
性e語言研究是社會語言學(xué)的研究熱點,同時也是心理學(xué)、社會學(xué)、人類學(xué)等多個學(xué)科領(lǐng)域共同關(guān)注的課題。近年來,性別語言研究的重點逐漸轉(zhuǎn)向交際中的話語模式。話語模式的性別差異主要表現(xiàn)在話題選擇、話語量、話輪控制和交際策略方面(Wardhaugh 2010)[1]。其中,話題選擇的性別差異一直受到國內(nèi)外學(xué)者的重視。Klein(1971)、Kramer(1974)、Aries(1976,1982)、Tannen(1991)、Myerhoff(2006)[17]等考察了工人階級、中產(chǎn)階級等不同社會階層,以及美國猶太社區(qū)等不同社會族群的日常言談話題,發(fā)現(xiàn)男性之間的話題焦點圍繞政治、經(jīng)濟、體育、商業(yè)等,通常不涉及個人情感;女性之間的話題焦點傾向于感情、家庭、孩子、夫妻關(guān)系等。許力生(1997)、李經(jīng)緯(1998)、趙蓉暉(2003)、崔艷英(2012)[811]等國內(nèi)學(xué)者也對此進行過探討,但以介紹和綜述國外研究為主,缺少以漢語為語料的實證研究。
話題選擇優(yōu)先序列會因語境、地域、種族、文化等差異而產(chǎn)生變化,以往針對家庭和公共社交場合的調(diào)查研究,說話人在話題選擇時容易受到交際對象、交際目的、交際場景等諸多因素的影響,雖然結(jié)論真實,但并不具有普遍性。而網(wǎng)絡(luò)虛擬語境下,交際場合由現(xiàn)實的語言生活轉(zhuǎn)變?yōu)樘摂M的網(wǎng)絡(luò)空間,交際對象由特定受話人轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)中的預(yù)設(shè)受話人,外界環(huán)境因素對作者話題選擇的影響降低。尤其是新媒體中的博客,因其具有個性化、開放性、交互性、共享性等特征,文章更接近于單向獨白式語體,不同于以往研究的雙向會話式語體。文章更能體現(xiàn)的博主對話題喜好,能更真實地反映兩性的話題選擇傾向。同時,相比以往針對日常言談?wù)Z境的小樣本調(diào)查,基于新媒體語料的大規(guī)模統(tǒng)計分析在數(shù)據(jù)處理上占有獨特的優(yōu)勢,避免了因小樣本和個案研究帶來的偏差。再者,由于中外語言文化的差異,國外的研究結(jié)論并不一定符合漢語的性別語言特征,而且重視漢語語料、加強本土化研究符合當(dāng)代語言性別差異研究的多元化、動態(tài)化、微觀化和本土化的發(fā)展趨勢。因此,本文基于大規(guī)模新媒體博客語料庫,在文本分類處理的基礎(chǔ)上對漢語博客中兩性話題選擇的優(yōu)先序列所進行的實證研究和探索,可以開拓漢語性別研究的新前景,拓展新媒體下語言研究的新視野,展現(xiàn)性別語言差異在時代變動中的新發(fā)展,對于新媒體語言研究和監(jiān)測具有理論和實踐上的啟示作用。
一、兩性話題的文本分類過程
(一)實驗文本的甄別與篩選
國家語言資源監(jiān)測與研究中心的網(wǎng)絡(luò)媒體監(jiān)測分中心從2005年開始對網(wǎng)絡(luò)新聞、網(wǎng)絡(luò)論壇、網(wǎng)絡(luò)文學(xué),以及博客、微博、微信等新媒體進行動態(tài)監(jiān)測,并建有網(wǎng)絡(luò)媒體監(jiān)測語料庫。其中,博客語料來源于新浪博客(blogsinacomcn)、搜狐博客(blogsohucom)、中國博客(wwwblogcncom)、博客網(wǎng)(bokeecom)、和訊博客(bloghexuncom)、博客大巴(wwwblogbuscom)等境內(nèi)著名博客網(wǎng)站。本文選取其中的博客語料,主要基于兩個方面的因素:首先,文章作者元信息的提取原因。博客、微博、論壇的作者在社交平臺上注冊時會提供包括性別在內(nèi)的作者身份信息,因此可以在語料爬取過程中對作者身份信息進行元數(shù)據(jù)標(biāo)注,進而便于提取出有性別信息的作者。其次,文本分類的技術(shù)原因。微博和微信都比較短小,計算機對其進行文本自動分類處理時效度不高,難度較大。而博客文本相對較長,分類效果較好。因此,博客文本比微博、微信等其他新媒體語料更能有效地進行話題分類研究。
兩性博客語料的篩選步驟如下:第一步,甄別身份信息真實的作者,以篩選出有效的兩性博客文本。博客文本在抓取的過程中對作者身份等元數(shù)據(jù)信息進行了采集和標(biāo)注,根據(jù)元數(shù)據(jù)信息篩選出標(biāo)注了性別的作者及其博文。由于少數(shù)作者雖然在博客平臺登記了性別等身份信息,但信息并不一定真實,如果這些不確定的文本被用于統(tǒng)計分析,將會影響統(tǒng)計結(jié)果的可靠性與可信度,因此必須抽取作者身份相對真實的博文用于統(tǒng)計分析。為篩選身份可信度高的文本,本文依據(jù)博客作者的“博客等級”和“博客積分”高低、“博客訪問量”和“博客關(guān)注量”大小,以及是否為“加V博客認證”等標(biāo)準(zhǔn)進行甄別,篩選出博客等級和積分較高,訪問量和關(guān)注量較大,同時為加V認證的作者。這類作者的博客活躍度較高,作者身份信息較為真實可信。第二步,將篩選出的作者所有博客建立語料庫,編寫小型程序隨機抽取了博客文本共計1 008 755篇,其中男性500 889篇,女性507 866篇為了有效的進行文本分類,本文在隨機抽取博客文本時,剔除了文本詞匯量小于100詞的文本?!糧W)〗。第三步,將篩選出來的語料建設(shè)成兩性博客語料庫,用于下一步的文本分類處理。
(二)文本分類步驟與統(tǒng)計結(jié)果
本文針對博客文本所特有的話題類別,進行了計算機文本分類處理,具體步驟如下:第一步,對所有博客文本進行繁簡轉(zhuǎn)化,剔除表情符號、圖片等非文字符號;第二步,采用中科院自動化所的自動分詞工具對文本進行自動分詞和詞性標(biāo)注;第三步,用正則表達式和停用詞表過濾已分好詞的博客;第四步,參考新浪博客、中國博客網(wǎng)(博尚網(wǎng))、網(wǎng)易博客、趙蓉暉(2003)[10]的主題類別,同時在文本抽樣的基礎(chǔ)上,確定了博客文本分類的27個話題類別。第五步,從語料庫中人工篩選出用于機器學(xué)習(xí)的訓(xùn)練語料和測試語料。在這一過程中,人工篩選和機器學(xué)習(xí)兩個方法交替進行,最后一共收集了26個話題(不包括雜談)的文本訓(xùn)練語料各約500篇,測試語料各約500篇,將52組話題的約26 000篇文本用于機器學(xué)習(xí),統(tǒng)計得到26個話題類別的詞頻表;第六步,對26個話題的詞頻表進行組間差異比較,篩選出各話題的高頻獨用詞,以及詞頻、頻序組間差異較大的詞。由于這類詞與話題內(nèi)容關(guān)系較為密切,因此利用專家的領(lǐng)域知識,通過人工干預(yù)加強這類詞匯的權(quán)重;第七步,按照樸素貝葉斯算法判斷每篇博客的后驗概率,取后驗概率最大的類別作為分類結(jié)果。第八步,檢驗文本識別的效度,并調(diào)整識別方法,優(yōu)化統(tǒng)計結(jié)果。表1為文本分類后各話題的文本數(shù)量及其差值。
二、兩性話題選擇的優(yōu)先序列
兩性話題選擇的優(yōu)先序列是建立在文本分類和數(shù)據(jù)統(tǒng)計基礎(chǔ)上的定量分析,是指將不同的話題類別按照其使用頻率的高低進行分級或有序的排位,并對形成的優(yōu)先序列做出合理的解釋說明。下面將分別考察兩性話題選擇的優(yōu)先序列,并剖析兩性高序位話題的特征及其形成原因。
(一)男性話題的優(yōu)先序列
在博客本文分類時,某些博客文本由于主題不明確而無法根據(jù)其后驗效率將其有效歸類,這些無法有效歸類的文本,本文統(tǒng)一將其另列為“雜談類”?!半s談類”文章的平均文本長度最短,僅為561個字符,但其文本數(shù)量最大,約占男性文本總量的3025%,其位序居27類話題之首。其次是“家庭生活”話題,它是計算機自動識別所得到的文本數(shù)量最多的話題,約占男性博客文本總量的2528%,平均文本長度為793個字符,話語量高于“雜談類”。位序居前列的“雜談、家庭生活、感情婚姻、電子數(shù)碼,體育運動,電視電影”等6類話題占據(jù)總文本數(shù)的8615%,而其他21類話題的文本量僅占文本總量的1385%,位序最低的“兩性生理”的文本僅占文本總數(shù)的0025%。
各話題文本量的分布特征與Zipf定律中的詞匯分布特征相似,呈現(xiàn)出典型的冪律分布特征,即只有少數(shù)的話題被經(jīng)常使用,而大多數(shù)話題很少被使用。將各話題按照文本數(shù)量大小排列,得到男性博客話題的優(yōu)先序列,見圖1。
將男性博客話題的優(yōu)先序列與日常言談時的話題選擇傾向比較后發(fā)現(xiàn),兩者的高位序話題存在較大差異。趙蓉暉(2003)[10]曾用雙向橫坐標(biāo)描繪了兩性的話題選擇傾向,男性話題的優(yōu)先序列依次是“政治、軍事、性、金錢、體育、科技、自然”,本文與之對應(yīng)的話題分別為“政治體制、軍事戰(zhàn)爭、兩性生理、經(jīng)濟金融、w育運動、科學(xué)技術(shù)”。從文本量上看,這6類話題所占比例非常小,僅占全部話題總量的745%,除“體育運動”比例達到573%以外,其他話題均未達到百分之一;從話題的位序上看,除“體育運動”的位序相對靠前以外,其他話題位序都較為靠后,其中政治體制第23位、軍事戰(zhàn)爭第21位、兩性生理第27位、經(jīng)濟金融第14位、科學(xué)技術(shù)第19位??梢姡行圆┛驼Z境下的話題優(yōu)先序列明顯異于日常言談時的話題傾向,日常言談時的高頻話題在網(wǎng)絡(luò)博客虛擬環(huán)境下并非為優(yōu)先話題。
(二)女性話題的優(yōu)先序列
女性博客話題中,文本量最多的是“家庭生活”,占女性文本總數(shù)的4114%,然后依次為“雜談、感情婚姻、娛樂追星”,所占比例分別為2283%、156%、355%,這四類位序居前的話題占女性文本總數(shù)的8312%,其他23個話題所占比例僅為1688%,位序最后的話題和男性相同,均為“兩性生理”。從女性各類話題的文本量分布情況看,女性話題的文本量分布也呈冪律分布特征,但高頻話題比男性更集中。將各話題按照文本數(shù)量大小排列,得到女性博客話題的優(yōu)先序列,見圖2。
女性博客話題優(yōu)先序列中的高序話題與其日常言談時的話題選擇傾向比較相似。趙蓉暉(2003)[10]認為女性最感興趣的話題依次為“時尚、感情、家務(wù)、家庭、兒童”等,本文與之對應(yīng)的話題依次為“時尚消費、娛樂追星、情感婚姻、家庭生活”,這些話題位序都較為靠前,分別為第16、第4、第3、第1位??梢?,日常言談時的高頻話題在網(wǎng)絡(luò)博客虛擬環(huán)境同樣是優(yōu)先話題,主要圍繞家庭生活與感情婚姻展開。
(三)高位序話題的穩(wěn)定與變化
通過以上考察發(fā)現(xiàn),雖然學(xué)界一致認為現(xiàn)實語言生活中的兩性高頻話題存在明顯差異,“家庭、感情、婚姻、時尚”等為典型的女性話題,“政治、體育、經(jīng)濟、軍事”等則為典型的男性話題,但是這一規(guī)律并不適用于虛擬網(wǎng)絡(luò)環(huán)境下的新媒體語言生活。網(wǎng)絡(luò)博客中的兩性高頻話題已經(jīng)變得趨同,兩性話題優(yōu)先序列中的高位序話題都是“家庭生活”和“感情婚姻”。
通過比較現(xiàn)實語言生活的兩性高頻話題和網(wǎng)絡(luò)新媒體語言生活的高位序話題后發(fā)現(xiàn),女性的話題選擇傾向具有穩(wěn)定性,高位序話題沒有明顯變化,最熱衷的話題始終以家庭婚姻與情感生活展開;男性的話題選擇傾向具有較大變動性,男性在日常言談?wù)Z境下“政治”“經(jīng)濟”等高頻話題成為博客文本中的低位序話題,這兩類話題總數(shù)僅占男性博客文本總數(shù)的097%,而“家庭”“情感”等話題卻成為高位序話題,這兩類話題總數(shù)占男性博客文本總數(shù)的39%。男性的高位序話題會因語境的改變而產(chǎn)生變化。
(四)穩(wěn)定的機制及變化的動因
Tannen(1991)[7]將談話分為關(guān)系式談話(rapporttalk)和報告式談話(reporttalk)兩大類。前者以感情交流為主,其目的是通過交談建立關(guān)系、維系感情;后者則是以信息交流為主,其目的是交流對事物的看法和意見,提出某一問題的解決辦法等。在日常言談中,女性談話以關(guān)系式為主,傾向于通過談?wù)撋婕皞€人生活的內(nèi)容,以交流情感的方式來建立社交關(guān)系;男性通常以報告式為主,信息交流量較大、目標(biāo)明確、針對性強;在日常言談和網(wǎng)絡(luò)博客中,女性的話語方式始終以“關(guān)系式談話”為主,因此高頻話題比較穩(wěn)定;男性在網(wǎng)絡(luò)虛擬環(huán)境下“報告式”動力相對減弱,“關(guān)系式”動力增強,話語方式的轉(zhuǎn)變導(dǎo)致高頻話題產(chǎn)生變化。
在公共社交場合,由于男性比女性更注重掌控話語權(quán),以說教、演講等報告式的話語姿態(tài)展現(xiàn)自身能力,通過較為正式的話語風(fēng)貌獲得社會認同和大眾賞識,這種動力驅(qū)使男性在言談時會優(yōu)先選擇擅長的優(yōu)勢領(lǐng)域,如政治、軍事、經(jīng)濟、體育等。但是在非正式場合,尤其是在網(wǎng)絡(luò)社交媒體平臺中,兩性的話語交際目的都是以建立和維系社交關(guān)系為主,通過博客、微博、微信等自媒體平_抒感、記錄生活。因此,博客中的兩性話語方式都以“關(guān)系式”為主。在網(wǎng)絡(luò)虛擬語境下,由于作者身份信息相對隱匿,話語身份構(gòu)建和凸顯的動力減弱,因而男性傾向于選擇輕松的生活話題。
男性“報告式”動力減弱是多種動因共同作用的結(jié)果。首先,交際場合由公共社交場合轉(zhuǎn)變?yōu)樽悦襟w環(huán)境下的非正式場合;其次,交際場景由現(xiàn)實語言生活轉(zhuǎn)變?yōu)樘摂M網(wǎng)絡(luò)語言生活;第三,交際媒介變?yōu)榫W(wǎng)絡(luò)自媒體平臺;第四,交際“對象”由現(xiàn)實語言生活的特定受話人轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)語境中的預(yù)設(shè)受話人,雖然博客文本的受眾具有不確定性,但是作者在撰寫博文時會帶著認知關(guān)聯(lián)假設(shè)信息,以吸引讀者、構(gòu)建虛擬關(guān)系為目的。Yus(2011)[12]也認為作者對文章的受眾和交際對象存在一種預(yù)設(shè)或假定。第五,交際目的由自我展示型向社交關(guān)系型轉(zhuǎn)變;第六,交際身份由公共突顯型向虛擬隱匿型轉(zhuǎn)變,男性在正式和非正式場合下對性別話語身份凸顯程度的改變對話題選擇產(chǎn)生影響。以上因素促使社交媒體的話語方式以關(guān)系式為主,因此,女性的高位序話題保持不變,男性則發(fā)生改變。“家庭生活”“感情婚姻”等男性日常聊天較少談及的話題,成為男性博客文本中的高位序話題。
三、兩性話題選擇的組間差異
雖然兩性的高位序話題相似,但是話題優(yōu)先序列的組間差異仍然存在,主要表現(xiàn)在話題位序的組間序差和話題量分布的組間差異兩個方面。
(一)話題序差比較
由于同一話題在男性話題中的位序與其在女性話題中的位序存在一定差距,其組間序差反映了該話題在兩性話題序列中的地位差別,計算其組間序差可以用于比較兩性對該話題的偏好程度。序差越大,偏好差距越大,反之則小。例如“家庭生活”在男性話題序列中的位序為2,在女性話題序列中的位序為1,其組間序差為1,說明女性比男性更傾向于優(yōu)先選擇“家庭生活”,但差距較??;“游戲網(wǎng)游”在男性話題序列中位序為8,在女性話題序列中的位序為19,其組間序差為11,說明男性比女性更傾向于優(yōu)先選擇“游戲網(wǎng)游”,且差距較大。將全部話題的組間序差有序排列,構(gòu)成話題“序差序列”?!靶虿钚蛄小蹦軐⒃掝}的“地位差別”集中并有序地表現(xiàn)出來。為較為直觀反映兩性對不同話題的選擇偏好,將升序排列的序差序列繪制散點圖,得到序差分布圖,見圖3。
從分布圖可以看出,除了“情感婚姻”“兩性生理”為零以外,其他話題均存在組間序差。男性比女性更優(yōu)先選擇的話題依次為:游戲網(wǎng)游、法律法規(guī)、體育運動、歷史文化、經(jīng)濟金融、、軍事國防、科學(xué)技術(shù)等;女性較男性更優(yōu)選選擇的話題依次為:美容護膚、時尚消費、星座占卜、美食佳肴、醫(yī)療衛(wèi)生、教育培訓(xùn)、汽車房產(chǎn)、工作求職、娛樂明星等。
(二)話題量的組間差異顯著性檢驗
為了進一步考察兩性話題傾向的組間差異,下面以話題文本量為依據(jù)進行差異顯著性檢驗。由于27個話題分類為非定距數(shù)據(jù),因此采用非參數(shù)檢驗。非參數(shù)檢驗是不依賴總體分布的統(tǒng)計分析方法,指在總體不服從正態(tài)分布且分布情況不明時,用來檢驗數(shù)據(jù)資料是否來自同一個總體假設(shè)的一類檢驗方法。本文采用卡方驗證中的獨立性驗證,借助統(tǒng)計軟件SPSS(220)得到卡方驗證的結(jié)果,見表2。
通過表2中“Pearson ChiSquare”一欄對應(yīng)的Value值和AsympSig值可以查到,x2值為86702647,P值為0000。當(dāng)P值小于005,說明兩者之間存在顯著性差異。假若P值大于005,說明兩者之間沒有顯著性差異。由于獨立性驗證中的自由度df=(r1)*(K1),即行的數(shù)目減1乘以列的數(shù)目減1,df=(271)*(31)=52。查卡方分布表,對應(yīng)的自由度df=52,a=005的x2的臨界值為6750,檢驗統(tǒng)計值x2為86702647,遠遠大于臨界值,同時P值為0000,小于005。因此通過檢驗統(tǒng)計值X2和P值的所在范圍可以判定:在博客文本中,兩性話題量的組間差異存在顯著性,具有統(tǒng)計學(xué)意義。
四、結(jié)語
通過以上研究發(fā)現(xiàn),兩性在言語交際中的話題優(yōu)先序列組間差異客觀存在,不同語境下的兩性話題差異不盡相同。日常言談等現(xiàn)實語言生活中的兩性高位序話題完全不同,男性話題以政治、軍事、體育、經(jīng)濟等男性擅長的優(yōu)勢領(lǐng)域為主,女性話題則以情感、家庭、婚姻、生活等方面為主。但是在博客等虛擬網(wǎng)絡(luò)空間中,兩性的高位序話題變得趨同,話題優(yōu)先序列中的前三位話題都是家庭生活、感情婚姻、雜談。雖然高位序話題相同,但是優(yōu)先序列中話題的組間序差明顯,且話題量的差異具有顯著性。
造成兩性話題差異的原因有很多,諸如兩性固有的生理和心理基礎(chǔ)、受教育程度、身份角色以及社會交往方式等,但根本原因源于傳統(tǒng)社會文化下逐漸形成的性別文化、性別心理和性別角色的差異。男性由于更多地參與社會經(jīng)濟活動,表現(xiàn)在話題上更多地涉及政治、經(jīng)濟等方面內(nèi)容,而負責(zé)執(zhí)掌家庭內(nèi)務(wù)的女性們則更多地關(guān)注家庭生活等方面的話題,話題差異是兩性社會分工不同的必然結(jié)果。但是兩性的話題優(yōu)先序列不是絕對的,往往會因場合、交際對象、個人文化程度、年齡等因素而變化,并隨著社會、環(huán)境、文化的發(fā)展而相應(yīng)發(fā)展。
參考文獻:
[1]Wardhaugh,Ronald An introduction to sociolinguistics[M] 6th Edition Blackwell Publishing 2010
[2]Klein,J The family in “traditional” workingclass England[C] In M Anderson(ed) Sociology of the Family,Baltimore,Penguin 1971
[3]Kramer,CWishywashy mommy talk [J] Psychology Today,1974(8): 8285
[4]Aries,E 1976 Interaction patterns and themes of male,female,and mixed groups[J]Small Group Behaviour 7(1):718
[5]Aries,E 1982 Verbal and nonverbal behavior in singlesex and mixsex groups[J] Psychological Reports 51,12734
[6]Tannen,D You just don't understand:Women and men in conversations[M] New York: William Morrow 1991
[7]Meyerhoff,Miriam Introducing Sociolinguistics[M] New York,NY: Routledge,2006
[8]S力生話語風(fēng)格上的性別差異研究[J]外國語,1997(1):4348
[9]李經(jīng)偉語言性別差異及其原因解釋[J]山東外語教學(xué),1998(3):1216
在針對金融學(xué)領(lǐng)域進行實證研究時,傳統(tǒng)研究方法通常選擇結(jié)構(gòu)化數(shù)據(jù)作為研究依據(jù),常見類型如股票市場數(shù)據(jù)、財務(wù)報表等。大數(shù)據(jù)技術(shù)發(fā)展后,計算機技術(shù)逐漸成熟,在實證研究中可獲取更加多樣化的數(shù)據(jù),非結(jié)構(gòu)化文本大數(shù)據(jù)得到應(yīng)用,例如:P2P網(wǎng)絡(luò)借貸文本、財經(jīng)媒體報道、網(wǎng)絡(luò)搜索指數(shù)、上市公司披露文本、社交網(wǎng)絡(luò)文本等。本文探討了相關(guān)文本可讀性、相似性、語氣語調(diào)與語義特征等。
1.在金融學(xué)研究中文本大數(shù)據(jù)的挖掘方法
傳統(tǒng)研究方法通常采用人工閱讀方法對文本信息進行識別,因為文本數(shù)量龐大、信息構(gòu)成復(fù)雜,人工識別效率較低,而且信息識別質(zhì)量不穩(wěn)定,信息識別效果受到閱讀者專業(yè)素養(yǎng)、理解能力等多方面因素影響。計算機技術(shù)發(fā)展后逐漸被應(yīng)用于分析文本大數(shù)據(jù),利用計算機技術(shù)獲取語料,對文本資料進行預(yù)處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數(shù)據(jù)時,主要采取如下流程:(1)從眾多信息來源中獲取語料,對語料文檔進行解析,明確文本定位,清洗數(shù)據(jù),獲得文本分詞,標(biāo)注詞性,將其中停用詞清除。(2)構(gòu)建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關(guān)聯(lián)性。(4)監(jiān)督機器學(xué)習(xí)、詞典語法處理[2]。
1.1獲取語料
獲取語料的方法主要分為兩種:(1)人工獲?。唬?)利用網(wǎng)絡(luò)工具爬取或抓取。其中人工獲取語料投入成本較高,耗時較長,需要投入大量人力,因此網(wǎng)絡(luò)抓取的可行性相對較高[3]。網(wǎng)絡(luò)抓取方法可有效應(yīng)對大量文本量,在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡(luò)抓取語料時,需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語料獲取模式具有兩方面顯著優(yōu)勢,不僅獲取文本信息耗時較短,效率較高,而且可直接使用編程語言整理內(nèi)容和規(guī)范形式,為后續(xù)文本分析工作奠定基礎(chǔ)[4]。
1.2預(yù)處理環(huán)節(jié)
獲取目標(biāo)語料后,前期需要預(yù)處理文本,解析、定位文本,清洗數(shù)據(jù),標(biāo)注分詞與詞性,最后去除停用詞。金融市場通常要求企業(yè)采用PDF格式作為信息披露文檔格式,文本預(yù)處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中,利用計算機程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達式進行財務(wù)報告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內(nèi)容結(jié)構(gòu)外,還包括超文本標(biāo)記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內(nèi)容,需要刪除和清洗相關(guān)信息,從文本中篩選有價值的核心內(nèi)容[6]。文本分詞處理與文本語言密切相關(guān)。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據(jù)中文語言習(xí)慣,詞語為最小語言單位,可獨立使用?;诖朔N背景,分析文本時需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業(yè)績說明會以及企業(yè)財務(wù)報告均可使用該類工具處理,完成分詞。在針對中文文本進行分詞處理時,其中實施難度較高的部分是識別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時,需要科學(xué)選擇分詞方法,采用“jieba”針對文本進行分詞處理時,選擇分詞模式是否科學(xué)直接影響分詞精準(zhǔn)度。分詞處理新詞時,需要用戶在相應(yīng)模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識別新詞[7]。語義信息被識別的關(guān)鍵依據(jù)是詞性等語法特征,詞語切分后標(biāo)記詞語詞性操作被稱為詞性標(biāo)注。詞性標(biāo)注操作可幫助計算機進行詞語種類識別,避免詞語歧義,對語法結(jié)構(gòu)進行有效識別,從而促進計算機順利進行語義分析。詞性標(biāo)注時,中英文操作方法不同,詞性劃分英文單詞要求比較嚴謹,利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識別依據(jù)主要為語法、語義等。簡言之,英文詞性識別標(biāo)記注重形式,漢語詞性標(biāo)記以語義為主。在處理文本信息時,需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達有限,然而對于句子語法結(jié)構(gòu)完整性而言非常重要的詞語。停用詞導(dǎo)致文本數(shù)據(jù)具有更繁瑣維度,導(dǎo)致分析文本的成本較高。英文中動詞、連詞、冠詞均為常見停用詞。中文處理方法比較復(fù)雜,必須結(jié)合語言習(xí)慣分析停用詞,不僅需要處理特殊符號、標(biāo)點符號,還需要處理連詞、俚語。除此之外,應(yīng)根據(jù)具體研究內(nèi)容確定停用詞。在進行文本情緒研究時,特定標(biāo)點符號、語氣詞等會影響文本表達的情感信息,對于此類信息需要予以保留,從而保證文本情感程度得到準(zhǔn)確分析。
1.3文檔表示環(huán)節(jié)
文本數(shù)據(jù)為高維度數(shù)據(jù),具有稀疏特點,使用計算機處理文本數(shù)據(jù)時難度較高,預(yù)處理實施后,必須通過特定方式表示文檔信息,通過此種處理降低后續(xù)計算機分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術(shù)具有可視化特點,是文本大數(shù)據(jù)技術(shù)之一。所謂本文可視化,即使用視覺符號顯示復(fù)雜內(nèi)容,展示文本規(guī)律。根據(jù)生物特性,人們習(xí)慣于通過視覺獲取文本信息,實現(xiàn)文本可視化可提高信息提取效率。使用詞云技術(shù)可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構(gòu)建基礎(chǔ)是無嚴格語序要求的文字詞組存在[9],以此種假設(shè)為前提,文本相當(dāng)于眾多詞語集合,采用向量化方法表達文本,在此過程中只計算各個詞語出現(xiàn)頻率。在詞袋模型中含有兩種構(gòu)建方法:(1)獨熱表示法;(2)詞頻-逆文檔頻率法。前者的應(yīng)用優(yōu)勢是可行性較高,操作難度較低。例如:現(xiàn)有如下兩個文檔:(1)文檔一:“經(jīng)濟學(xué)中文本大數(shù)據(jù)使用”;(2)文檔二:“金融學(xué)中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎(chǔ)建設(shè)詞表,根據(jù)詞序?qū)嵤┰~袋化處理,確定詞袋向量。對于出現(xiàn)的詞,以“1”表示,未出現(xiàn)的詞以“0”表示。但是在實際操作中,不同詞語在文檔中出現(xiàn)頻率存在差異,通常文本中高頻詞數(shù)量較少,許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語的作用,對單詞詞語賦予權(quán)重。TF-IDF是計算文檔定詞語權(quán)重的有效方法。含有詞語i文檔數(shù)描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個文件中詞語i頻率描述為tfi,j,第j個文檔內(nèi)詞語數(shù)量描述為aj,第i個文檔內(nèi)詞語i權(quán)重描述為tf-idfi,j,則公式應(yīng)表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨熱表示法,TF-IDF方法的特點是對每個單詞賦予不同權(quán)重。在賦予其權(quán)重的基本方法時文本中該詞匯出現(xiàn)頻率越高,其重要性越高,與此同時語料庫中該詞匯出現(xiàn)頻率越高,則其重要性相應(yīng)降低。詞嵌入處理中,主要是在低緯度連續(xù)向量空間嵌入指定高維空間,該高維空間維數(shù)包括全部詞數(shù)量。在金融學(xué)領(lǐng)域中進行文本研究時,詞嵌入技術(shù)通常采用Word2vec技術(shù),該技術(shù)中主要使用CBOW技術(shù)與Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,針對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,促使其有效捕獲詞語中包含的上下文信息,對詞語進行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應(yīng)用頻率較高的是LDA模型,應(yīng)用此種模型進行文本分析屬于無監(jiān)督機器學(xué)習(xí)法,通過此種方法才能夠大量集中語料中提取主題信息。在應(yīng)用該方法時,將生成文檔的過程分為兩步,首先假定各文檔具有對應(yīng)主題,從這些主題中抽取一個主題,然后假定文檔具有對應(yīng)詞匯,對比之前抽取的主題,從詞語中選取一個與主題對應(yīng)的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優(yōu)勢是,與手動編碼相比,該模型性能更完善,可有效分類大規(guī)模文檔。該模型做出的文本主題分類支持復(fù)制,準(zhǔn)確性較高,而采用人工手段分類文本時較易受到主觀性影響。此外,使用此種模型時,無需人工分類進行關(guān)鍵詞、規(guī)則設(shè)定。LDA模型的缺點是在主題預(yù)設(shè)個數(shù)時,受到研究者主觀因素影響,選擇主題個數(shù)的數(shù)量受此影響顯著,因此生成主題過程與歸類文本主題時較易受到相關(guān)影響。
1.4抽取文本特征的方法
文本特征是指文本可讀性、相似性、文本情緒以及語義關(guān)聯(lián)性。其中文本可讀性即讀者在閱讀文本時是否可較容易地理解文本信息。在編輯文本時應(yīng)保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù),該類研究認為,迷霧指數(shù)與年報可讀性呈負相關(guān)。年報文本字數(shù)、電子文檔規(guī)格也是影響年報可讀性的重要因素。在使用迷霧指數(shù)評價文本可讀性時,常見的問題是,隨機排序句子中詞語將導(dǎo)致文本難以理解,然而正常文本和經(jīng)過隨機排序處理的文本在分析計算時,顯示相同迷霧指數(shù)。不僅如此,在進行商業(yè)文本測量時采用迷霧指數(shù)作為依據(jù)具有顯著缺陷,例如,當(dāng)對企業(yè)披露信息進行可讀性分析時,難以有效劃分年報可讀性與該企業(yè)實際復(fù)雜性?;诖朔N背景,在針對年報文本可讀性進行評價時,需要結(jié)合企業(yè)業(yè)務(wù)復(fù)雜性等影響,提出非文本因素[11]。在提取文本情緒時,通常采用有監(jiān)督機器學(xué)習(xí)法與詞典法進行提取操作。詞典法即在文本情緒、語氣語調(diào)研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復(fù)制。不僅如此,建設(shè)詞典時還需要融合大量金融學(xué)專業(yè)知識,從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類詞典、文獻等分析媒體報道情緒,針對財務(wù)報告進行語氣語調(diào)分析,以及進行電話會議等進行語氣語調(diào)分析等。中文大數(shù)據(jù)分析時,通常是以英文詞典、詞庫等為模板,構(gòu)建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評估股市崩盤風(fēng)險高低。在詞典法應(yīng)用中需要結(jié)合加權(quán)法進行文本情緒分析[12]。有監(jiān)督機器學(xué)習(xí)法包括支持向量機、樸素貝葉斯等方法。采用此類方法時,重點環(huán)節(jié)在于對分類效果進行檢驗和評價。交叉驗證法是常見檢驗方法。有監(jiān)督機器學(xué)習(xí)法的缺點是必須人工編碼設(shè)置訓(xùn)練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復(fù)制。其優(yōu)點是分類精確度較好。
2.文本大數(shù)據(jù)分析
大數(shù)據(jù)分析主要是進行財務(wù)報告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡(luò)文本以及財經(jīng)媒體報道等進行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調(diào)等,然后分析股票市場行為與文本特征等相關(guān)性。分析披露文本信息時,主要是利用文本信息對企業(yè)財務(wù)、經(jīng)營、管理層長效經(jīng)營信息等進行研究。在進行此類研究時,重點是分析文本可讀性、相似性,以及分析語氣語調(diào)。披露文本可讀性較高時,有利于投資者有效獲取公司信息,影響投資行為。迷霧指數(shù)理論認為,財務(wù)報告具有較高可讀性的企業(yè)通常具有更長久的利潤。此外,有研究者提出,財務(wù)報告可讀性直接影響盈余預(yù)測離散性和可靠性。財務(wù)報告可讀性較低時,公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財務(wù)報告可讀性可對投資者行為做出影響[13]。在針對企業(yè)發(fā)展情況和股票市場發(fā)展趨勢進行分析時,披露文本語氣語調(diào)具有重要參考價值。相關(guān)研究認為,MD&A語氣內(nèi)含有增量信息,該類信息為企業(yè)長效經(jīng)營能力進行預(yù)測,同時可根據(jù)該類信息分析企業(yè)破產(chǎn)風(fēng)險。管理者情緒狀態(tài)可表現(xiàn)在電話會議語氣中,此種語氣分散情況與經(jīng)營決策具有相關(guān)性,同時語氣對投資者感知、分析師評價產(chǎn)生影響。分析財經(jīng)媒體報道時,主要關(guān)注媒體情緒,分析媒體報道著眼點,針對經(jīng)濟政策進行分析,了解其不確定性,此外還需要研究媒體報道偏向信息、假新聞等。進行社交網(wǎng)絡(luò)文本研究時,主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面,主要通過搜索指數(shù)了解投資者關(guān)注度。
引言
隨著web2.0的快速發(fā)展,社交網(wǎng)絡(luò)逐漸從各個方面影響著中國網(wǎng)民。微博成為了社交網(wǎng)絡(luò)中社交工具的典型代表。網(wǎng)民使用微博在互聯(lián)網(wǎng)上的活動主要是獲取信息與信息,的信息含有自己對某事物的看法、觀點、感知等個人情感。
它們主要以文字,表情符號(新浪微博默認表情及標(biāo)點符號)形式出現(xiàn)。通過用戶之間的互動傳播(一個微博用戶具有雙重角色,即博主與粉絲),這種社交網(wǎng)絡(luò)媒體具有傳播速度快,傳播范圍廣等特點。因此對微博情感識別與分類就顯得尤為重要。
對微博文本的情感進行識別與分類,不僅能讓企業(yè)及時了解客戶需求尋找到潛在的客戶群體,通過實時、準(zhǔn)確地評估其情感。能夠獲得客戶市場反饋信息及客戶的消費習(xí)慣,幫助企業(yè)進行有效的需求管理及企業(yè)戰(zhàn)略調(diào)整,從而快速應(yīng)對市場變化,提高企業(yè)競爭力。還能幫助政府部門實時監(jiān)控民眾情緒,對負面情緒及時采取措施,防止不法分子企圖通過微博平臺傳播謠言,以此保證社會的和諧穩(wěn)定,政府了解民意,為制訂國家政策提供參考。
同時也能協(xié)助醫(yī)生分析心理障礙者,及時掌握患者情緒波動,準(zhǔn)確對患者病情進行有效的對癥下藥。避免了患者不能準(zhǔn)確描述病情,而帶來的不相關(guān)治療。
因此對微博情感進行研究具有重要的理論與實踐意義。文章意在為政府或企業(yè)等利用到微博情感分析數(shù)據(jù)的領(lǐng)域提供基礎(chǔ)。
鑒于自主采用Java語言開發(fā)的新浪微博的情感識別與分類系統(tǒng),對中文微博的情感進行識別與分類研究。系統(tǒng)使用爬蟲技術(shù)[1],抓取微博的文本內(nèi)容,然后進行分詞,去停用詞,文本規(guī)范等預(yù)處理操作,再抽取情感特征,對文本情感識別與分類,最終輸出分類結(jié)果。
一、相關(guān)工作
1.1文本獲取及預(yù)處理
對微博數(shù)據(jù)資源的獲取有兩種形式,一種是用戶以普通文本形式直接在系統(tǒng)前臺相應(yīng)位置輸入待分析的文本,系統(tǒng)可以自動進行情感識別與分類;另一種是用戶以微博文本URL形式輸入,系統(tǒng)對用戶輸入URL連接采用網(wǎng)絡(luò)爬蟲技術(shù)抓取微博正文內(nèi)容。
網(wǎng)絡(luò)爬蟲結(jié)構(gòu)先將用戶輸入URL作為爬蟲起點,通過web協(xié)議(主要是HTTP協(xié)議)采集頁面,使用多線程或并列技術(shù)獲取網(wǎng)頁數(shù)據(jù)信息,網(wǎng)絡(luò)爬蟲結(jié)構(gòu)也提供了鏈接過濾模塊(過濾掉不符合URL規(guī)范的鏈接),頁面數(shù)據(jù)庫模板(存儲已經(jīng)爬取到本地的原始頁面數(shù)據(jù),以備預(yù)處理階段建立索引使用)。
為了提高分類的準(zhǔn)確率,減少獲取文本內(nèi)容不必要干擾,對文本進行預(yù)處理操作十分必要。系統(tǒng)的預(yù)處理操作主要包括:
1.文本規(guī)范化處理,判斷待處理的文本是否含有由兩個#組成的話題標(biāo)簽,若有則刪除兩個#及它們之間的文字內(nèi)容。
2.使用正則表達式判斷微博文本是否含有以下三種含@微博標(biāo)簽,若有將它們刪除①以@開頭,以:結(jié)尾②以@開頭,以空格結(jié)尾③以回復(fù)@開頭以:結(jié)尾。
3.判斷英文詞語是否含有感彩,刪除不必要的英文詞語。
4.用中文描述替代含有感情的“?”和“!”去除一些標(biāo)點符號。
5.使用得到普遍認可的支持Java開發(fā)語言的ICTCLAS分詞工具分詞,去除停用詞。
1.2文本特征抽取
文本特征抽取[2-3]是從文本中選取一部分能夠反應(yīng)其內(nèi)容信息的特征詞匯并計算其特征權(quán)重。特征抽取的主要目的是為了降低向量空間的維度,消除無關(guān)特征的噪音,通過選擇可區(qū)分性強的少量特征來提高分類器的分類精度和效率。常用的特征選取方法有: 文檔頻率、信息增益法、期望交叉熵等。文檔頻率[4](Document Frequency )一種簡單的特征約減技術(shù),常用自動特征選擇,通過設(shè)置目標(biāo)特征的文檔頻率閾值來進行特征的抽取。DF是含有該目標(biāo)特征的文檔數(shù)與所有文檔數(shù)的比值,可表示為
信息增益法[5]是指文本包含該特征項與不包含該特征項時的信息熵的差值,根據(jù)所獲信息增益的多少篩選有效特征,已成為機器學(xué)習(xí)領(lǐng)域應(yīng)用較為廣泛的特征選擇方法。信息增益法計算公式可以表示為:
由于當(dāng)特征數(shù)目較少時,使用該方法得到的數(shù)據(jù)稀疏,分類結(jié)果會不理想,因此本文首先對預(yù)處理后待分析的文本里出現(xiàn)的每個詞計算其信息增益,設(shè)置一個閾值,抽取特征詞,按照信息增益值降序選擇特征項組成特征向量。
期望交叉熵[6](Expected Cross Entropy)反應(yīng)了文本類別的概率分布與在出現(xiàn)了某個詞條的情況下文本類別的概率分布之間的距離。
詞條的交叉熵越大,對文本類別分布影響也就越大。所以選CE最大的K個詞條作為最終的特征項。
期望交叉熵計算公式:
為了提供特征詞抽取的時間效率,針對微博的數(shù)據(jù)量很大的特點,使用期望交叉熵和TF-IDF求方差的方法抽取情感特征詞。
1.3文本情感識別與分類
采用基于樸素貝葉斯主客觀句識別方法[7]和支持向量機的分類方法[8-11]對文本分類。樸素貝葉斯方法是一種基于事件概率簡單而誤差率較小的分類方法?;驹硎牵涸谑录鄬Κ毩⒌臈l件下,事件A在事件B發(fā)生的條件下的概率且與事件B在事件A發(fā)生的條件下概率是不相同的。及文檔A屬于B i類概率表示為
系統(tǒng)應(yīng)用思想:對有已知類別集合S(x1,x2,…,xn),求在待分類項出現(xiàn)的條件下,集合中各個類別出現(xiàn)的概率,哪個類別的概率值大,就認為待分類項屬于那一類別。并將對每個特征項主客觀句的條件概率計算結(jié)果輸出,作為支持向量機分類器的輸入值。
系統(tǒng)的工作流程圖如圖1所示。
二、實驗分析
使用第二屆自然語言處理與中文計算機會議所提供包含4000條已經(jīng)標(biāo)注是否含有情感色彩的中文微博語料,含有13252個句子,且主觀句中又表明了所屬具體情感類。情感類別分為7個類別,分別是:喜好、安樂、驚奇、厭惡、悲哀、憤恨和恐懼。
選擇這些數(shù)據(jù)作為系統(tǒng)測評數(shù)據(jù)主要是與系統(tǒng)測試結(jié)果進行比較,核實評價實驗結(jié)果的召回率(R),準(zhǔn)確率(P),性能評價指標(biāo)F值。求解公式如下所示:
系統(tǒng)將實驗測評數(shù)據(jù)首先進行預(yù)處理,對其進行規(guī)范化、分詞去除停用詞、抽取情感特征,然后采用樸素貝葉斯方法,使用其公式計算結(jié)果來識別主觀句,支持向量機方法先將抽取的特征詞轉(zhuǎn)換成向量形式,再將向量化后的文本放到向量機的模型中,最終輸出分類結(jié)果。通過計算支持向量機的情感分類方法召回率達到74.4%,準(zhǔn)確率高達63.76%,F(xiàn)值達到0.6534.
實驗中采用準(zhǔn)確率,召回率,F(xiàn)值測評指標(biāo),對常見的情感特征抽取方法[16]實驗結(jié)果進行了對比,見表1,通過對比樸素貝葉斯和支持向量分類方法對主客觀句的識別結(jié)果,得出結(jié)論:本實驗中對主客觀句的識別樸素貝葉斯方法比支持向量機方法的實驗結(jié)果更好。因為支持向量機方法準(zhǔn)確率雖更高,但召回率較低。
實驗結(jié)果見表2。對已識別的主客觀句,我們采用支持向量機的一對一的多步分類方法及一對其余的一次分類方法進行情感分類。
實驗結(jié)果見表3。實驗結(jié)果表明:一對一多步情感分類方法效果優(yōu)于一對其余一次分類。因為一對其余分類方法可能出現(xiàn)重疊現(xiàn)象或因不可分類現(xiàn)象而引起數(shù)據(jù)集的抖動。因此實驗最終選擇支持向量機的一對一多步分類方法。
三、結(jié)語
微博作為網(wǎng)民在互聯(lián)網(wǎng)主要活動之一,逐漸從各個方面影響著人們,網(wǎng)民帶有情感的言論對各行各業(yè)都有著不可估量的使用價值。因而對微博文本的數(shù)據(jù)分析研究有一定的社會意義。
通過查閱文獻發(fā)現(xiàn)基于樸素貝葉斯識別主客觀句的方法及基于機器學(xué)習(xí)支持向量的方法有較高的精度。而由于針對中文微博的研究大部分是理論性的研究,因此本文通過構(gòu)建系統(tǒng),將基于樸素貝葉斯的識別主客觀句個方法及支持向量機的方法的研究思路實踐化。實驗結(jié)果對企業(yè)、政府及廣大網(wǎng)民均有重要的社會意義。
展望:
1.后期會打破僅在初步解決微博文本的情感識別和分類問題的研究,接下來會投入對用戶的圖片信息,鏈接的視頻聲音信息進行研究。
2.本文去除英文詞語,采用的是人工標(biāo)注方法。鑒于部分國人傾向于有使用英文的習(xí)慣,所以會不斷的完善系統(tǒng)情感庫,或設(shè)計系統(tǒng)能自動翻譯,以此減少人工工作量。
參 考 文 獻
[1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.
[2] 張彪.基于關(guān)聯(lián)分析的文本分類特征選擇算法[J].計算機工程.2010(22):184-186.
[3]謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報,2011,26(1):73-83.
[4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.
[5] 李海瑞.基于信息增益和信息熵的特征詞權(quán)重計算研究[D].重慶大學(xué),2012.
[6] 廖一星.文本分類及其特征降維研究[D].浙江大學(xué).2012
[7] 蔣良孝.樸素貝葉斯分類器及其改進算法研究[D].中國地質(zhì)大學(xué),2009
[8]楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法 [J].計算機應(yīng)用研究,2010,27(10):3737-3739
[9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.
[10]趙暉.支持向量機分類方法及其在文本分類中的應(yīng)用研究[D].大連理工大學(xué),2006.
[11]張博.基于SVM的中文觀點句抽取.[D].北京.北京郵電大學(xué),2011
[12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.
[13] 韓忠明,張玉莎,張慧,等.有效的中文微博短文本傾向性分類算法[J].計算機應(yīng)用與軟件,2012,29(10):89-93.
中圖分類號:F820 文獻標(biāo)識碼:A 文章編號:1003-9031(2014)02-0054-05 DOI:10.3969/j.issn.1003-9031.2014.02.12
一、引言
截至2013年6月末,我國網(wǎng)民規(guī)模達到5.91億,互聯(lián)網(wǎng)普及率為44.1%。其中微博網(wǎng)民規(guī)模為3.31億,網(wǎng)民中的微博使用率達到了56.0%①。目前微博已經(jīng)成為網(wǎng)民獲取信息的重要途徑之一,由于微博具有龐大的用戶群體以及其開放性、互動性和低成本等特點,越來越多的企業(yè)開始挖掘微博潛在的商業(yè)價值并開設(shè)企業(yè)官方微博。就汽車行業(yè)來說,自新浪微博2009年推出企業(yè)微博應(yīng)用,此后汽車品牌以每5天開設(shè)一個新官方微博的速度平穩(wěn)增長,于2011年8月份基本達到飽和,說明汽車企業(yè)對微博營銷的重視,但是51.7%的汽車品牌官方微博粉絲數(shù)都在7萬左右,相對于我國8839萬私人汽車保有量來說,汽車品牌官方微博還是有很大的粉絲增長空間②。總的來說,微博的發(fā)展以及其優(yōu)質(zhì)的傳播特性為企業(yè)營銷提供了一個新的平臺,也為企業(yè)實現(xiàn)品牌推廣、提高品牌價值提供了新的機遇。
但是,許多企業(yè)使用微博營銷效果與其品牌不能匹配,實施效果并不理想,存在諸如戰(zhàn)略與資金的匹配、營銷策略的制定和執(zhí)行等問題,使得企業(yè)在微博中的營銷效果往往會向兩極發(fā)展,要么通過持續(xù)運作贏得更多粉絲關(guān)注和響應(yīng),要么不溫不火,直到消失(Court,2009; Shandwick,2009; Passant,2010; Xu,2010)[1-4]。
綜合以上考慮,企業(yè)如何通過官方微博提高微博營銷效果成為了研究的重點,長期的微博營銷效果是由短期效果的疊加形成的,而短期微博營銷效果是由每條微博文本內(nèi)容的價值等體現(xiàn)的。企業(yè)微博的目的是希望其具有盡可能廣的傳播范圍,而微博文本內(nèi)容是影響其傳播的重要因素之一。微博與文本分析的結(jié)合是近年來理論和實務(wù)界研究的熱點,本文以沃爾沃汽車官方微博為案例,將其的微博文本分為公共類、有獎活動類、產(chǎn)品宣傳類、品牌事件類,研究不同類型的微博對總轉(zhuǎn)發(fā)量的影響;與此同時,將微博的時間分為空閑時間和非空閑時間,研究不同時間段微博對總轉(zhuǎn)發(fā)量是否有影響,從而為沃爾沃汽車微博平臺管理提供指導(dǎo)意見,提高其微博營銷效果。
二、文獻回顧和問題提出
(一)微博營銷效果的評估
傳統(tǒng)營銷效果的度量指標(biāo)有很多,如產(chǎn)品的銷售額、所占的市場份額、營銷的回報率等,這些指標(biāo)的數(shù)據(jù)獲取相對容易,但運用到社會化媒體(如微博)的營銷效果評估存在一定的局限性。國內(nèi)外對社會化媒體的營銷效果研究至今仍沒有一個公認的評估模式,比較有代表性如下幾個:Chris(2009)總結(jié)了具有一定普適性的社會化媒體營銷效果度量標(biāo)準(zhǔn)框架,其中包括定性的評估指標(biāo)(用戶評論的觀點和討論的主題等)以及定量的評估指標(biāo)(評論量、粉絲數(shù)、產(chǎn)品手冊的下載量等)[5];Richard(2010)將社會化媒體影響用戶的過程劃分為四個階段(Awareness-Appreciation-Action-Advocacy),根據(jù)4As不同階段定義核心指標(biāo)[6],但該模型的構(gòu)建表現(xiàn)為單方向遞進,針對企業(yè)微博營銷互動反饋的特性,具有一定的局限性;Yamaguchi(2010)等將提出TURank ( Twitter User Rank) 來計算用戶影響力排名[7];Park等(2011)通過TAM模型實證分析了企業(yè)微博用戶的知名度、互動性、信任度對Twitter上的企業(yè)微博營銷有顯著影響[8]。上述研究的重點在于整個企業(yè)微博營銷效果的評估,對博文營銷效果進行評價的研究尚不多見。
國內(nèi)微博起步較晚,API開放性較低,數(shù)據(jù)獲取相對困難,也導(dǎo)致了國內(nèi)以企業(yè)微博營銷為研究對象的學(xué)術(shù)文章相對較少。金永生等(2011)指出對企業(yè)微博營銷效果的測量主要針對短期效果,用“被微博用戶轉(zhuǎn)發(fā)的含有有獎營銷信息標(biāo)簽的企業(yè)微博的總數(shù)”作為衡量企業(yè)微博營銷短期效果的評價指標(biāo)[9],但是筆者在咨詢新浪微博客服后發(fā)現(xiàn),微博搜索引擎會將相同結(jié)果合并,所以該評價指標(biāo)的可靠性值得商榷。趙愛琴(2012)借鑒了Murdough 的研究框架,結(jié)合國內(nèi)企業(yè)微博運營現(xiàn)狀,提出企業(yè)微博營銷效果的評估模型AESAR(Awareness 注意-Engagement參與-Sentiment 態(tài)度-Action 行動-Retention保留) 與評估指標(biāo)[10],但模型沒有給出各個指標(biāo)相對于營銷效果的重要程度,也沒有實證數(shù)據(jù)的支持。陳曉明(2012)給出了微博營銷的投資回報率(ROI)的計算公式[11],但沒有用于實證分析,因為公式中的微博營銷總收益難以衡量。畢凌燕(2013)根據(jù)微博傳播信息流,運用PageRank算法思想和用戶行為權(quán)值,提出一種評價企業(yè)微博博文營銷效果的量化方案[12]。由于新浪對企業(yè)微博數(shù)據(jù)進行了保護,這種方法的數(shù)據(jù)抓取有一定的難度。
本文擬以單條微博的總轉(zhuǎn)發(fā)量作為博文營銷效果的評價指標(biāo),該做法的意義及理由如下:一是研究博文的營銷效果對企業(yè)管理微博平臺具有更強的可操作性;二是從2012年3月起,新浪微博等實施實名認證,沒有通過認證的用戶只能瀏覽微博內(nèi)容,而不能進行評論、轉(zhuǎn)發(fā)等相關(guān)操作,這對打擊“僵尸粉”、保證傳播效果的真實性起到了一定的作用,也使得用“總轉(zhuǎn)發(fā)量”作為評價指標(biāo)具有一定的可靠性;三是畢凌燕(2013)的研究指出博文被評論和轉(zhuǎn)發(fā)的次數(shù)(而不是粉絲數(shù)),更能確切反應(yīng)其微博被用戶關(guān)注的程度和營銷效果;四是程雪芬(2012)研究得出企業(yè)微博營銷效果與真實粉絲數(shù)和平均轉(zhuǎn)發(fā)量正相關(guān)[13],本文假設(shè)短期內(nèi)企業(yè)微博真實粉絲數(shù)保持不變,故“總轉(zhuǎn)發(fā)量”一定程度上可以用于衡量企業(yè)微博營銷效果。
(二)微博文本分析
微博平臺與文本挖掘技術(shù)的相結(jié)合是近年來理論與實務(wù)界研究的熱點,但其研究成果還處于初級階段。陳致中(2012)以騰訊微博為例,采用問卷調(diào)查法探討什么樣的文本組合最能起到改變受眾態(tài)度的效果,結(jié)果發(fā)現(xiàn)廣告類信息的態(tài)度改變效果不明顯,而非廣告類的信息能夠有效改變受眾對企業(yè)微博的態(tài)度[14],由于其采用的是問卷調(diào)查法,而非真實的微博數(shù)據(jù),其可靠性有待檢驗。程雪芬(2012)把微博文本內(nèi)容分為工具型和情感型,結(jié)果得出工具型微博對粉絲數(shù)和平均轉(zhuǎn)發(fā)量都有顯著的正向影響,情感型微博對二者幾乎沒有影響。
本文選取“沃爾沃汽車中國”官方微博為案例,將其微博文本分為公共類、有獎活動類、產(chǎn)品宣傳類和品牌事件類,根據(jù)前人的研究以及經(jīng)驗提出如下假設(shè):
H1:公共類微博對總轉(zhuǎn)發(fā)量有正影響;
H2:有獎活動類微博對總轉(zhuǎn)發(fā)量有正影響;
H3:產(chǎn)品宣傳類微博對總轉(zhuǎn)發(fā)量有負影響;
H4:品牌事件類微博對總轉(zhuǎn)發(fā)量有正影響。
(三)微博時間
學(xué)術(shù)界目前尚未有探究微博時間對企業(yè)微博短期營銷效果的影響,這也是本文最大的創(chuàng)新點所在。前人與微博時間相關(guān)的研究有:Schneider等(2009)通過對Facebook, LinkedIn, Hi5, StudiVZ等四種社交網(wǎng)站上同樣賬號的屬性、特點、動態(tài)變化等進行跟蹤分析,得出用戶喜歡在不同社交網(wǎng)站做相同的事情,用戶總上網(wǎng)時間有限,在某個社交網(wǎng)站停留時間越多,會明顯擠占在其它社交網(wǎng)站的停留時間[15],這從側(cè)面反映了企業(yè)微博需要迎合用戶的興趣及使用時間;新浪的《2012企業(yè)微博白皮書》顯示,企業(yè)微博集中在周一到周五,從24小時分布情況看,早上9點至10點是企業(yè)發(fā)博的最高峰。筆者在前期研究江淮乘用車官方微博時發(fā)現(xiàn),可能是由于企業(yè)聘用專職員工管理微博平臺,其微博的時間集中在周一至周五的上班時間;而個人發(fā)博時間(也可看成是個人微博活躍時間)比較均勻,而在22點到凌晨24點達到峰值(見圖1)。
本文認為,企業(yè)微博的時間與真實用戶活躍時間不一致,可能會導(dǎo)致微博營銷效果受到影響。在此,從個人用戶使用微博的角度來看,定義“非空閑時間”為工作日的上午8:00至下午18:00,其余時間定義為“空閑時間”,并提出如下假設(shè):
H5a:空閑時間的微博對總轉(zhuǎn)發(fā)量有正影響;
H5b:非空閑時間的微博對總轉(zhuǎn)發(fā)量有負影響。
本文研究的創(chuàng)新點在于,研究單個企業(yè)微博文本的營銷效果的影響因素,對企業(yè)微博平臺管理更具有可操作性;由于文本分類的靈活性,為其他企業(yè)研究其自身微博營銷效果提供了方向;提出了微博時間對博文營銷效果可能的影響。
三、主要研究變量與數(shù)據(jù)樣本
(一)主要研究變量
1.因變量
本文以單條微博的總轉(zhuǎn)發(fā)量作為博文營銷效果的評價指標(biāo),由于總轉(zhuǎn)發(fā)量的數(shù)字不僅包括一級轉(zhuǎn)發(fā),還包括以后的各級轉(zhuǎn)發(fā)(即:A發(fā)表原創(chuàng)微博a,B轉(zhuǎn)發(fā)該條微博a;C再轉(zhuǎn)發(fā)B轉(zhuǎn)發(fā)的a,D再轉(zhuǎn)發(fā)C轉(zhuǎn)發(fā)的a……所有的這些轉(zhuǎn)發(fā)量都體現(xiàn)a的轉(zhuǎn)發(fā)量中),所以總轉(zhuǎn)發(fā)量在一定程度上體現(xiàn)了微博文本的傳播廣度和深度,可作為博文營銷效果的評價指標(biāo)。
2.主要解釋變量
前人研究的企業(yè)微博營銷影響因素主要有粉絲數(shù)量、企業(yè)品牌本身的影響力、微博數(shù)量、微博內(nèi)容價值等等,本文針對單個企業(yè)短期的博文營銷效果進行研究,并假設(shè)短期內(nèi)企業(yè)品牌本身的影響力和活躍粉絲數(shù)等因素保持不變,故主要解釋變量設(shè)定為微博文本內(nèi)容和發(fā)博時間。
(1)微博文本內(nèi)容
在對“沃爾沃汽車中國”微博文本閱讀后,本文將其微博文本內(nèi)容分為公共類、有獎活動類、產(chǎn)品宣傳類和品牌事件類。公共類指與企業(yè)無直接關(guān)系的內(nèi)容,如公共事件、時事、趣聞、祝福、實用信息等;有獎活動類指用戶參與并有機會獲得獎勵的內(nèi)容,如轉(zhuǎn)發(fā)送禮品、話費充值等;產(chǎn)品宣傳類指與企業(yè)產(chǎn)品或服務(wù)有關(guān)的介紹,如車型介紹、廣告、產(chǎn)品設(shè)計等;品牌事件類指與企業(yè)有關(guān)的客觀事件的報道,如企業(yè)新聞、品牌活動等。
為分析不同類型文本對總轉(zhuǎn)發(fā)量的影響,引入虛擬變量sort1、sort2、sort3,其中:
sort1=1 公共類0 有獎活動類、產(chǎn)品宣傳類或品牌事件類
sort2=1 有獎活動類0 產(chǎn)品宣傳類或品牌事件類
sort3=1 產(chǎn)品宣傳類0 品牌事件類
(2)發(fā)博時間
考慮到2013年9~10月期間中秋節(jié)和國慶節(jié)的放假安排,將所有法定工作日的8:00~18:00定義為“非空閑時間”,其余時間為“空閑時間”,引入虛擬變量time,并定義:
time=1 空閑時間0 非空閑時間
(二)數(shù)據(jù)樣本
本文記錄了“沃爾沃汽車中國”官方微博2013年9月1日至10月24日的所有341條微博作為基本研究對象,對其微博文本進行了人工分類,公共類、有獎活動類、產(chǎn)品宣傳類和品牌事件類的微博占比分別為41.9%、1.2%、49.0%和7.9%,說明沃爾沃主要利用微博平臺進行產(chǎn)品的宣傳。發(fā)博時間方面,空閑時間與非空閑時間占比分別為42.5%和57.5%,此處空閑時間的樣本量占比并不低,可能是9~10月中秋和國慶長假的原因(微博平臺在假期有專人維護)。
四、實證分析
考慮到空閑時間與非空閑時間企業(yè)微博的內(nèi)容可能存在差異,故將類型虛擬變量與時間變量的乘積作為模型的交叉項,構(gòu)建計量模型(見表1)。
以上所有自變量及交叉項均通過檢驗,R2值較高,F(xiàn)統(tǒng)計量也在1%水平下通過檢驗??傮w來看,有獎活動類微博最能夠刺激轉(zhuǎn)發(fā),其次是品牌事件類,公共類和產(chǎn)品宣傳類促進轉(zhuǎn)發(fā)效果較差,假設(shè)H2、H3、H4得到驗證;空閑時間相比于非空閑時間更能夠促進轉(zhuǎn)發(fā),假設(shè)H5a、H5b得到驗證。具體到各類微博內(nèi)容的分析,相關(guān)數(shù)據(jù)見表2。
由表2可知,公共類微博在促進轉(zhuǎn)發(fā)方面表現(xiàn)最差,企業(yè)可適當(dāng)減少公共類微博的,或者精選優(yōu)質(zhì)的公共類微博;公共類微博在空閑時間的總轉(zhuǎn)發(fā)量要高于非空閑時間,故企業(yè)可將部分公共類微博的時間調(diào)整到晚上或者周末,以迎合個人用戶的上網(wǎng)時間,提高微博營銷效果。
有獎活動類微博的總轉(zhuǎn)發(fā)量都比較大,但是企業(yè)不太可能增加太多該類微博的,所以如何利用好有獎活動類微博加強與用戶的互動聯(lián)系以及提高活躍粉絲數(shù)成為微博營銷的關(guān)鍵,如在實際操作中,企業(yè)可以在有獎活動類微博時設(shè)置關(guān)于品牌的相關(guān)問答題。
產(chǎn)品宣傳類比較特殊,其在空閑時間的總轉(zhuǎn)發(fā)量不如非空閑時間,可能的原因是,空閑時間大量微博充斥,對個人用戶而言,其興趣點可能并不在企業(yè)產(chǎn)品宣傳上(此結(jié)論并不一定適用于其他行業(yè)的企業(yè))。對汽車企業(yè)來說,在空閑時間要控制產(chǎn)品宣傳類微博的數(shù)量,以免引起用戶的反感。
品牌事件類微博總體轉(zhuǎn)發(fā)量較好,空閑時間比非空閑時間的營銷效果更好,可能是因為品牌事件類微博比較客觀,對于傳播品牌理念和提升品牌影響力有積極的作用,企業(yè)應(yīng)當(dāng)增加該類微博的量。
五、結(jié)論與展望
本文的研究結(jié)果表明,有獎活動類微博最能刺激轉(zhuǎn)發(fā),企業(yè)應(yīng)充分利用有獎活動提高真實粉絲數(shù);品牌事件類微博較公共類和產(chǎn)品宣傳類微博具有更好的傳播效果,企業(yè)可以對品牌事件類和公共類微博進行精選后,促進品牌價值的傳播;總體上空閑時間的微博具有更好的營銷效果,企業(yè)可根據(jù)不同類別的微博內(nèi)容選擇合適的時間。
本文采用案例分析方法,其研究結(jié)論的可推廣性有待檢驗。可能進一步的研究方向是采用大數(shù)據(jù),以前沿的文本和圖片分析技術(shù),更細致地分析企業(yè)微博內(nèi)容的價值,為提高企業(yè)微博營銷效果提供更為精確的指導(dǎo)建議?!?/p>
參考文獻:
[1]David C., Dave E., Susan M., Ole J.V.. The consumer decision journey[EB/OL].[2009-06].,http:///insights/marketing_sales/the_consumer_decision_journey.
[2]Shandwick W. Do for 100 companies need a vention
[EB/OL].[2009-11], http:///resources/ws/flash/Twittervention_Study.pdf.
[3]Passant A, Bojars U, Breslin J G, et al. An Overview of SMOB 2: Open, Semantic and Distributed Microblogging[C].//ICWSM.2010.303-306.
[4]Xu T, Chen Y, Fu X, et al. Twittering by cuckoo: decentralized and socio-aware online microblogging services[C].//ACM SIGCOMM Computer Communication Review. ACM, 2010, 40(4): 473-474.
[5]Murdough C. Social media measurement: it's not impossible[J]. Journal of Interactive Advertising, 2009(10):94-95.
[6]Pentin R, Senior Planner T M W. A New Framework For Measuring Social Media Activity[R]. TMW, 2010.
[7]Yamaguchi Y, Takahashi T. TURank: Twitter User
Ranking based on User-tweet Graph Analysis[C].WISE 2010:240-253.
[8]ByungHee P., JungHoon L., SoYeon P.. A study focusing the factors that influence SNS users' usage of corporate SNS sites focusing on Twitter[C].//The 11th International Conference of Decision Sciences Institute and The 16th Annual Conference of Asia-Pacific Decision Sciences Institute, Taipei: IEEE Press, 2011: 681-687.
[9]金永生,王睿,陳祥兵.企業(yè)微博營銷效果和粉絲數(shù)量的短期互動模型[J].管理科學(xué),2011(4):71-83.
[10]趙愛琴,朱景煥.企業(yè)微博營銷效果評估研究[J].江蘇商論,2012(1):89-92.
[11]陳曉明.企業(yè)微博客營銷效果的影響因素分析[D].廣州:暨南大學(xué),2012.
[12]畢凌燕,張鎮(zhèn)鵬,左文明.基于微博傳播信息流的微博效果評價模型及實證研究[J].情報雜志,2013(7):69-73.
微軟亞洲研究院網(wǎng)絡(luò)圖形組主管研究員劉世霞博士告訴CHIP,之所以現(xiàn)有的文本挖掘技術(shù)不夠用,首先是因為目前技術(shù)尚處于研究階段,精準(zhǔn)度不夠;其次是因為技術(shù)的靈活性不足,很難滿足不同人的需求。她和同組的副研究員崔為煒以及香港科技大學(xué)屈華民教授共同主導(dǎo)的TextFlow項目在破解這個難題方面提出了新的思路,他們將文本挖掘技術(shù)與可視化這種交互技術(shù)結(jié)合在一起,不僅突破了傳統(tǒng)靜態(tài)文本挖掘技術(shù)的限制,而且能讓人利用直觀的流式圖形迅速把握海量信息的發(fā)展脈絡(luò)。在國際最頂尖的信息可視化學(xué)術(shù)會議IEEE InfoVis 2011上,TextFlow論文的引發(fā)了業(yè)內(nèi)人士的關(guān)注。有評委表示,“該論文的主要貢獻是在海量文本分析中引入主題合并和分裂的理念,這是分析主題演化時面臨的最大挑戰(zhàn)之一,從文本挖掘和可視化兩個角度來說都意義非凡。”
有趣的是,他們在論文中以自身最熟悉的領(lǐng)域——可視化研究作為其中一個案例,將2001年至2010年間發(fā)表在IEEE Vis和InfoVis兩個學(xué)術(shù)會議上的933篇論文作為文本數(shù)據(jù)集合,通過TextFlow模型得出了與實際學(xué)術(shù)發(fā)展潮流相當(dāng)吻合的圖表,其結(jié)論令人信服。例如,整體上看,過去10年間Vis相關(guān)主題有日漸式微的趨勢,2006年之后各個主題獨立發(fā)展;InfoVis與之相反,整體的趨勢是上升的,主題之間的合并和分割非常多,說明該領(lǐng)域的研究更活躍。
他們是如何做到的呢?崔為煒向我們解釋了文本可視分析的步驟(如上圖所示)。首先,主要由機器來完成海量文本的收集和預(yù)處理工作。然后,利用自然語言分析中的概率模型HDP(Hierarchical Dirichlet Process)計算出文本所屬的主題(topic)。這里假設(shè)每個主題都是由一組關(guān)鍵詞來描述的,關(guān)鍵詞以不同的概率出現(xiàn)在不同的主題中,每篇文章自然也會以一定的概率屬于不同的主題(注:傳統(tǒng)聚類方法會認為每個文本只屬于一個主題)。劉世霞強調(diào),HDP模型的優(yōu)勢是可以自動確定文本中的主題數(shù)量,但是它只能計算出一組靜態(tài)文本數(shù)據(jù)的主題,無法進一步找出主題之間的關(guān)系。2010年的時候,他們成功改進了HDP模型,將這個語言模型擴展到能處理動態(tài)的文本數(shù)據(jù)流。簡單地說,就是跟蹤比較T1和T2兩個時刻文本內(nèi)容的變化情況,由此來確定主題之間是否發(fā)生了合并或者分裂。文本分析的最后一步就是利用前面得出的主題演化結(jié)果,計算出其中的關(guān)鍵事件和關(guān)鍵詞,從而更好地展示事件發(fā)展的來龍去脈。
在談到TextFlow模型對于主題合并和分割判斷的準(zhǔn)確率時,劉世霞表示目前還沒有一個固定的樣本集可供測試,但把多個領(lǐng)域的分析結(jié)果拿給相關(guān)領(lǐng)域?qū)<也榭磿r,他們都認為結(jié)果比較準(zhǔn)確,可以達到滿足應(yīng)用的水平。另外,我們還了解到TextFlow模型的主要算法本身與語言是無關(guān)的,中文與英文的區(qū)別主要在于海量文本預(yù)處理階段的分詞技術(shù),這方面已經(jīng)有成熟的技術(shù)可以完成。
William Ribarsky是北卡羅萊納州大學(xué)Charlotte可視化研究中心創(chuàng)始董事,非常關(guān)注微軟亞洲研究院在文本可視分析方面所做的工作,他在美國召開的一次學(xué)術(shù)會議的發(fā)言中提到劉世霞所做的交互式可視文本分析,并稱“這項成果令人刮目相看”。在撲面而來的大數(shù)據(jù)時代,相信未來利用TextFlow模型可以做許多幫助企業(yè)提升生產(chǎn)效率的事情。崔為煒向我們演示的案例中既包括對歷史新聞事件的回放,也包括跟蹤社交媒體的數(shù)據(jù)預(yù)測即將發(fā)生的新聞事件。由此引申開來,所有之前難以度量的文本數(shù)據(jù)或許都能迎來一次重生的機會。在信息時代,誰能把握住信息的脈搏,誰就能更好地把握住時代的脈搏。
文章開頭虛構(gòu)的面試題,大家找到答案了嗎?
聲音
我們應(yīng)該把文本挖掘技術(shù)和可視化這種交互技術(shù)結(jié)合在一起,讓人去做人擅長的事情,機器去做機器擅長的事情。機器擅長做什么呢?機器比較擅長去存儲,做大數(shù)據(jù)量的運算,而人有分析的能力。因此,我們的工作主要就是把人的智能和機器的計算能力結(jié)合在一起。
——劉世霞
微軟亞洲研究院網(wǎng)絡(luò)圖形組主管研究員
1.時代背景
自21世紀(jì)以來,數(shù)據(jù)爆炸已是人類的重大挑戰(zhàn),人們淹沒在數(shù)據(jù)海洋中,卻對信息,知識極其缺乏,人類分析數(shù)據(jù)的能力與獲取數(shù)據(jù)的能力相差甚遠。同時,數(shù)據(jù)的多態(tài)、高維、獲取的動態(tài)性、數(shù)據(jù)關(guān)系的異構(gòu)更增加了數(shù)據(jù)使用的難度。在傳統(tǒng)企業(yè)占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫有越來越多無法進行管理的數(shù)據(jù)。這類數(shù)據(jù)的量巨大,具有多樣性,如各類文本、圖像、視頻、傳感器信息,且數(shù)據(jù)產(chǎn)生和更新的頻率上升到一個新層次??偨Y(jié)下即為海量化(Volume),多樣化(Variety),快速化(Velocity),這三點為大數(shù)據(jù)的主要特征。人們要從海量非結(jié)構(gòu)化數(shù)據(jù)中挖掘有用信息的這種推力,使大數(shù)據(jù)技術(shù)正逐步代替?zhèn)鹘y(tǒng)信息管理技術(shù)。伴隨著推力巨大的互聯(lián)網(wǎng),大數(shù)據(jù)時代的大幕正逐步拉起。而在這發(fā)展過程中,能有效呈現(xiàn)多元化數(shù)據(jù), 便于決策的數(shù)據(jù)可視化便越來越引起關(guān)注。
2.數(shù)據(jù)可視化的作用
在信息科學(xué)與知識管理中,DIKW(Data,Information,Knowledge,Wisdom)體系作為最基礎(chǔ)的模型,在數(shù)據(jù)處理流程中完成從數(shù)據(jù)到智慧的轉(zhuǎn)化。人們急切的需要能展示演繹數(shù)據(jù)的工具,并且能夠傳達數(shù)據(jù)身后真正的知識與智慧的工具。在整個轉(zhuǎn)化過程中,可視化于溝通,傳遞,表達方面表現(xiàn)出明顯的優(yōu)勢。
數(shù)據(jù)可視化運用計算機圖形學(xué),圖像處理等技術(shù),并以其在視覺感知與人腦認知上的優(yōu)勢使美學(xué)因素融合在數(shù)據(jù)分析中。優(yōu)秀的數(shù)據(jù)信息圖甚至可以達到藝術(shù)的層面,令人賞心悅目。其在數(shù)據(jù)處理流程中持續(xù)的優(yōu)勢,使數(shù)據(jù)可視化交互工具市場逐步做大。
數(shù)據(jù)就是石油,傳統(tǒng)的各類領(lǐng)域中不被重視的數(shù)據(jù)重新歸納總結(jié)會釋放出巨大潛力。新聞中的數(shù)據(jù)信息可以歸納為信息圖表,再與其他新聞進行分析整合,人們往往可以從中有收獲。政府機關(guān)的數(shù)據(jù)通過有效整理并進行可視化,可以增加其透明度,民眾可以更容易獲取有效信息。企業(yè)數(shù)據(jù)可視化,可以對整個企業(yè)運營流程有很好的掌控,便于管理與盈利。網(wǎng)絡(luò)數(shù)據(jù)及公共資源的潛在價值也極大,各類社交網(wǎng)站開放的API可以供開發(fā)研究人員挖掘人們生活消費習(xí)慣,甚至可以通過文本分析并進行可視化發(fā)現(xiàn)流行病的爆發(fā)趨勢,購物網(wǎng)站對用戶已購貨物記錄進行地域偏好分析,也可獲得有價值的情報。
3.主要應(yīng)用
3.1 文本可視化
將文本信息提取技術(shù)與可視化相結(jié)合的文本可視化可以輔助用戶將文本中的信息簡潔地呈現(xiàn)出來。原始文本經(jīng)過文本信息挖掘,視圖繪制和人機交互,這便是基本的可視化流程。在諸多網(wǎng)站上,文本可視化的標(biāo)簽云技術(shù)已越來越常見,其為基于關(guān)鍵詞的最簡單的文本可視化技術(shù),用顏色和字體的大小體現(xiàn)關(guān)鍵詞于文本中的分布差異,衍生的Wordle技術(shù)改進了空間布局,提升了美學(xué)效果。在進行信息檢索時,也可以使用TileBar,Sparkler等可視化方法來提升檢索效果。除此之外,文本信息中還包含了大量的人類主觀信息,可以在RSS新聞內(nèi)容,社交平臺中挖掘用戶情感傾向信息,幫助調(diào)查者從宏觀角度進行分析并為決策提供依據(jù)。
3.2 多媒體數(shù)據(jù)可視化
大數(shù)據(jù)時代,人們早已對半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)充滿了好奇。圖像,視頻,音頻中的數(shù)據(jù)價值推動了多媒體數(shù)據(jù)的可視化。比如社交照片中群體成員之間的關(guān)聯(lián)多使用了海賽圖方法;視頻的可視化則經(jīng)常使用將圖像堆疊成立方的方法,為抽取視頻中的運動信息提供方便;音樂的可視化如今也多是媒體播放工具的一個功能。
3.3 商業(yè)智能的數(shù)據(jù)可視化
如今的大量在線商業(yè)數(shù)據(jù)具有強烈的跨媒體特征與豐富的時空地理屬性,用戶的消費日志包含了大量個人信息,這些都催生了該領(lǐng)域的可視化發(fā)展。當(dāng)前商業(yè)智能的數(shù)據(jù)分析大多借助于OLAP的多維分析模式實現(xiàn),采用可視化技術(shù)進行數(shù)據(jù)探索。從最早的柱狀圖、餅圖、網(wǎng)狀圖等簡單圖表,發(fā)展到呈現(xiàn)公司狀態(tài)與商業(yè)環(huán)境的儀表盤、子彈圖,新成長的技術(shù)能有效地傳達數(shù)據(jù)背后的知識和思想。同時隨著Tableau,Spotfire等軟件的推廣,可視化極大推動商業(yè)智能的大眾化,降低了普通人進行數(shù)據(jù)分析的門檻。
3.4 Web端可視化
Web端的可視化是通過HTML,CSS,Javas-cript技術(shù),在網(wǎng)頁上實現(xiàn)可交互的可視化作品及時全面顯示信息。Web端的可視化可以提升用戶效率,使選擇操作更加方便,感官更加舒服。D3.js就是一套面向Web的數(shù)據(jù)可視化的Javascript庫,具有極大的設(shè)計靈活性和可移植性。國內(nèi)開發(fā)的DataV.js同樣出色,可以便捷的調(diào)用且兼容各類瀏覽器。
4.數(shù)據(jù)可視化的注意點
可視化雖然是非常好的了解數(shù)據(jù)的方式,不過也很容易以錯誤的方式執(zhí)行從而背離了其價值所在。為充分展示信息而不顧圖表的整體協(xié)調(diào),想要包含更多的信息效果卻適得其反,這樣做很容易使圖表缺乏美感。有限的儀表盤空間要包含的是重要的且值得優(yōu)先考慮的數(shù)據(jù),且當(dāng)圖表顯示過多的信息時,過于緊密的布局很容易顯示出錯誤的信息。而另一種錯誤則是為了追求畫面的美觀,卻使數(shù)據(jù)內(nèi)容的表達不佳。所以在可視化的過程中,目標(biāo)的確立是最為基本的,專注于自己的目標(biāo)有助于更好地傳遞表達數(shù)據(jù),同時與圖表的美觀之間也能達到一種平衡。
真實的數(shù)據(jù)往往需要占用大量時間進行規(guī)范化,特征選擇,維歸約等預(yù)處理操作,數(shù)據(jù)集的清洗與規(guī)范化或許是實踐中占最多時間的部分,此點不容忽視。同時,數(shù)據(jù)可視化是一種輔助分析的工具,非分析工具,正常的處理流程還要借助傳統(tǒng)的統(tǒng)計手段及其他專業(yè)的知識??偠灾?,數(shù)據(jù)可視化作為一種對數(shù)據(jù)信息進行專業(yè)化處理的優(yōu)秀工具,其理論與技術(shù)將在未來獲得逐步提升,最終一定會對商業(yè)社會及科研領(lǐng)域的發(fā)展作出重大貢獻。
參考文獻
然而,NPS模型也面臨著一個挑戰(zhàn)。通過反饋把客戶分成3組,然后通過計算方法{凈推薦值(NPS)=(推薦者數(shù)/總樣本數(shù))×100%—(貶損者數(shù)/總樣本數(shù))×100%}得到一個單一的平均分,這一方法盡管簡便,但同時也使企業(yè)也許失去了對客戶更全貌信息的寶貴見解。在當(dāng)今日益以客戶為中心的市場環(huán)境中,要求客戶反饋,言下之意是你打算用收集到的信息采取后續(xù)行動。如果你不打算利用這個信息來傾聽或沒有能力積極跟進,要求客戶反饋可能會導(dǎo)致弊大于利。尤其是對于你企業(yè)客戶中的“貶損者”。甚至是NPS模型的支持者都同意,如果只是簡單地問一個問題,而沒有任何額外的細節(jié)或跟進是不夠的。如客戶把你的企業(yè)評價為零分,并且不告訴你為什么,那么你也就無法跟進及采取行動。而監(jiān)控一個你并不知道如何提高的指標(biāo),往往非常令人沮喪。
盡管添加太多后續(xù)問題會影響簡單的一題式調(diào)查的吸引力及顯著降低客戶的響應(yīng)率。但是,很多企業(yè)依然在它們的NPS調(diào)查中添加了一些問題,以試圖找出和確定高分數(shù)及低分數(shù)背后的驅(qū)動因素。另外,專注郵件、短信、微信及APP等多渠道個性化會員營銷服務(wù)的webpower中國區(qū)也在服務(wù)企業(yè)的客戶實踐中看到,一些企業(yè)也嘗試通過電話、短信或電子郵件等渠道跟進調(diào)查對象。這使得企業(yè)能夠收集更多豐富的洞察力信息,以為了解驅(qū)使客戶作出響應(yīng)的動機提供見解。除此之外,還有一些企業(yè)也試圖通過建立一個服務(wù)補救與客戶挽留流程以接觸到“貶損者“,并且在某些情況下,設(shè)法使企業(yè)過去的“貶損者”轉(zhuǎn)變?yōu)樾碌摹巴扑]者”。而通過邀請“推薦者”加入顧問理事會或客戶座談小組,以爭取進一步了解客戶見解,并鼓勵其成為品牌擁護者,也成為企業(yè)的策略之一。
不管企業(yè)在跟蹤、衡量及量化客戶忠誠度的過程中采用了哪些指標(biāo)、策略和方法,在目前的內(nèi)外部環(huán)境下,以下重點非常值得關(guān)注:
強化可操作性細節(jié) 全方位理解客戶體驗
保持客戶調(diào)查的簡短和簡單是至關(guān)重要的,因為客戶幾乎被其使用的每一個供應(yīng)商的多個請求“轟炸”。這使得企業(yè)必須創(chuàng)建一個關(guān)于重購愿意、購買更多等客戶忠誠度的簡短調(diào)查。但是,它是否使你全面理解整個客戶生命周期旅程了呢?哪些是企業(yè)希望去影響客戶體驗的關(guān)鍵因素?
webpower中國區(qū)認為,通過加入哪怕一個開放式的問題,如“我們怎樣才能提高?”企業(yè)就可以顯著地增強搜集到的信息的可操作性細節(jié)。對于大型企業(yè)來說,最重要的是還要使該方法具有可擴展性,并且需要一個可挖掘非結(jié)構(gòu)化意見的解決方案。如挖掘文本評論的文本分析,挖掘錄制語音批注的語音分析。同時,如今的消費者有太多可以發(fā)表自己意見的場所,除網(wǎng)站、博客等傳統(tǒng)渠道外,社交媒體也在成為流行的客戶意見平臺。所以,這要求不管企業(yè)愿不愿,它都必須監(jiān)控社交傳媒上正在發(fā)生的事情,而有一些企業(yè)也將用戶主動張貼在社交傳媒網(wǎng)站上的評論納入VoC的范疇。而VoC現(xiàn)在也變種成任何形式的用戶反饋,包括未經(jīng)請求的用戶輸入。
超越NPS調(diào)查反饋 挖掘所有客戶接觸點
一 非結(jié)構(gòu)化數(shù)據(jù)處理流程
非結(jié)構(gòu)化處理流程主要以網(wǎng)頁處理為例來闡述,包括三個階段,分別是信息采集、網(wǎng)頁預(yù)處理和網(wǎng)頁分類。
信息采集是將非結(jié)構(gòu)化的信息從大量的網(wǎng)頁中抽取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中的過程;網(wǎng)頁預(yù)處理主要是進行一些數(shù)據(jù)清洗的工作,保證分類質(zhì)量;網(wǎng)頁分類工作則是通過數(shù)據(jù)挖掘算法訓(xùn)練出來的分類模型,對分類數(shù)據(jù)進行分類提煉,得出有價值的信息。
信息采集
信息采集面對的是特定的專業(yè)人群,其采集的信息只限定于特定的主題和相關(guān)的領(lǐng)域,出于對性能和成本的考慮其不必也不可能對整個互聯(lián)網(wǎng)進行遍歷,因此主題信息采集中通常需要研究以何種方式預(yù)測鏈接指向的頁面與主題的相關(guān)性,并判斷其是否值得訪問;需要研究以何種爬行策略訪問Web,以在盡可能多地采集到主題相關(guān)頁面的同時盡可能少地采集到主題無關(guān)的頁面。
信息采集的基本方法是通過預(yù)先設(shè)定的種子鏈接集,利用HTrP協(xié)議訪問并下載頁面,在用各種分析算法分析頁面與主題的相關(guān)性之后提取出待訪問的鏈接,預(yù)測鏈接指向主題相關(guān)頁面的可能性,再以各種不同的爬行策略循環(huán)迭代地訪問網(wǎng)頁。
信息采集根據(jù)基于主題的不同可分為以下兩類:一類是基于內(nèi)容的主題信息采集:它需要建立一個針對主題的詞表。另一類是基于超鏈接的主題信息采集:它是基于網(wǎng)頁之間的引用關(guān)系,類似Page rank算法。
網(wǎng)頁預(yù)處理
網(wǎng)頁預(yù)處理部分本文主要介紹一下網(wǎng)頁去重,網(wǎng)頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內(nèi)容的對比去重,它適用基于信息指紋的文本相似度算法。
網(wǎng)頁去重需要先對文檔對象的特征抽取,需要將文檔內(nèi)容分解,由若干組成文檔的特征集合表示,該步驟主要是為了方便特征比較計算相似度。之后需要針對特征的壓縮編碼,主要通過哈希編碼等文本向數(shù)字串映射方式以方便后續(xù)的特征存儲以及特征比較,起到減少存儲空間,加快比較速度的作用。最后需要進行文檔的相似度計算,這一步需要根據(jù)文檔特征重合比例來確定是否重復(fù)文檔。一般是對網(wǎng)頁提取一個信息特征,通常是一組詞,或者是詞加權(quán)重,調(diào)用特定的算法,轉(zhuǎn)化為一組代碼,也被稱為指紋。若兩個頁面有相當(dāng)數(shù)量的相同指紋,那么可以認為這兩個頁面內(nèi)容重復(fù)性很高。
網(wǎng)頁分類
分類問題是人類所面臨的一個非常重要且具有普遍意義的問題。將事物正確地分類,有助于人們認識世界,使雜亂無章的現(xiàn)實世界變得有條理。自動文本分類就是對大量的自然語言文本按照一定的主題類別進行自動分類,它是自然語言處理的一個十分重要的問題。文本分類主要應(yīng)用于信息檢索,機器翻譯,自動文摘,信息過濾,郵件分類等任務(wù)。文本分類的一個關(guān)鍵問題是特征詞的選擇問題及其權(quán)重分配。
在搜索引擎中,文本分類主要有以下用途:相關(guān)性排序會根據(jù)不同的網(wǎng)頁類型做相應(yīng)的排序規(guī)則;根據(jù)網(wǎng)頁是索引頁面還是信息頁面,下載調(diào)度時會做不同的調(diào)度策略;在做頁面信息抽取的時候,會根據(jù)頁面分類的結(jié)果做不同的抽取策略;在做檢索意圖識別的時候,會根據(jù)用戶所點擊的URL所屬的類別來推斷檢索串的類別等等。
網(wǎng)頁分類方法有SVM分類方法和樸素貝葉斯方法:其中比較推薦的是SVM分類方法,Vapnik等人在多年研究統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上對線性分類器提出了另一種設(shè)計最佳準(zhǔn)則。其原理也從線性可分說起,然后擴展到線性不可分的情況。甚至擴展到使用非線性函數(shù)中去,這種分類器被稱為支持向量機(SupportVector Machine,簡稱SVM)。支持向量機的提出有很深的理論背景。支持向量機方法是在近年來提出的一種新方法。
典型的SVM分類有兩種,一種是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;另一種是基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。
典型的樸素貝葉斯分類,它可以分為模型訓(xùn)練、模型分類和分類結(jié)果評估三個階段:模型訓(xùn)練階段,主要計算訓(xùn)練集下所有類別的先驗概率,以及所有特征詞在每一個類別下的條件概率;模型分類階段,對訓(xùn)練集建立模型;對每個待分類文檔計算后驗概率,后驗概率大的類別為文檔所屬類;分類結(jié)果評估階段:對分類結(jié)果進行抽樣、人工檢驗。分別計算出每個類別分類的查準(zhǔn)率和查全率,通過F―度量公式評估模型準(zhǔn)確度。
二 自然語言處理的典型方法與應(yīng)用
自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的理論和方法。自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。
自然語言處理部分主要以輿情分析為例,輿情分析系統(tǒng)的數(shù)據(jù)來源有三個渠道,一是網(wǎng)絡(luò)上公開的信息,如各大交易所每日評論,社交網(wǎng)絡(luò)各方觀點和財經(jīng)門戶網(wǎng)站。二是從合作方獲取的信息,如交易信息等。三是微博、人人網(wǎng)等社交網(wǎng)絡(luò)信息。
網(wǎng)頁信息摘要
網(wǎng)頁信息摘要需要將同一主題下的多個文本描述的主要信息,按壓縮比提煉出一個文本的自然語言處理技術(shù)。對于互聯(lián)網(wǎng)上海量的期貨分析報道,如果能從中提煉出一個覆蓋性強、形式簡潔的摘要將具有重要的意義。
如何收集企業(yè)的戰(zhàn)略信息?面對海量信息,一個研究員需要花費4個小時閱讀相關(guān)信息。借助語義引擎,把50篇文獻縮略成10余條概要,面對概要信息,一個研究員需要花費3分鐘閱讀相關(guān)信息,并形成思考。借助文字情緒引擎,把概要內(nèi)容指數(shù)化、知識化,面對指數(shù)信息,一個研究員需要花費2秒鐘閱讀相關(guān)信息,并獲得決策支持所需的知識。
熱點事件預(yù)測
熱點事件的發(fā)現(xiàn)與預(yù)測的算法有很多,最行之有效的方法是做大規(guī)模的邏輯回歸。在大數(shù)據(jù)的背景下,我們拿到的數(shù)據(jù)是全量并非抽樣,這使得類似邏輯回歸等簡單算法起到事半功倍的效果。通過歷史事件傳播數(shù)據(jù),提取向量,并做邏輯回歸出規(guī)則,就可以做很多預(yù)測。例如美國大選,疾病傳播,甚至預(yù)測死亡。
維克托?邁爾-舍恩伯格寫的《大數(shù)據(jù)時代》一書中就有這么幾個關(guān)于熱點事件預(yù)測的案例:
案例一:華爾街“德溫特資本市場”公司首席執(zhí)行官保羅霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以“1”到“50”進行打分。根據(jù)打分結(jié)果,霍廷再決定如何處理手中數(shù)以百萬美元計的股票。他的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。這一招收效顯著――當(dāng)年第一季度,霍延的公司獲得了7%的收益率。
案例二:美國一個超市將女性顧客中的孕婦視作購物的黃金消費者。為了將這部分目標(biāo)人群在懷孕前就爭取過來,該超市通過調(diào)查羅列出幾十種購物偏好,當(dāng)某位顧客的收銀條上集中呈現(xiàn)這類商品時,就會被認定為可能是孕婦或家中有孕婦,超市隨后向其發(fā)送孕婦產(chǎn)品廣告。一次,當(dāng)有人以“家中并無孕婦卻總是收到相關(guān)產(chǎn)品廣告”為由控告這家超市后,卻發(fā)現(xiàn)原來是自己還在上高中的女兒懷孕了。
案例三:2009年甲型H1N1流感病毒出現(xiàn),在沒有疫苗的情況下,公共衛(wèi)生專家能做的只是減慢傳播速度,要做到這一點,專家必須先知道流感出現(xiàn)在哪里,這只能依靠各地醫(yī)生發(fā)現(xiàn)并告知疾控中心,信息肯定是滯后的。可是,Google的工程師們比疾控專家更早地判斷出流感從哪里傳播出來,他們依靠的就是Google所掌握的大數(shù)據(jù)。
歷史相似事件可使用文檔相似度比較。文檔相似度比較算法首先采用TF-IDF方法把文檔建模為詞頻向量,然后使用向量距離計算算法求得。常用的距離計算方法如:Jaccard距離、歐式距離、余弦相似度等。
情感分析
正負情感度量化統(tǒng)計分析一般用于分析金融機構(gòu)和大眾對期貨產(chǎn)品的態(tài)度、情感和觀點傾向,對行情走勢往往具有十分重要的意義。通過對收集來的信息進行情感度分析后,可以統(tǒng)計出社會輿論對期貨未來走勢的觀點傾向度。通過計算歷史輿論觀點與走勢的相關(guān)度可以驗證情感度分析模型的有效性。
情感詞監(jiān)測模塊是通過對金融期貨網(wǎng)站定時采集更新,對輿論話題進行連續(xù)監(jiān)控,提取熱點關(guān)鍵詞,實現(xiàn)熱點信息的實時發(fā)現(xiàn)。通過搜索引擎抓取情感關(guān)鍵詞熱度,計算關(guān)鍵詞與趨勢相關(guān)性。
主題詞表的優(yōu)劣在相當(dāng)程度上影響了系統(tǒng)后續(xù)的信息采集內(nèi)容和效果。首先,由領(lǐng)域?qū)<医o出相關(guān)領(lǐng)域的權(quán)威網(wǎng)站作為基礎(chǔ)語料來源,通過對權(quán)威網(wǎng)站網(wǎng)頁內(nèi)容的整站抓取獲得領(lǐng)域語料資源。之后對語料資源進行中文切分詞和詞頻統(tǒng)計,獲得一張高頻詞表。再由領(lǐng)域?qū)<覍Ω哳l詞表中的高頻詞匯進行整理,人工選取出與領(lǐng)域相關(guān)的詞語。然后,對從高頻詞表中選取出的領(lǐng)域主題詞進行上位詞(花是鮮花的上位詞,植物是花的上位詞)、下位詞、同義詞、近義詞擴展,去除重復(fù)詞匯,從而最終形成相關(guān)領(lǐng)域的主題詞表。在信息采集系統(tǒng)后續(xù)的采集中還將不斷收集相關(guān)領(lǐng)域的新詞匯,在發(fā)現(xiàn)領(lǐng)域新詞后加入到領(lǐng)域主題詞表中,形成系統(tǒng)性的反饋機制,從而不斷對主題詞表進行更新維護。
正負情感度量化統(tǒng)計分析是從抓取的文章中進行情感度分析打分,分數(shù)范圍為不等。負數(shù)越大表示負面觀點強度越強,正數(shù)越大表示正面觀點強度越強,0表示持有中立態(tài)度;通過情感度分析可以統(tǒng)計出一段時間內(nèi)社會輿論對于某個話題的正負面態(tài)度,輿論壓力往往可以導(dǎo)致市場波動。
情感詞檢測通過對金融期貨網(wǎng)站定時采集更新,對輿論話題進行連續(xù)監(jiān)控,提取熱點關(guān)鍵詞,出現(xiàn)頻率較高的詞語作為熱點信息詞,實現(xiàn)金融熱點的實時發(fā)現(xiàn)。
趨勢分析和預(yù)測
根據(jù)交易的價格曲線走勢,與綜合指數(shù)對比,使輿論指數(shù)趨勢體現(xiàn)與交易價格曲線的相關(guān)性和一定的前瞻性。通過構(gòu)建時間序列模型,對未來走勢進行預(yù)測,如圖1所示。綜合指數(shù)包括各個相關(guān)因素的變化趨勢(天氣因素等)以及輿論指數(shù)。
三 行業(yè)應(yīng)用案例
數(shù)據(jù)挖掘和自然語言處理的應(yīng)用范圍廣泛,其中也不乏一些有意思的案例,它可能應(yīng)用于運營商、銀行、傳統(tǒng)企業(yè)和券商,挑選幾個具有代表性的案例與大家分享。
電信行業(yè)
某城市電信運營商的上網(wǎng)日志分析系統(tǒng),該系統(tǒng)通過收集用戶上網(wǎng)日志歷史記錄數(shù)據(jù),分析出每個用戶的偏好。首先該系統(tǒng)通過并行統(tǒng)計清洗出每個人有效歷史上網(wǎng)日志URL;然后從日志URL中抓取網(wǎng)頁內(nèi)容,提取正文,并通過文本分類算法計算分類;最后通過統(tǒng)計出每個用戶上網(wǎng)關(guān)注類別總數(shù),分析出每個用戶的偏好。
金融行業(yè)
某大型股份制商業(yè)銀行供應(yīng)商風(fēng)險評估系統(tǒng),該系統(tǒng)通過抓取供應(yīng)商內(nèi)部數(shù)據(jù),如企業(yè)年報、公司變動、領(lǐng)導(dǎo)情況、財務(wù)狀況等數(shù)據(jù),分析公司運營指數(shù);通過計算各供應(yīng)商社交數(shù)據(jù),對其社會影響力做評估;通過同行之間的數(shù)據(jù)分析對比,對供應(yīng)商進行實力評估。這些數(shù)據(jù)指數(shù)可以有效協(xié)助商業(yè)銀行進行供應(yīng)商風(fēng)險評估。
地產(chǎn)行業(yè)
某房地產(chǎn)企業(yè)的社會化品牌實時營銷系統(tǒng),該系統(tǒng)通過社交媒體(微信、微博等)數(shù)據(jù),進行網(wǎng)絡(luò)口碑監(jiān)測,負面情緒被及時發(fā)現(xiàn)并制止;通過與客戶進行互動,爭取客戶忠誠度;通過監(jiān)控同行及競爭對手的各方面資訊,量化評估競爭態(tài)勢;快速提升品牌知曉度和美譽度,將媒體影響力轉(zhuǎn)換為客戶量,縮短人氣聚集周期。
一手打造網(wǎng)絡(luò)體育社區(qū),一手出品足球電視節(jié)目的“歡呼吧”創(chuàng)始人兼CEO陳昊認為,用“足球魔方”的文本分析和數(shù)據(jù)挖掘技術(shù),足以將各種體育現(xiàn)象背后的實質(zhì)提煉出來。
給你好看的體育
陳昊把與查立的認識歸結(jié)為一種“緣分”。在一場起點創(chuàng)業(yè)營舉辦的派對中,不同于那些不斷向查立演說項目方案的創(chuàng)業(yè)者,陳昊更多的只是靜靜站在一邊旁聽,甚至忍不住開口幫助查立回答一些創(chuàng)業(yè)的基礎(chǔ)問題。雖然與查立之間的交流很少,但僅僅這樣的一次會面,卻讓查立記住了他,也邀請他入駐了起點創(chuàng)業(yè)營。
當(dāng)時,陳昊正在進行一個互聯(lián)網(wǎng)媒體項目,欲從傳統(tǒng)電視媒體對于足球賽事轉(zhuǎn)播的主流中另辟蹊徑,擺脫頻道資源和轉(zhuǎn)播費用的束縛,建成一個體育新聞和數(shù)據(jù)的社交分享源和體育垂直社區(qū)(這就是后來的“歡呼吧”),以及包含全球大量比賽新聞和數(shù)據(jù)的賽前分析預(yù)測節(jié)目“足球魔方”。
在他看來,國內(nèi)體育傳媒嚴重滯后于發(fā)達國家的水平?!皣鴥?nèi)體育賽事的轉(zhuǎn)播模式十分單一,而且深度、專業(yè)的體育內(nèi)容不多?!币舱驗榇嬖谥T多問題,才讓陳昊嗅到了商機。做國內(nèi)跨媒體體育社交服務(wù)商的想法也剛好迎合了查立對于互聯(lián)網(wǎng)的判斷。
有激情、有夢想、執(zhí)行力強、善于思考……是陳昊給記者最直觀的印象,剛好吻合了起點創(chuàng)業(yè)營喜愛的創(chuàng)業(yè)者的特征。而更為重要的,是一份破釜沉舟的決心:“為了創(chuàng)業(yè),我鼓勵我們團隊全部都搬到園區(qū)附近租住,以便全心全意地實施我們的創(chuàng)業(yè)大計”。
讓創(chuàng)業(yè)不再孤獨
雖然陳昊在此之前已經(jīng)從事體育產(chǎn)業(yè)十幾年,并追隨“溫格教授”的足跡,專赴足球經(jīng)濟最發(fā)達的英國拿下了足球營銷的MBA學(xué)位,然而要落實到具體的操作層面,遇見具體的事情時,依然會有很多困惑。
畢竟,入駐起點創(chuàng)業(yè)營,要獲取的不僅是較為低廉的租金和辦公成本,更重要的是內(nèi)在的“軟件”優(yōu)勢。
“這里有一個較好的培訓(xùn)機制,每周的創(chuàng)業(yè)公開課,會根據(jù)創(chuàng)業(yè)者自身需要面對的問題進行詳細的講解?!弊鳛閯?chuàng)業(yè)公開課的忠實聽眾,陳昊之前所學(xué)的理論知識通過梳理和實戰(zhàn)漸漸“落地”。在入駐“起點創(chuàng)業(yè)營”短短幾個月的時間里,“歡呼吧”網(wǎng)站以及“足球魔方”電視節(jié)目已經(jīng)開始運作。
不僅如此,創(chuàng)業(yè)者的聚集,帶給陳昊更多的交流。“通過別人的成功和失敗來反觀自己,而且創(chuàng)業(yè)過程中遇到的諸多問題還可以進行深入的討論,這樣的分享非常有用?!倍鼮橹匾?,陳昊認為這消除了創(chuàng)業(yè)者的孤獨感。
考慮到這一點,IBM 與 Twitter建立合作,旨在管理與利用當(dāng)今社交互動平臺所傳輸信息中蘊含的能量。研究團隊訪問了數(shù)十名高管與行業(yè)專家,并對兩家公司的數(shù)百個客戶互動案例進行了分析,以更好地了解各個企業(yè)如何利用社交數(shù)據(jù)參與當(dāng)今數(shù)字市場的競爭。
不止于營銷部門
社交互動平臺在過去10年里的使用越來越普遍,許多企業(yè)已開始將其作為市場營銷與品牌推廣的工具,并逐漸開發(fā)出包括“傾聽”客戶在內(nèi)的被動式實踐方法。與客戶間的大部分直接互動,一直局限于品牌管理、客戶服務(wù)、社交推廣、公共關(guān)系和危機干預(yù)等五大職能領(lǐng)域。例如,針對領(lǐng)先品牌的用戶名或“標(biāo)簽”的推文,在過去兩年里增加了 2.5 倍。
但是,從這些社交互動平臺獲取的強大數(shù)據(jù)可能會影響更多的業(yè)務(wù)流程。Twitter、Foursquare、博客、論壇、瀏覽網(wǎng)站及內(nèi)部協(xié)作工具等平臺,正在以前所未有的方式提供有關(guān)客戶、員工、競爭對手和市場的深刻洞察力。
目前,全球約40%的企業(yè)會收集實時事件與數(shù)據(jù)。這些企業(yè)中有些會將來自社交平臺的數(shù)據(jù)與內(nèi)部和外部數(shù)據(jù)相結(jié)合,以改進業(yè)務(wù)流程并推動創(chuàng)新,從而打造由此類平臺的互動所支持的沉浸式體驗。在該過程中,它們逐步獲得競爭優(yōu)勢并建立全新的業(yè)務(wù)模式。
互動性社交平臺的價值,源于其具有能在公共平臺上實時揭示買家、賣家和競爭對手等因素的獨特能力。借助此類平臺,企業(yè)便可了解圍繞價值鏈的各項因素,從而得到以前無法獲取的深入洞察力。從互動式社交平臺產(chǎn)生的信號中“獲取或?qū)W習(xí)”是真實可靠的,其影響力非常強大,甚至能創(chuàng)建快速捕捉全球10多億人和企業(yè)的日常生活、關(guān)注問題、愿望和需求的能力。
精通社交的企業(yè)正將從社交平臺中獲取的公開數(shù)據(jù)融入到業(yè)務(wù)流程之中,并將此類數(shù)據(jù)與已有的內(nèi)部數(shù)據(jù)或其他公開數(shù)據(jù)源相結(jié)合。在此過程中,它們能夠持續(xù)辨別并發(fā)現(xiàn)有助于在整個業(yè)務(wù)流程中做出決策的洞察力。此外,這種綜合數(shù)據(jù)還能夠為決策者提供更好的情境、深度和執(zhí)行信心。
我們已經(jīng)識別了企業(yè)可通過融入社交數(shù)據(jù)改變業(yè)務(wù)流程的五大職能領(lǐng)域:
銷售與營銷
除了社交傾聽和推送式營銷,現(xiàn)在一些領(lǐng)先企業(yè)還將社交平臺用作“預(yù)警系統(tǒng)”,幫助它們了解如何、何時以及為何與客戶互動。
USAA 是一家主要服務(wù)于軍屬的全球性金融服務(wù)機構(gòu)。它不僅將 Twitter 用作與其分布廣泛的會員進行互動的主要平臺,還將其作為不良運營事件和消費者事件的主要指示器。社交商務(wù)副總裁 Renee Horne發(fā)現(xiàn),在社交中圍繞某一具體話題產(chǎn)生的討論峰值,通常預(yù)示著將發(fā)生可能具有更大下游影響的事件,因此她使用這類信息作為支持運營的預(yù)警機制。她的團隊還分析了圍繞負面消費者事件(如零售商數(shù)據(jù)泄露)發(fā)生的社交聊天內(nèi)容。
研究與開發(fā)
消費者驅(qū)動型企業(yè)也利用該功能更深入地了解潛在客戶和最終客戶的愿望與需求,以便在產(chǎn)品使用周期內(nèi)做出戰(zhàn)略決策。
傳奇娛樂 (Legendary Entertainment)電影公司就借助社交活動平臺鎖定具有影響力的消費者?!霸跒榻巧x演員時,你必須觀看他們之前的作品,與他們的經(jīng)紀(jì)人談話并和曾與他們一起工作的人交流,從而對他們形成一定印象?!眰髌鎶蕵肥紫治龉?Matthew Marolda說道,“你為什么不通過社交媒體去了解公眾對他們的看法呢?我們會運用先進的文本分析技術(shù)全面分析他們對話中的音調(diào)與音色,然后考慮他們是否適合我們要拍攝的電影題材。”
供應(yīng)鏈
企業(yè)正在運用社交數(shù)據(jù)更好地了解并滿足消費者在某些情況下的非直觀需求。一家全球零售商綜合使用包括天氣、競爭對手的促銷政策、Twitter 信息、經(jīng)濟統(tǒng)計數(shù)據(jù)和新聞資料在內(nèi)的內(nèi)部與實時公開數(shù)據(jù),識別強烈但目前屬于非直觀的需求信號。該公司開發(fā)了一套基于算法的形勢引擎,用于針對無法對其進行準(zhǔn)確趨勢和季節(jié)性預(yù)測的特定產(chǎn)品提供非直觀預(yù)測。結(jié)果是,根據(jù)這些實時預(yù)測,該公司從根本上重新調(diào)整了商品輸送的大規(guī)模供應(yīng)鏈。
規(guī)劃部
深入反映用戶日常生活情況的社交平臺對話,可幫助企業(yè)和研究人員更準(zhǔn)確地了解并預(yù)測世界各地的趨勢和事件,使其更具戰(zhàn)略眼光。農(nóng)業(yè)是利用社交數(shù)據(jù)制訂戰(zhàn)略規(guī)劃的領(lǐng)域之一,利用大數(shù)據(jù)和分析,該行業(yè)正在迅速發(fā)生著變化。
孟山都公司是一家跨國農(nóng)業(yè)公司,正在尋找可以更好地預(yù)測未來消費需求的新方式。由于新產(chǎn)品的育種周期長達15年之久,因此該公司的全球創(chuàng)新與戰(zhàn)略團隊需要預(yù)測哪種食品的發(fā)展趨勢能夠維持10年。孟山都早在 10 年前便開始了消費趨勢的研究,但那時都是采用掃描的零售與食品服務(wù)數(shù)據(jù)。
該公司發(fā)現(xiàn),在零售級數(shù)據(jù)到達峰值的前幾個月,零售食品趨勢就開始在 Twitter 等社交媒體平臺上顯示出來。孟山都非常注重了解對食品話題最熱衷且影響力最大的消費者,并與他們進行互動。
行政管理
交互式社交平臺對涵蓋從人力資源到法律合規(guī)的內(nèi)部運營流程具有巨大影響。例如,一流企業(yè)使用了內(nèi)部互動社交平臺,來了解并處理與員工流失、員工保留、雇主品牌推廣和勞資關(guān)系相關(guān)的問題。它們還采用開放政策所無法替代的方式,以聽取客戶和員工等人群的意見。
一家美國食品與飲料供應(yīng)商曾對同店銷售額的異常波動感到困惑,因為沒有哪項常規(guī)指標(biāo)能夠給出合理解釋。但是客戶在Twitter上的推文給出了解釋:一旦某商店最受客戶喜愛的員工離職,客戶總會想換一家商店買早點?;谶@樣的認識,現(xiàn)在該公司更加注重員工保留項目,除了提供標(biāo)準(zhǔn)的培訓(xùn)外,該公司還推出了助學(xué)金和職業(yè)認同等項目。
超越社交傾聽
將重點從傾聽轉(zhuǎn)移到社交商務(wù)的第一步,是找到社交平臺中尚未被開發(fā)的價值,也就是從產(chǎn)品開發(fā)到政策合規(guī),以及二者之間其他職能領(lǐng)域在內(nèi)的整個企業(yè)內(nèi)可以實現(xiàn)的價值。
作為上海報業(yè)集團改革后問世的第一個新媒體成果,澎湃新聞自2014年推出以來,其網(wǎng)站、微博、微信公眾平臺及新聞客戶端等多款新媒體產(chǎn)品共同推進,作為傳統(tǒng)媒體數(shù)字化轉(zhuǎn)型的樣本,澎湃新聞的多媒體融合及數(shù)字化發(fā)展模式具有一定的研究意義。
今日頭條則是完全脫胎于互聯(lián)網(wǎng)環(huán)境、基于數(shù)據(jù)挖掘技術(shù)的新媒體產(chǎn)品,以移動客戶端為主打產(chǎn)品。自2012年8月上線至2015年12月以來,今日頭條已吸納用戶超過3.5億,且在2014年6月獲得1億美元的C輪融資,并仍保持每天超過3500萬的用戶增長速度。這一基于數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)算法來完成的新媒體項目,對媒介融合和新媒體的創(chuàng)新發(fā)展也具有可研究價值。
一、平臺:多渠道并進與專注APP的差異
(一)多渠道并進的澎湃新聞格局
媒介渠道是新聞信息流動的通路,合理有效的媒介布局是信息有效傳播的基礎(chǔ)。①向社交媒體平臺延伸已成為傳統(tǒng)媒體應(yīng)對移動互聯(lián)網(wǎng)時代的挑戰(zhàn)、尋求生存渠道必不可少的轉(zhuǎn)型方式之一。具備多元化傳播渠道的澎湃新聞,不僅注重多平臺內(nèi)容傳播,也重視不同平臺間的關(guān)聯(lián)性?;诰W(wǎng)絡(luò)端與移動端的使用差異,其界面設(shè)計和部分細節(jié)功能上也有所差異,而且相較于網(wǎng)站或WAP網(wǎng)頁版的運作,澎湃新聞更重視對移動客戶端的推廣,例如其網(wǎng)站首頁右側(cè)頂端吸引用戶的位置展示對移動端的推廣信息,首頁右側(cè)則放置了微信二維碼提醒用戶掃碼下載客戶端。這種推廣趨勢意在表明,移動客戶端在未來將會成為澎湃新聞的主要推廣平臺,也是其未來應(yīng)對移動互聯(lián)網(wǎng)發(fā)展進行多媒體轉(zhuǎn)型的主要渠道。但重視推廣移動客戶端的同時,與同類新聞客戶端相似,澎湃新聞也在客戶端的文章結(jié)尾處提供了微博、微信等社交媒體的分享按鈕,以期以此形成信息的多平臺、多層次傳播。
盡管如此,澎湃新聞以移動客戶端為主要新媒介傳播平臺的渠道戰(zhàn)略趨勢仍較為明確,例如在其新浪微博和騰訊微博的每條博文中,都附有下載移動客戶端的超鏈接,其官方微信賬號的菜單欄設(shè)置有“下載APP”的按鈕,且每篇推送文章結(jié)尾處也都提示讀者通過“閱讀原文”下載移動客戶端。值得注意的是,除了澎湃新聞的官方微信之外,其運營團隊還推出了包括“市政廳”等與其新聞客戶端的子欄目同名的微信公眾號,并分屬給各自的內(nèi)容團隊運營,從而形成多平臺緊密聯(lián)系又各有專攻的渠道運作結(jié)構(gòu)。
(二)以客戶端為主的今日頭條數(shù)據(jù)挖掘者
今日頭條平臺最大的特點在于它以自己的客戶端為連接點,鏈接各大新聞門戶網(wǎng)站的熱門新聞,使其以新聞聚合工具的身份出現(xiàn)在媒介市場和公眾視野。根據(jù)其對自身“基于數(shù)據(jù)挖掘的推薦引擎產(chǎn)品”而非新聞客戶端的定位,今日頭條得以運營、推廣和盈利的基礎(chǔ)是技術(shù)。如何實現(xiàn)網(wǎng)絡(luò)媒體資源的再利用和再傳播是今日頭條的關(guān)注焦點。作為新聞聚合類應(yīng)用,今日頭條的算法模式與美國Prismatic公司有相似之處,即“收集網(wǎng)上資源并排序,這種排序建立在文本分析、用戶喜好、社交網(wǎng)絡(luò)普及和大數(shù)據(jù)分析的基礎(chǔ)之上?!雹谶@與其公司屬性有關(guān):雖然今日頭條是新聞類產(chǎn)品,但其公司六成員工為技術(shù)開發(fā)人員,使該產(chǎn)品可以根據(jù)算法技術(shù)對用戶偏好進行較為精準(zhǔn)的分析與判斷,并通過智能推薦方式,根據(jù)用戶對推送設(shè)置的偏好,向用戶實時推送信息。
同時,作為一款社交媒體,今日頭條并不局限于重點打造的客戶端平臺,與澎湃新聞的多媒體關(guān)聯(lián)運作方式相似,今日頭條的客戶端也通過分享功能將其與自身的微信、微博等其他社交媒體平臺相關(guān)聯(lián),為用戶收藏、分享或轉(zhuǎn)發(fā)新聞資訊提供可能。這一方面使用戶成為今日頭條資訊的二次傳播者;另一方面,通過用戶自發(fā)傳播的方式,今日頭條也通過其他社交媒體平臺再次推廣了自己的移動客戶端。
二、內(nèi)容:側(cè)重時政與海量信息的差異
(一)專注時政與思想的澎湃新聞
澎湃新聞的定位是“專注時政與思想的互聯(lián)網(wǎng)平臺”,以此定位為基礎(chǔ),“內(nèi)容原創(chuàng)”成為澎湃新聞致力發(fā)展的目標(biāo)和方向,同時也是其重點打造的核心競爭力。憑借上海報業(yè)集團的新聞品牌和公信力優(yōu)勢,澎湃新聞采集并匯聚大量原創(chuàng)報道,突出內(nèi)容的獨特性和不可替代性。而且澎湃新聞的采編隊伍依托其傳統(tǒng)媒體――《東方早報》,在內(nèi)容采編觀念上與傳統(tǒng)媒體“內(nèi)容為王”的核心理念相契合,使其能夠利用并強化基于紙媒基礎(chǔ)發(fā)展起來的深度報道特長,將內(nèi)容集中在“時事、財經(jīng)、思想、生活”四個方面,以時政新聞報道為主。同時,澎湃新聞并不拘泥于單一的新聞報道角度,而是多視角、多方面地報道同類新聞。