大數據在選題策劃中的應用策劃書(shū)
據全球權威的IT研究與咨詢(xún)公司Gartner于20xx年9月發(fā)布的大數據分析報告顯示,全球范圍內的媒體和通信行業(yè)以及銀行金融業(yè)站在了大數據投資的最前沿。相比之下,出版業(yè)作為文化產(chǎn)業(yè),承載著(zhù)文化傳播與文化傳承的社會(huì )功能,然而在利用大數據洞悉讀者需求上表現欠佳,所以,如何借助不斷增長(cháng)的大數據進(jìn)行信息和知識的搜集、組織和傳播,成為出版企業(yè)亟待解決的問(wèn)題。
出版企業(yè)可利用的大數據的具體形式
對于“大數據”(Big Data),研究機構Gartner給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長(cháng)率和多樣化的信息資產(chǎn)。舉個(gè)例子,1分鐘的時(shí)間內,新浪發(fā)送2萬(wàn)條微博,蘋(píng)果下載4.7萬(wàn)次應用,淘寶賣(mài)出6萬(wàn)件商品,人人網(wǎng)發(fā)生30萬(wàn)次訪(fǎng)問(wèn),百度產(chǎn)生90萬(wàn)次搜索查詢(xún)。由此可見(jiàn),數據規模的急劇膨脹,各行業(yè)累積的數據量越來(lái)越巨大,數據類(lèi)型也越來(lái)越多、越來(lái)越復雜,已經(jīng)超越了傳統數據管理系統、處理模式的能力范圍,于是“大數據”這樣一個(gè)“無(wú)窮大”的概念才會(huì )應運而生。大數據的特點(diǎn)可以被歸納為:數量巨大、類(lèi)型多樣、實(shí)時(shí)快速、價(jià)值高但密度低。正式基于這樣的特點(diǎn),出版企業(yè)可以結合產(chǎn)業(yè)的優(yōu)勢對大數據進(jìn)行充分的挖掘和利用。
。1)Web文本挖掘。大數據的核心是挖掘龐大數據庫的獨有價(jià)值。面對因為網(wǎng)絡(luò )的飛速發(fā)展而帶來(lái)的信息膨脹,尤其是以半結構化或非結構化為主的文本信息,人們迫切需要研究出方便有效的工具去從中提取符合需要的“簡(jiǎn)潔的”“精煉的”“可理解的”知識,Web文本挖掘技術(shù)由此產(chǎn)生。而利用Web文本挖掘發(fā)現大數據的價(jià)值也成為可能。
文本挖掘是近幾年來(lái)數據挖掘領(lǐng)域的一個(gè)新興分支。文本挖掘也稱(chēng)為文本數據庫中的知識發(fā)現,是從大量文本的集合或語(yǔ)料庫中抽取事先未知的“可理解的”有潛在實(shí)用價(jià)值的模式和知識。而隨著(zhù)網(wǎng)絡(luò )技術(shù)的飛速發(fā)展,特別是Web應用的不斷普及,網(wǎng)絡(luò )信息急劇增加,信息類(lèi)型也越來(lái)越復雜。如何從這些大量自由、非結構化或半結構化的信息中獲得所需求的知識,傳統的數據挖掘技術(shù)已不適用,解決問(wèn)題的一個(gè)途徑就是將傳統的文本挖掘技術(shù)和Web綜合起來(lái),進(jìn)行Web文本挖掘。Web文本挖掘就是以萬(wàn)維網(wǎng)上的數據為分析對象,以抽取有用知識為目標,把傳統文本挖掘技術(shù)和萬(wàn)維網(wǎng)相結合的研究技術(shù)。
。2)出版企業(yè)可利用的Web文本數據。網(wǎng)絡(luò )上圖書(shū)評論的數量極為龐大,有些暢銷(xiāo)書(shū)可能包含成千上萬(wàn)的評論,借助Web文本挖掘技術(shù)能自動(dòng)地對圖書(shū)評論進(jìn)行分析和處理,挖掘出有用的信息。通過(guò)對圖書(shū)在線(xiàn)評論的挖掘管理,出版企業(yè)可以用較低的成本收集、整理讀者對于各類(lèi)圖書(shū)的關(guān)注興趣和欣賞特點(diǎn),同時(shí)也可以獲得暢銷(xiāo)圖書(shū)迎合市場(chǎng)需求的關(guān)鍵因素。在此過(guò)程中,企業(yè)獲得了知識資源,同時(shí)培育了持續的競爭優(yōu)勢。因此,可以將各大圖書(shū)銷(xiāo)售網(wǎng)站的讀者評論作為出版企業(yè)可利用的大數據分析的首要來(lái)源。
在企業(yè)的銷(xiāo)售網(wǎng)站或其借助的其他互聯(lián)網(wǎng)銷(xiāo)售平臺上,通過(guò)建立在線(xiàn)評論客戶(hù)知識管理系統,收集、整理和分析客戶(hù)評論,將客戶(hù)評論轉化為企業(yè)的知識,從而為企業(yè)價(jià)值鏈的各個(gè)環(huán)節提供客戶(hù)的信息和知識的共享,并將客戶(hù)知識延伸到企業(yè)的決策制定中,為企業(yè)有效開(kāi)展客戶(hù)知識管理提供有效的解決方案。同時(shí),基于評論挖掘構建的客戶(hù)知識管理系統,具有與用戶(hù)需求同步的快速響應能力,即具有將用戶(hù)需求迅速轉向圖書(shū)的策劃和印制的能力。這就使得出版企業(yè)以響應市場(chǎng)需求為中心,實(shí)時(shí)挖掘客戶(hù)知識,提高優(yōu)化客戶(hù)關(guān)系的決策能力,準確及時(shí)地向客戶(hù)提供所需的圖書(shū)產(chǎn)品。
大數據在選題策劃中的應用
信息收集和預處理
相對于傳統數據庫中的完全結構化的數據而言,Web數據的最大特點(diǎn)就是半結構化。從評論挖掘的角度來(lái)看,Web上的網(wǎng)頁(yè)包含的信息并不都是有用的,體現網(wǎng)頁(yè)的主題信息的是“主題”內容;與主題內容無(wú)關(guān)的.導航條、廣告信息等內容則是“噪音”內容。網(wǎng)頁(yè)凈化過(guò)程就是去掉包含噪音內容的內容塊,只保留網(wǎng)頁(yè)中包含主題內容的內容塊。因此在評論挖掘的數據預處理階段,首要任務(wù)就是完成Web網(wǎng)頁(yè)凈化過(guò)程,去除網(wǎng)頁(yè)內容中的音頻、視頻、圖片等其他非文本信息,還有各種網(wǎng)頁(yè)本身的標記語(yǔ)言,最后僅剩下網(wǎng)頁(yè)中的文字評論內容,從Web頁(yè)面中提取出文本評論信息。
評論頁(yè)面的下載可以采用聚焦爬蟲(chóng)技術(shù),所謂聚焦爬蟲(chóng),是能實(shí)現自動(dòng)下載網(wǎng)頁(yè)功能的程序,它根據指定的抓取目標,有選擇地獲取萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)及其相關(guān)的鏈接,抓取所需要的信息。通過(guò)對Web頁(yè)面的語(yǔ)義結構進(jìn)行描述,產(chǎn)生適合計算機自動(dòng)處理的描述文件和指令文件,實(shí)現持續地、大批量地提取Web信息。
圖書(shū)特征提取和情感分析
評論內容是中文語(yǔ)句,要從中提取詞語(yǔ),進(jìn)而獲得讀者關(guān)注的圖書(shū)特征,首先需借助中文分詞技術(shù)。中文分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)領(lǐng)域,它通過(guò)詞性標注將一個(gè)漢字序列切分成相互獨立的詞,文本挖掘的基礎是中文分詞,一段中文要使得計算機自動(dòng)識別語(yǔ)句語(yǔ)義,必須通過(guò)準確的中文分詞處理。在中文分詞和詞性標注的基礎上,使用漢語(yǔ)分詞軟件的關(guān)鍵詞提取功能提取評論內容中的關(guān)鍵詞,按照權重排序找出高頻名詞或名詞性短語(yǔ)作為候選詞匯,通過(guò)人工定義和篩選,得到讀者評論中的圖書(shū)屬性特征詞集合。
挖掘出的圖書(shū)的讀者關(guān)注特征,是讀者圖書(shū)評論中最集中和最熱點(diǎn)的特征,但每項特征具體的評價(jià)傾向性還需進(jìn)一步分析和處理,即通過(guò)提取讀者對每項關(guān)注特征所持有的褒貶態(tài)度,分析其評價(jià)情感傾向性。情感詞可以細分為情感特征詞匯和情感強度詞匯?蛻(hù)評論中的情感特征詞是客戶(hù)表明自身觀(guān)點(diǎn)和態(tài)度的詞匯,而情感強度詞是指評論中用于加強語(yǔ)氣的程度副詞,如“最”“非!焙鸵恍┓穸ㄔ~。這些詞的修飾會(huì )加強或減弱,甚至改變原來(lái)詞匯的情感傾向,在判斷評論的情感時(shí)要考慮這些強度詞語(yǔ)的作用。
【大數據在選題策劃中的應用策劃書(shū)】相關(guān)文章:
新聞選題策劃書(shū)04-09
圖書(shū)選題策劃書(shū)方案04-08
圖書(shū)選題策劃書(shū)范例04-08
數據挖掘在CRM中的應用論文04-10
數據挖掘在培訓管理中的應用論文12-19
大數據在知識管理中的應用論文10-21
出版選題策劃書(shū)(通用5篇)05-17
論文:大數據在高校中的應用研究07-02