數據密集型科學(xué)環(huán)境下的情報服務(wù)與發(fā)展論文
大數據時(shí)代的到來(lái),使得學(xué)術(shù)活動(dòng)的信息數據來(lái)源、組成、價(jià)值以及處理技術(shù)都發(fā)生了巨大變化,數據就如傳統價(jià)值認識中的“黃金”一樣,變得無(wú)比重要和價(jià)值巨大[1],這些變化也影響到了學(xué)術(shù)信息的交流環(huán)境,使得科學(xué)研究向數據密集型科研轉變,越來(lái)越多的科研工作是基于現有數據的重新分析、組織、認識、解析和利用,數據成為了科學(xué)研究的基礎。雖然說(shuō)從目前來(lái)看將數據比作“金礦”有夸大之嫌,但也充分的說(shuō)明了數據的重要作用與價(jià)值。同時(shí),我們也看到,在這種數據密集型科學(xué)環(huán)境下,變化的不只是科學(xué)研究,一些服務(wù)機構特別是信息服務(wù)機構的服務(wù)內容、服務(wù)方式也在悄然發(fā)生著(zhù)變化,對能為用戶(hù)創(chuàng )造價(jià)值與創(chuàng )新的科學(xué)數據日益重視,基于數據的服務(wù)也成為了它們的服務(wù)增長(cháng)點(diǎn),對新型科學(xué)環(huán)境下的服務(wù)發(fā)展學(xué)術(shù)研究也正在如火如荼的進(jìn)行之中;诖,本文從數據密集型科學(xué)環(huán)境出發(fā),對科學(xué)研究的第四范式、數據密集型科學(xué)環(huán)境的形成與推動(dòng)因素進(jìn)行了概述,重點(diǎn)對數據密集型科學(xué)環(huán)境下的情報服務(wù)內容進(jìn)行了陳述,同時(shí)也對情報服務(wù)的發(fā)展途徑如數據建設、人才建設、協(xié)作機制建設進(jìn)行了分析。
1 數據密集型科學(xué)研究興起的社會(huì )環(huán)境
2007 年,Jim Grey在美國國家研究理事會(huì )計算機科學(xué)和遠程通訊委員會(huì )( NRC- CSTB) 的演講報告中首次提出了以數據密集型計算為基礎的科學(xué)研究“第四范式”概念[2],并將其作為與實(shí)驗科學(xué)、理論推演、計算機仿真三種科研范式平行的科學(xué)研究[3],但在對科學(xué)研究范式的發(fā)展及劃分簡(jiǎn)單論述后,并未對第四研究范式的內涵、科學(xué)研究現狀等進(jìn)行深入論述。直到2009 年, 微軟公司的TonyHey、Stewart Tansley和Kristin Tolle主編的《The Fourth Paradigm:Data- intensive Scientific Discovery》(第四范式——數據密集型科學(xué)發(fā)現)一書(shū),才較為詳細的登載了第四范式的內涵和意義等內容,并從地球與環(huán)境、健康與幸福、科學(xué)基礎設施、科學(xué)交流四個(gè)方面展示了69 位學(xué)者從不同的視角觀(guān)察、理解、分析和探討[4]。
對數據密集型科學(xué)研究來(lái)說(shuō),科學(xué)研究第四范式強調傳統的假設驅動(dòng)將向基于科學(xué)數據探索的科學(xué)方法方向轉變,并在這種數據的轉變與方法實(shí)現中,數據依靠工具獲取、分析與處理,依靠計算機存儲。筆者認為,大數據時(shí)代的來(lái)臨,數據的來(lái)源、類(lèi)型、存在形態(tài)將異常豐富,可以是實(shí)驗觀(guān)察數據、實(shí)驗數據、仿真數據、互聯(lián)網(wǎng)數據,也可以是產(chǎn)生于智能終端如智能手機、社交活動(dòng)如微博、虛擬社區中的信息行為數據等;類(lèi)型和存在形態(tài)可以是已經(jīng)可以靈活保存于數據庫、機構庫中的結構化數據,也可能是目前只能通過(guò)路徑記錄、現場(chǎng)拍攝才能記錄的半結構化數據、非結構化數據。
從數據密集型科學(xué)研究的興起與形成來(lái)看,數量龐大、類(lèi)型豐富、價(jià)值巨大的數據產(chǎn)生即大數據時(shí)代的到來(lái)以及一方面產(chǎn)生數據、一方面又能實(shí)現對數據管理與應用的現代信息技術(shù)更新、發(fā)展是數據密集型科學(xué)環(huán)境興起與發(fā)展的根本推動(dòng)因素,而信息爆炸、關(guān)聯(lián)數據運動(dòng)、數據開(kāi)放運動(dòng)等直接推動(dòng)數據密集型科學(xué)環(huán)境成熟的運動(dòng)也都功不可沒(méi)。
2 數據密集型科學(xué)環(huán)境下的情報服務(wù)
2.1 科學(xué)數據服務(wù)
2012年6月,美國大學(xué)與研究圖書(shū)館協(xié)會(huì )出版了《學(xué)術(shù)圖書(shū)館與科學(xué)數據服務(wù)》白皮書(shū)報告[5],該報告調查了美國和加拿大的大學(xué)與研究圖書(shū)館協(xié)會(huì )的351所成員館的科學(xué)數據服務(wù)情況,結果顯示盡管目前只有少數美國、加拿大的大學(xué)與研究圖書(shū)館協(xié)會(huì )成員館開(kāi)展科學(xué)數據服務(wù),但也顯示許多高校圖書(shū)館準備在未來(lái)一到兩年內開(kāi)展科學(xué)數據服務(wù)。這說(shuō)明在當前的數據密集型環(huán)境下,開(kāi)展科學(xué)數據服務(wù)將成為情報服務(wù)的主要組成部分。數據密集型環(huán)境下的科學(xué)數據服務(wù),既可以借鑒普渡大學(xué)圖書(shū)館的D2C2分布式數據保存項目[6],開(kāi)展諸如情報咨詢(xún)、科學(xué)數據管理、科學(xué)數據查找服務(wù),也可以借鑒澳洲國立大學(xué)依靠超級計算機設備進(jìn)行的存儲服務(wù)[7],提供大量范圍內的數據存儲、數據標注服務(wù)。且相信隨著(zhù)技術(shù)的發(fā)展與用戶(hù)的需求變化,在未來(lái)的情報服務(wù)中,諸如科學(xué)數據的開(kāi)發(fā)、發(fā)現、引用、標識、分析及技術(shù)支持等更大范圍的數據服務(wù)都將會(huì )實(shí)現。
2.2 數據發(fā)現服務(wù)
產(chǎn)生于大量智能終端、社交網(wǎng)站、活動(dòng)場(chǎng)所的海量、復雜的半結構化數據、非結構化數據的出現,使得傳統的情報服務(wù)中的數據處理與數據服務(wù)變得困難,如何在數據密集型的科研環(huán)境下為用戶(hù)提供數據的發(fā)現服務(wù),成為了數據密集型科研環(huán)境下的主要情報服務(wù)內容之一。Web、本體、XML、RDF、標簽等技術(shù)的出現,使得數據資源的共享、檢索、標注與利用更加便捷,實(shí)現系統化、語(yǔ)義化、網(wǎng)絡(luò )化、自動(dòng)化的數據發(fā)現服務(wù)成為了可能,在以谷歌為代表的IT數據發(fā)現服務(wù)帶領(lǐng)下,業(yè)界掀起了基于數據發(fā)現服務(wù)的數據發(fā)現服務(wù)系統開(kāi)發(fā)熱潮,國內外研發(fā)了一批基于語(yǔ)義擴展搜索的數據發(fā)現系統,如ExLibris公司的Primo、EBSCO公司的EBSCO Discovery Service(EDS)、Innovative Interfaces公司的Encore等,OCLC的一站式知識資源發(fā)現與服務(wù)系統Worldcat Local,提供了全世界近2萬(wàn)個(gè)圖書(shū)館的館藏紙質(zhì)資源和部分數字資源的信息共17億條[8]。在數據密集型科學(xué)環(huán)境下,數據發(fā)現服務(wù)不僅能為用戶(hù)發(fā)現和關(guān)聯(lián)可能存儲于社會(huì )各個(gè)行業(yè)、多個(gè)領(lǐng)域、多個(gè)學(xué)科的數據知識,也能為用戶(hù)發(fā)現數據表面、少量數據不易于發(fā)現的價(jià)值,進(jìn)而為用戶(hù)的市場(chǎng)預測、信息行為等做出態(tài)勢分析、前景判斷提供知識與數據支撐。
2.3 知識咨詢(xún)服務(wù)
一直以來(lái),信息咨詢(xún)服務(wù)都是情報服務(wù)的主要組成部分,也為企業(yè)信息分析、情報收集等工作提供巨大的參考與幫助作用,得到了情報服務(wù)用戶(hù)的高度認可。但在數據密集型環(huán)境下,由于提供咨詢(xún)服務(wù)的數據來(lái)源、類(lèi)型、處理平臺、服務(wù)方式都將發(fā)生巨大變化,傳統的咨詢(xún)工作并不會(huì )滿(mǎn)足用戶(hù)的需求,因而依賴(lài)于海量知識、依靠數據分析系統、為用戶(hù)提供解決問(wèn)題知識的知識咨詢(xún)服務(wù)將應運而生。與傳統的信息咨詢(xún)、參考咨詢(xún)相比,知識咨詢(xún)服務(wù)更具專(zhuān)業(yè)化、知識化以及實(shí)現多樣化等特點(diǎn),即需專(zhuān)業(yè)的`服務(wù)人員借助專(zhuān)業(yè)的服務(wù)平臺實(shí)現對專(zhuān)業(yè)學(xué)科資源的專(zhuān)業(yè)分析,用知識服務(wù)平臺實(shí)現對知識資源的知識處理并提供用戶(hù)知識產(chǎn)品,用多樣化的技術(shù)手段來(lái)處理多樣化的數據進(jìn)而通過(guò)多樣化的途徑提供多樣化的服務(wù)。由于知識咨詢(xún)以用戶(hù)的知識需求為出發(fā)點(diǎn),以復雜的海量數據為知識來(lái)源,以面向大數據的分析、挖掘軟件為工具,以向用戶(hù)提供最終可以解決問(wèn)題的知識產(chǎn)品為目標,因此,知識咨詢(xún)將在數據密集型科學(xué)環(huán)境下廣泛的用于企業(yè)情報收集、政府決策分析、個(gè)人科研創(chuàng )新等領(lǐng)域。
2.4 學(xué)科服務(wù)
數據密集型科學(xué)環(huán)境的興起與發(fā)展,使得存在于社會(huì )每一個(gè)角落的各類(lèi)數據以及產(chǎn)生于每一個(gè)實(shí)驗、調查等科研活動(dòng)的相關(guān)數據都可能成為知識創(chuàng )新與科學(xué)研究的主要知識來(lái)源,但對這些數據、知識的組織與利用并不一定因為科研人員信息素養的水平差異而能成功實(shí)現,于是,一些科研院所、大型科研團隊日益重視科研隊伍建設時(shí)的圖書(shū)館員等能靈活檢索和運用數據資源的團隊組成比例,國外興起的數據監管教育就是順應這種科研人才隊伍的需求而產(chǎn)生的,這類(lèi)人員的主要職能是利用專(zhuān)業(yè)的學(xué)科背景知識,運用掌握的信息素養知識,為科研團隊提供專(zhuān)業(yè)的學(xué)科服務(wù)。在未來(lái)日益發(fā)展的數據密集型科學(xué)環(huán)境下,這類(lèi)學(xué)科服務(wù)將突破目前的第一代、第二代學(xué)科服務(wù)形式,即圖書(shū)館領(lǐng)域的設置學(xué)科館員形式與嵌入式學(xué)科服務(wù)形式,出現情報服務(wù)機構與科研團隊合作形式,進(jìn)而為科研活動(dòng)提供更為專(zhuān)業(yè)、有團隊協(xié)作保障的學(xué)科服務(wù)。
2.5 數據云服務(wù)
云計算的發(fā)展以及Google、亞馬遜等云計算服務(wù)提供商多種云服務(wù)平臺的推出,為情報服務(wù)的云服務(wù)實(shí)現提供了便捷條件。由于云服務(wù)是將分布式計算、網(wǎng)格計算、并行計算以及Internet結合起來(lái)的一種新興的IT資源提供模式,實(shí)現了將動(dòng)態(tài)、可伸縮的IT資源以服務(wù)方式通過(guò)互聯(lián)網(wǎng)提供給用戶(hù)[9],因此,情報服務(wù)對于云計算的應用并不需要昂貴的硬件設備、專(zhuān)業(yè)的技術(shù)人員以及種類(lèi)繁多的軟件操作平臺,只需要根據自己的用戶(hù)需求特征來(lái)租用合適的云平臺及服務(wù),以通過(guò)云計算虛擬技術(shù)而實(shí)現在云計算的技術(shù)支撐環(huán)境下提供數據的上傳、下載、運算等服務(wù)。云服務(wù)的模式主要有IaaS(Infrastructure as a Service,基礎設施即服務(wù))、PaaS(Platform as a Service,平臺即服務(wù))、SaaS(Software as a Service,軟件即服務(wù))等三種模式[10]。從目前的云計算服務(wù)提供商來(lái)看,情報服務(wù)的云平臺既可以選擇Google和Amazon等云服務(wù)提供商提供的云平臺,大型服務(wù)機構也可以借鑒OCLC與美國國會(huì )圖書(shū)館通過(guò)自建云服務(wù)平臺來(lái)實(shí)現對用戶(hù)的云服務(wù)。
2.6 數據分析服務(wù)
在數據密集型科學(xué)環(huán)境下,不管是對用戶(hù)提供諸如上述的科學(xué)數據、知識咨詢(xún)、數據發(fā)現等服務(wù),還是可能出現的如用戶(hù)定制的數據關(guān)聯(lián)、數據發(fā)布等服務(wù),數據分析都將是其實(shí)現的主要組成部分,只不過(guò)常態(tài)的科學(xué)數據、知識咨詢(xún)等服務(wù),情報服務(wù)機構的依賴(lài)資源是云數據、機構存儲數據與購買(mǎi)數據等,即主要以社會(huì )或機構公有數據為主,但用戶(hù)的個(gè)性化定制如數據關(guān)聯(lián)等服務(wù)可能主要以用戶(hù)個(gè)體私有數據為主。同時(shí),需要注意的是,數據密集型科學(xué)環(huán)境下的數據分析,需以一些系統平臺和技術(shù)為支撐,如當前運用較多的可視化技術(shù)、數據挖掘與語(yǔ)義處理等。
3 數據密集型科研環(huán)境下的情報服務(wù)發(fā)展
3.1 重視對數據資源建設與價(jià)值挖掘
IBM的《分析:大數據在現實(shí)世界中的應用》白皮書(shū)認為數據是大數據時(shí)代業(yè)務(wù)發(fā)展的主要驅動(dòng)因素之一[11],一些IT業(yè)發(fā)達的國家如美國、印度等近來(lái)出現了一批以數據的獲取、聚合、加工為盈利手段的企業(yè),由此可以看出數據在業(yè)務(wù)發(fā)展中的價(jià)值,對于提供以數據為知識來(lái)源與主要業(yè)務(wù)實(shí)現基礎的情報服務(wù)來(lái)說(shuō)更是價(jià)值巨大。情報服務(wù)機構如圖書(shū)館、情報研究所等應認清數據在未來(lái)情報服務(wù)中的重要性,提高數據收集意識,一方面,對現存結構化數據進(jìn)行關(guān)聯(lián)、標注、索引等分析與重組處理,實(shí)現數據的關(guān)聯(lián)化、語(yǔ)義化,以為數據的發(fā)現與關(guān)聯(lián)打下基礎;另一方面,注重隱藏著(zhù)巨大價(jià)值但目前收集幾乎空白的非結構化數據、半結構化數據的建設,為將來(lái)的情報服務(wù)提供豐富的數據保障。
3.2 重視對人才隊伍的建設與培養
《中國大數據技術(shù)與服務(wù)市場(chǎng)2012-2016年預測與分析》報告認為“大數據相關(guān)人才的欠缺將成為影響大數據市場(chǎng)發(fā)展的一個(gè)重要因素”[12]。IDC認為中國大數據技術(shù)與服務(wù)市場(chǎng)將會(huì )從2011年的7760萬(wàn)美元快速增長(cháng)到2016年的6.16億美元,同時(shí)麥肯錫 (McKinsey)也認為到2018年,美國需要14~19萬(wàn)名具有“深度分析”經(jīng)驗的工作者,以及150萬(wàn)名更加精通數據的經(jīng)理人。而多種數據顯示這類(lèi)工作人員非常稀缺,如著(zhù)名的國際研究暨顧問(wèn)機構Gartner就認為只有1/3的新的工作崗位能雇傭到熟悉大數據技能的IT專(zhuān)業(yè)人員[13]。人才問(wèn)題同樣也會(huì )影響到未來(lái)數據密集型科學(xué)環(huán)境下基于大數據的情報服務(wù),因為對數據分析、數據發(fā)現等情報服務(wù)來(lái)說(shuō),其不僅要有傳統情報服務(wù)的信息檢索、組織等信息素養,還需掌握對大數據的平臺分析等技術(shù),更要在學(xué)科服務(wù)中具備一定的專(zhuān)業(yè)知識。要滿(mǎn)足這種服務(wù)業(yè)務(wù)的發(fā)展需要,情報機構進(jìn)行人才引進(jìn)與人才培養是唯一的兩條出路,并且需相輔相成,即一方面,引進(jìn)一些IT服務(wù)商的數據科學(xué)家、數據工作者以及高校數據監護、數據監管專(zhuān)業(yè)的畢業(yè)生,另一方面,選擇與高校、IT公司合作,進(jìn)行現有人才的培訓培養。
3.3 重視情報服務(wù)合作機制的構建
大數據時(shí)代的數據特點(diǎn)決定了數據的收集、利用都需以機構間、團隊間的合作為基礎,因此,在數據密集型科學(xué)環(huán)境下,情報機構既需要在數據資源上實(shí)現互相的共建共享以避免出現資源重復建設,還需在人才培訓、技術(shù)合作上實(shí)現互補,以通過(guò)資源共享、機構協(xié)作實(shí)現用戶(hù)需求的最大滿(mǎn)足。同時(shí),開(kāi)展校際合作、校企合作也是一個(gè)新的發(fā)展思路。這些合作機制的建立,一方面將進(jìn)一步增強數據資源的互補性,拓展數據資源體系范圍,充分發(fā)揮科學(xué)數據的使用價(jià)值;另一方面,合作協(xié)作也將增強人才隊伍實(shí)力,為情報服務(wù)的開(kāi)展拓寬了人才隊伍知識領(lǐng)域,提高服務(wù)能力。
4 結語(yǔ)
大數據時(shí)代才剛剛來(lái)臨,科學(xué)研究的第四范式也尚處于日益成熟階段,數據密集型科學(xué)環(huán)境的發(fā)展還并不成熟,數據的價(jià)值也未在諸多領(lǐng)域得到體現,但隨著(zhù)數據密集型科學(xué)環(huán)境的日益成熟與數據價(jià)值的日益體現,情報服務(wù)的數據服務(wù)價(jià)值也會(huì )被社會(huì )廣泛認可,適應用戶(hù)與社會(huì )發(fā)展需求的服務(wù)內容創(chuàng )新、方向轉變更將必不可少,重視數據資源、人才與合作機制建設,迎接日益社會(huì )發(fā)展步伐的需求挑戰,將是情報服務(wù)機構搶占先機的關(guān)鍵決策。
【數據密集型科學(xué)環(huán)境下的情報服務(wù)與發(fā)展論文】相關(guān)文章:
大數據環(huán)境下我國商務(wù)管理發(fā)展研究論文10-28
創(chuàng )優(yōu)環(huán)境科學(xué)發(fā)展論文04-22
分析論文:云計算環(huán)境下大數據06-26