前言:尋找寫作靈感?中文期刊網用心挑選的論文下載指標的基本特征,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
通過對上述論文的研讀分析可知,論文下載指標研究主要涉及下載指標的基本特征、下載與被引的關系、下載指標的應用、代表實時下載情況的下載數據的研究及應用等主題。學術論文在引用前被下載和研讀,體現了其社會價值和影響力。因此,學術論文的下載指標也可作為論文評價的外部指標,那么其具有什么特性、與其他指標的關系如何、能否用它來預測并替代引用指標結果以及用于論文和期刊的評價時的適用性如何?學者們利用《中國學術期刊全文數據庫Web下載統計報告》大樣本數據或中國知網總庫或其鏡像站數據以及《中國學術期刊綜合引證報告》進行了相關研究。
1論文下載指標的基本特征研究
1.1下載頻次的分布特征研究
為考察學術論文下載頻次的隨機變量分布特征,學者們從學科、期刊、機構或論文等不同層次開展了相關研究。其中一項利用《總庫》數據的分析結果表明:下載頻次在期刊中呈負指數分布,而并非正態分布,認為將下載次數視為連續型隨機變量會更為合適[2]。另一研究結果顯示:論文、期刊和機構層次的下載頻次均不符合負指數或冪律分布,呈現向右偏斜的尖頂峰形曲線形態,且以期刊層次為最,所有曲線與正態分布的差異都很大[3]。針對《總庫》數據開展大樣本抽樣的統計結果表明:期刊論文的網絡下載頻次分布均遵循負對數函數衰減,衰減速率由最高下載頻次、篇均下載頻次與載文量3因素決定[4]。另有研究顯示:隨著下載量的增多,論文數比例較快地增大,增大到某一最大值后再緩慢減小直至最小,認為學科論文的下載頻次分布可用對數正態分布函數表征?;谠摲植继卣鳎岢鰧W科最可幾下載量,用以表征學科論文的下載量水平[5]。毛國敏等運用非線性迭代算法,模擬得出期刊論文下載指標的概率密度服從對數正態分布[6]。上述基于不同層面的研究均一致表明:學術論文下載頻次的隨機變量均不服從正態分布,為開展進一步研究提供了理論基礎。
1.2期刊論文下載頻次的布拉德福分布研究
作為文獻計量學經典定律之一的布拉德福定律,最早是用來描述科技論文在期刊中的分布規律的,其是“期刊載文量累積數”與“期刊累積數”之間的函數關系,體現了文獻在相應期刊中的集中與分散的對立與統一。為探討論文下載指標是否也遵循布拉德福分布,學者們開展了一些實證研究。研究表明,布拉德福定律在網絡環境下也可適用。張洋的研究表明:期刊“Web下載總頻次”在期刊中的分布符合布拉德福分布規律,同時也表現出一定的新特點。認為專業論文的純度是影響布拉德福定律相關數學表達式準確程度的一個重要指標[1]。曹藝等通過考察發現,集中度從大到小依次為機構>期刊>論文,在期刊和機構層次,相鄰分區的集中系數差異很大,說明分區效果很差,其中還呈現格魯斯(Gross)下垂現象[3]。郭強等研究顯示:不同學科屬性的期刊下載頻次從直觀上都能較為顯著地表現出布拉德福分布的特征,當然學科間會存在一定的差異。研究針對下載頻次在期刊中分布的聚類現象以及分散程度進行了解釋或是比較,對下載頻次與學科屬性之間的關系能有更深入的認識,從而為建立期刊下載頻次的統計性質與學科影響因素之間的定量關系作了準備[2]。
1.3論文下載頻次在論文關鍵詞中的齊普夫分布
傳統的齊普夫定律描述的是,若將文章中的詞按照出現的頻次降序排列,則詞頻與對應排序值的乘積保持不變。有研究將傳統齊普夫定律中的研究對象轉換為論文關鍵詞與下載頻次,從新的視角對論文下載頻次的統計性質進行了考察。研究表明對于下載頻次在關鍵詞中的齊普夫分布,其意義從直觀上與傳統的齊普夫定律的含義也是相吻合的[7]。論文下載頻次在論文關鍵詞中的齊普夫分布,也是下載頻次統計分布特性的一個組成部分,其在一定程度上反映出用戶信息需求的偏好,并可用來探討用戶下載行為及其知識利用的規律性特征,為文獻老化的解釋性研究帶來更多的啟示。
2學術論文下載指標和被引指標的關系研究
2.1下載指標和被引指標間的一致性和差異性的比較研究
周燕子等[8]和劉影梅等[9]通過10篇高頻論文分別考察了我國圖書館學情報學核心期刊的下載頻次與被引頻次間的相關性,直觀比較后得出:同一篇論文的下載頻次遠遠高于被引頻次,高下載的論文不一定是高被引,高被引的論文不一定是高下載。
2.2學術論文下載指標和被引指標相關性的定量統計研究
主要涉及機構、期刊、作者、論文等不同層次上的論文下載和被引指標的相關性研究。其中涉及期刊層次的研究較多,樣本量也較龐大,并較多地采用Spearman等級相關分析法進行分析。其中有學者考慮到中文科技期刊文獻計量指標與網絡計量指標間的線性關系較弱,且大多不服從正態分布,直接采用Spearman等級相關分析,分別對期刊和機構層次的被引頻次和下載頻次[3]、期刊的下載頻次與被引頻次[10]等開展研究。也有學者先采用正態性檢驗(如直方圖、QQ散點圖、K-S檢驗)、曲線估計確認后再進行Spearman等級相關分析,從期刊[11]、論文+期刊[12]以及論文+作者+期刊[13]等不同層面上規范地考察了論文下載頻次、被引頻次與影響因子間的相關性。另有學者在期刊層面上采用線性相關法開展了相關研究[4,14]。而在單篇論文層面,可見采用線性相關分析法、回歸分析法考察論文下載頻次與被引頻次間的相關性[15-17]。從相關研究中發現了一些較典型的問題:如取樣的合理性欠佳,樣本量過小導致結論不具有普遍性;樣本出版年限不夠長使得被引行為尚未發生;分析方法不合理,如沒有經過正態性檢驗而直接采用線性相關分析,使得結果不具科學性。通過研究發現,高下載或高頻被引論文,在QQ概率圖中是一些遠離簇位置的散點[3],亦即離群數據[18],容易造成單篇論文整體的相關系數降低,因此以高頻論文作為樣本,樣本量較少,并且被引頻次和下載頻次存在時間差,以及還有論文的學科差異等種種因素的影響,都會導致研究結論的可信度降低。綜上,由于數據來源、樣本大小、學科領域、分析層次、統計方法、觀察時段等的不同,針對論文下載頻次和被引頻次的相關性研究的結論也不盡相同。但總的來說,基于期刊、作者、機構層次,論文下載頻次與被引頻次呈現較顯著的正相關性,而在單篇論文層面,論文下載頻次與被引頻次不具有相關性或相關性偏弱,因此可作為兩個獨立指標,至于其權重如何,有待于進一步研究探討。
3學術論文下載頻次的應用研究
3.1在期刊、機構、作者層次上論文下載頻次對被引頻次預測的可行性及實證研究
一些學者持肯定意見,如有研究基于期刊和機構層次的下載頻次和被引頻次之間關聯性顯著較強,認為從其中一個指標來推測另一指標是較為可靠的[3]。另有研究認為從作者或期刊粒度利用下載頻次預測被引頻次是可行的[13]。郭強等則利用期刊的前期下載總頻次對其后期的被引總頻次進行了估算,并在線性假設基礎上,對后期的被引半衰期以及最大引文年限也進行了考察[19]。也有學者持否定意見,認為不能利用期刊論文下載頻次對被引頻次進行預測,如王雅祺指出被引量和下載數之間的關系較復雜,并不一定是簡單的因果關系[12]。
3.2在單篇論文層次上論文下載頻次對被引頻次預測的可行性
周驥等通過研究認為:根據論文早期的下載頻次可對后期的被引頻次進行預測[17]。而有幾位學者通過高頻論文的直觀比較或者線性相關分析,認為論文下載頻次不能對被引頻次進行預測[8-9,16]。另有研究明確指出,從單篇論文粒度利用下載頻次預測被引頻次并不可行。也有學者提出,下載指標能否用于評價論文的學術影響力還需深入研究[7]。
3.3建議將學術論文下載頻次與被引頻次都作為學術期刊綜合評價的指標之一
張洋[1]、王雅祺[12]等認為文獻與期刊的下載頻次、被引頻次這兩個指標都應該在評估中相互參照并綜合考慮其影響力?!吨形暮诵钠诳靠傆[》(2001版)和《中國學術期刊評價研究報告(2013-2014)》中已經分別將“Web下載量”和“即年下載率”納入期刊評價指標,與引文指標相比,權重系數偏小,分別為1%和5%[17],但也顯示了將論文下載頻次作為單獨一種指標進入期刊綜合評價體系成為一種必然趨勢。
3.4論文下載頻次加入Altmetrics體系參與學術論文影響力評價
Altmetrics,一種新型的學術成果評價方法,強調用面向學術成果全面影響力評價的指標體系來替代傳統片面依靠引文指標的定量科研評價體系,其包含了被引量以外的被使用情況、被獲取情況、被提及情況和社交媒介等[20]。國內的研究結果驗證了Altmetrics將論文下載指標作為獨立的單篇論文評價指標的合理性和科學性;目前已有研究者建立了類似Altmetrics的并將論文下載頻次納入單篇英文論文的動態評價體系[21]。