第1章文献计量学的历史和制度化①
1.1文献计量学简史
Farshid Danesh②(法希德 达内什),
AliMardani-Nejad③(阿里 马达尼—内贾德)
摘要:文献计量学是为数不多的用于大规模数据分析的方法之一。近几十年来,文献计量学研究领域的发展令人瞩目。然而,文献计量学并不是新事物,它源于统计书目学(statistical bibliography)。本文*先介绍文献计量学的发展简史,以及该领域在19世纪晚期至20世纪晚期(1870—1980)发生的重要事件;其次介绍在1873—1989年这116年间文献计量学的产生、基本定义、领域开拓者、理论及重要著作。
关键词:文献计量学,文献计量学趋势,文献计量学规则,文献计量学理论1.1.1引言“Bibliometrics”(文献计量学)一词含有词根“Biblio”(书)和“metrics”
(测量)。“Biblio”源自拉丁语和希腊语的结合词“biblion”,它与“Bybel(os)”一样,都是书的意思。“Paper”(纸)一词来源于“Byblos”,指古代腓尼基城市比布鲁斯,该城市以出口莎草纸而闻名。“metrics”一词指测量的科学,衍生自拉丁语“metricus”或希腊语“metrikos”,都是测量的意思(Sengupta,1992)。本文介绍从文献计量学起源到研究理论形成的历史背景,以及18一19世纪文献计量学的理论基础、思想、规则和相关出版物。文献计量学的概念*早可追溯至19世纪70年代初期,即1873年,到20世纪80年代晚期基本发展成熟。本文将聚焦从19世纪70年代到20世纪80年代末文献计量学近百年发展历程中的重大事件。
1.1.2简史
1.19世纪70年代
1873年:**篇文献计量学文献《两个世纪的科学史和学者史》(Histoirn des Scienceset des Savants Depuis Deux 5V6c/es)由瑞士植物学家Alphonse de Candolle(阿方斯 德 坎多尔)发表。在这项研究中,作者从科学界成员的角度描述了各国科研能力的变化,目的是找出影响国家科技成就的因素(van Raan,2004)。
2.19世纪90年代
1896年:文献计量学的概念起源自统计书目学及其应用,*早可追溯到19世纪90年代。Campbell(坎贝尔)在著作中运用统计学方法来研究文章的主题分布。这可以看作是文献计量学研究的*次尝试(Osareh,1996)。
1896年:毕业于洛桑大学的意大利经济学家Pareto(帕雷托)发现了二八法则(80/20principle),发表在论文《政治经济学课程》(Cows d'economiepolitique)中。他发现,当时意大利20%的人口拥有约80%的土地(Moore,1897)。随后,他对不同国家展开调查研究,令人惊讶的是,其他国家也有着相似的分布规律(Backhaus,1980)。
3.20世纪10年代
1913年:德国物理学家FelixAuerbach(费利克斯 奥尔巴赫)根据分布规律对德国各城市的人口进行排序。如今我们所说的“齐普夫定律”(Zipf’slaw)也受到其启发(Auerbach,1913)。
1916年:法国速记员J.B.Estoup(J.B.埃斯图普)注意到,1篇法语文本中,秩(r)和频数(F)之间的关系符合“双*线”定律(“hyperbolic”law),即r F的值近似为常数(Harremogs and Topsoe,2005)。
1917年:Cole(科尔)和Eales(伊尔斯)使用统计书目来研究1550—1860年比较解剖学文献的被引情况(Cole and Eales,1917)。
4.20世纪20年代
1923年:Hulme(休姆)利用统计学对科学史进行分析,涉及《国际簿记词典》(International Bookkeeping Dictionary)收录的17个学科中的期刊。他*次提出“统计书目学”这一术语(Hulme,1923)。
1926年:AlfredLotka(阿尔弗雷德 洛特卡)提出了分析作者科研成果产出能力的理论基础。他认为,某一学科中少数作者的科学成果占本学科成果的大部分。当然,这并不能反映这些作者所发表文献的影响力和内容质量(Lotka,1926;Garfield,1995)。
1927年:P.L.K.Gross(P.L.K.格罗斯)和E.M.Gross(E.M.格罗斯)*
次使用引文分析法对化学领域的过刊进行分析。他们的方法被作为模型和实例持续使用了50年之久(Gross PLK and Gross EM,1927)。
1928年:贝尔电话公司(Bell Telephone Company)物理学家E.Condon(E.康登)在研究如何提高电话通信线路容量时发现了一种规律。他发现,#和的分布关系近似线性(直线AB),该直线AB与X坐标间存在角《。如果tana=z,则lg(r,.nr)=lgK(Qiuetal.,2017)。
1929年:Zipf通过了博士论文《相对频率是语音变化的决定因素》(Relative Frequencyas a determinant of phonetic change)的答辩(Zipf,1929)。
5.20世纪30年代
1932年:Zipf出版论著《语言中相对频率原则的若干研究》(SelectedStudies of thePrinciple of Relative Frequency in Language)(Zipf,1932)。
1934年:Bradford(布拉德福德)在学术期刊上发文指出,少数期刊发表了大多数的学术论文。他将期刊分为两组:①刊登*相关文献的核心期刊;②其他外围期刊(Bradford,1948)。
1934年:被称为“信息科学之父”之一的比利时图书馆员PaulOtlet(保罗 奥特利特)将“文献”(documentation)—词带进了信息科学领域并发明了通用的十进制分类法(universal decimal classification)。他在著作《文献通则》(TraiU de _Docurnento/_on)中*次使用术语“文献计量学”(Rousseau,2014)。
1935年Zipf在著作《语言的心理生物学:动态文献学导论》(The Psychobiology ofLanguage:An Introduction to Dynamic Philology)中指出,单词的长度与其出现的相对频率成反比,基于此,他发现并形成了众所周知的齐普夫定律。该定律是基于“单词大小与其出现频率成反比(不一定成比例)”这一现象提出的(Zipf,1935)。
6.20世纪40年代
1949年:Herman Fussler(赫尔曼 富斯勒)提出“关键期刊”(key journals)的概念,并用以研究化学和物理学领域的文献特征(Fussler,1949)。
1948年:Bradford发表著作《文献学》(Documentation)(Bradford,1948)。1948年:Claude Elwood Shannon(克劳德 埃尔伍德 香农)发表论文《通信的数学理论》(Amathematical theory of communication),对信息科学的发展产生了显著的影响。在这篇论文中,他对发送与接收过程中如何实现信息复制的这一基本问题进行了探讨(Shannon,1948)。
1948年:在西班牙举行的年度Aslip会议上,Siyali Ramamrita Ranganathan(西雅利 拉马里塔 兰加纳坦)*次介绍了术语“图书计量学”(librametrics;Ranganathan,1948)。
1949年:Zipf*次对文本中的词汇进行研究。通过研究英语文本中词语的丰度,Zipf发现了“*小努力原则”(theprinciple least effort)的一些例证(Zipf,1949)。
7.20世纪50年代
1955年:Eugene Garfield(尤金 加菲尔德)设计出适用于科学文献的书目索引系统,将其命名为“科学引文索引”(Science Citation Index)。引文索引在汇编信息时比传统的主题索引(subject index)更为便捷(Garfield,1955),并在文章作者与研究者之间建立了联系(Garfield,1955)。
1956年:Fano(法诺)和Kessler(凯斯勒)*次引入“文献耦合”(bibliographic couple)的概念。文献耦合是文献计量方法之一,可以用来考查作者、文献和权威期刊中的关键成果,确定作者的主要成果和参考文献与关键文献、期刊之间的关系(Sen and Gan,1983)。
1958年:Miller(米勒)和Newman(纽曼)厘清了英语文本中词的“秩(rank)和“频率”(frequency)的统计学概念(Miller and Newman,1958)。
8.20世纪60年代
1963年:Garfield发布科学引文索引。作为文献计量学研究和分析的工具,科学引文索引盛行至今,并成为*可靠的文献计量学研究数据来源之一。
1963年:DerekJ.de Solla Price(德里克 德 索拉 普赖斯)出版著作《小科学,大科学》(Little Science,Big Science),*次使用统计数据对“渐进式文献增长现象”(the phenomenon of progressive text growth)进行描述。他指出,1660—1960年,科学论文的数量每15年增加一倍(deSollaPrice,1963)。
1963年:Eugene Garfield和Irving H.Sher(欧文 H.谢尔)引入“期刊影响因子”(journalimpactfactor)概念,为科学信息研究所(Institute for Scientific Information,ISI)的科学引文索引遴选期刊(Garfield and Sher,1963;Garfield,1999)。当时,没有人意识到这个索引会在未来产生巨大的影响。如今,期刊影响因子己为科学引文索引遴选高质量期刊提供了广泛的指导。
1964年:Gofman(戈夫曼)和Newill(纽威尔)提出了“广义传染病理论”(generalization of epidemic theory)。他们认为,思想的跨时间传播方式与病毒感染类似,在特定时间病毒增加、感染人群,同样地,思想传播在某个时间点也会达到认知高峰(Goffman and Newill,1964)。此后,传播力逐渐减弱,并*终销声匿迹或蛰伏起来。科学信息研究所运用这一模型预测了研究主题的流行趋势、热点的持续时间、受影响的人数,以及信息检索系统能否促进科学信息之间的交
流(Garfield,1980)。
1965年:deSollaPrice呼吁将论文之间的联系视作科学论文网络(deSollaPrice,1965)。
1967年:Leimkuhler(莱姆库勒)提出一个解释参考文献分布的数学模型(Leimkuhler,1967)。
1968年:Rosengren(罗森格伦)*次用“共提及”(co-mention)来介绍作者共被引这一概念(Rosengren,1968)共被引能正确体现科学的形式-内容结构(logical mind-body structure
展开