科学网—引文分析软件histcite简介

这是《文献管理与信息分分析》课程内容的一部分。

对于科研工作者来说,除了掌握快速的收集信息和有效管理信息的能力之外,还需要有一定的信息分析能力。譬如,检索某个研究方向,结果文献有上千篇,此时我们该如何对待这些文献?精炼检索条件很可能会导致有价值的文献被排除在外。在交叉科学盛行的今天,如果想了解其它领域的进展情况,由于缺乏相应的专业知识,如何判断哪些文献是有重要参考价值的文献?这些问题的解决都需要我们具备一定的文献信息分析能力。

有人说,在WOS里按照引用次数排序,引用次数最多的必定参加价值更大,其实不然,后面会有解释。

我所知的文献信息分析软件有基于引文的分析软件histcite,基于内容分析的refviz、omniviz、Tda等,还有分析研究前沿的citespace等。

这里先简要介绍一下引文分析软件histcite它的功能和用法。

histcite=history of cite,意味引文历史,或者叫引文图谱分析软件。该软件系sci的发明人加菲尔德开发,能够用图示的方式展示某一领域不同文献之间的关系。可以快速帮助我们绘制出一个领域的发展历史,定位出该领域的重要文献,以及最新的重要文献。

软件的最新试用版本可以从www.histcite.com网站下载到。

软件的试用非常简单,但如何从软件给出的图谱中得出有价值的信息,以及不同图谱展示的内在含义,需要我们不断揣摩和理解。

下面先介绍一下如何使用软件;然后介绍一下软件里涉及的一些概念;最后给出几个个示例。

一、软件使用
1、从histcite网站下载软件,安装之后,点击histcite图标即可开启软件;软件打开后的窗口类似IE的界面;
2、数据的获取;histcite目前用于分析的文献信息只能来源于web of science数据库;在wos 数据库进行检索后,在页面的底端选择需要导出的数据记录,由于wos目前只支持每次导出500条记录,如果检索结果超过500条需要分多次导出。选择导出的文献记录之后,第二步,一定要选择输出全记录,并且要包含引文信息;第三步将需要的文献保存成文本文件。一般来说,如果文献记录少于500条,分析的意义不是很大。合适的数据量个人认为在几百到几千条记录之间比较合适。
3、从file菜单下点击add file,导入上述保存的数据;如果有多个文本文件,可以重复执行导入;

4、数据导入后,软件会自动进行分析。初学者可以不去追究各种按钮的含义。在tool菜单下,选择graph maker,然后在新的界面点击左上角的make graph 按钮。软件会根据默认的条件作出一张引文关系图来,来展示当前数据库中重要文献之间的关联。

5、读图  作出图之后,理解图谱才是关键。一般默认会画出30篇文献之间的关联。图上有30个圆圈,每个圆圈表示一片文献,中间有个数字,是这篇文献在数据库中的需要。圆圈的大小表示引用次数的多少,圆圈越大表示受关注越多。不同圆圈之间有箭头相连,箭头表示文献之间的引用关系。多数情况下,你会看到最上面有一个圆圈较大,并有很多箭头指向这篇文章。那么这篇文章很可能就是这个领域的开山之作。

以上就是软件的简单使用过程。

二、软件功能和基本概念
将数据导入到软件之后,文献会自动排列在软件的主界面。文献的排序方式可以按日期,可以按杂志或按作者进行排序。
文献记录的上方还有一些蓝色字体的按钮。这些词都是可以点击的,并进行相应分析。如点击authors,软件会列出所有作者,并将每位作者的文献数、引用次数等信息列出来。这些命令较容易理解,不多做介绍。
在默认窗口的有侧,有LCS、GCS、LCR、CR。下面分别解释一下这几个功能。

GCS是global citation score,即引用次数,也就是你咋web of science网站上看到的引用次数。如果你点击gcs,软件会按照GCS进行排序,此时的结果与你在wos网站按被引频次排序的结果是一样的。

CR是cited references,即文章引用的参考文献数量。如果某篇文献引用了50篇参考文献,则CR为50。这个数据通常能帮我们初步判断一下某篇文献是一般论文还是综述。

LCS和LCR是histcite里比较重要的两个参数。

LCS是local citation score的简写,即本地引用次数。与gcs相对应,gcs是总被引次数。lcs是某篇文章在当前数据库中被应用的次数。所以LCS一定是小于或等于GCS的。

一篇文章GCS很高,说明被全球科学家关注较多。但是如果一篇GCS很高,而LCS很小,说明这种关注主要来自与你不是同一领域的科学家。此时,这篇文献对你的参考意义可能不大。举个离子,2003年发表在nature上的两篇文章P1 (GCS:580,LCS:12) 和 P2(GCS:36,LCS:24)。第一篇文章gcs很高,lcs很低,说明关注这篇文章的绝大部分作者与你关注的方向不同。而第二篇文章经gcs较低,但LCS比第一批要高,即很多引用p2的文章都在当前数据库,也即与你的研究方向相关。所以,p1 p2相比,p2应该更贴近你的研究方向,参考价值更大。

在第一部分的介绍中,make graph时,默认是按LCS排序的,也可以选择按gcs排序。你可以比较一下这两者的差异,一般LCS作图,得到的关联较丰富,而gcs作图往往文献之间没什么关联。这就回答了上面开始提出的一个问题,为什么按引用频次排序往往不是很有参考价值的原因。

LCR与CR对应是local cited references,是指某篇文献引用的所有文献中,有多少篇文献在当前数据库中。如果最近有两篇文章,p1 p2,都引用了30篇参考文献,其中p1引用的30篇文献中有20篇在当前数据库,p2只有2篇文献在当前数据库。此时,p1相对更有参考价值,因为它引用了大量和你的研究相关的文献。

根据LCS可以快速定位一个领域的经典文献, LCR可以快速找出最新的文献中哪些是和自己研究方向最相关的文章。

注;引文有些不规范导致引文分析结果偏差,这里暂不做讨论。感兴趣的朋友可以参考引文相关的理论文献或书籍。

三、部分结果示例
这里选择了一个我上课的例子,和学生作业中的例子。更多示例请大家参考中科大生命科学实验中心论坛上学生提交的作业。http;//biotech.ustc.edu.cn/forum

第一个例子是关于合成生物学(synthetic biololgy),2000年之后发展起来的、并在近年广受关注的学科。在wos里以synthetic biology进行检索,2009年10月30日可以获得2297篇参考文献。下载后导入hiscite,按lCS作图;结果如下:

从第一个图可以看出704这篇文献应该是一片开创性的工作,或是一篇重要的综述。后面的1077 1134  1089这三个圆圈较大,说明这几篇文献受到广泛关注,具有较重要的地位。

图2就是相同的数据库按GCS做图得到的结果,可以看到这些文献之间没什么关联。所以在wos中,按引用频次排序,即使排在前面的文献对您也未必有多大参考价值。

图3是学生提交的作业,原作者的分析附后,基本上是正确的。

(学生作业中对上图的解释:在web of science上检索主题包含G-quadruplex和detection的文章,一共108篇,用histcite作图,该图表明有关将G-quadruplex应用于各种检测的研究工作主要从05年Nagatoishi S;发表在德国应化和He F发表在JACS上的全文开始,逐渐有大量的文章发表,而前述两篇文章的LCS是最高的,其可读性也是非常大,从09年的数据来看,对同年发表的文章的引用次数大大增加,表明该领域在09年的发展迅速。从CR的分析来说,编号为64,55,和1的几篇文章引用文献的数量非常大,应该是综述性文章,对初涉此领域的人也有较大的可读性。)

LCR分析结果

可以看出,排在前10位的都是近期非常具有参考价值的文献。

# Date / Author / Journal LCS GCS LCR CR
1 2009 Agapakis CMSilver PASynthetic biology: exploring and exploiting genetic modularitythrough the design of novel biological networksMOLECULAR BIOSYSTEMS2009; 5 (7): 704-713 0 0 29 103
2 2179 Purnick PEMWeiss RThe second wave of synthetic biology: from modules to systemsNATURE REVIEWS MOLECULAR CELL BIOLOGY2009 JUN; 10 (6): 410-422 1 3 29 126
3 2284 Weber WFussenegger MThe impact of synthetic biology on drug discoveryDRUG DISCOVERY TODAY2009 OCT; 14 (19-20): 956-963 0 0 27 72
4 1699 O’Malley MAPowell ADavies JFCalvert JKnowledge-making distinctions in synthetic biologyBIOESSAYS2008 JAN; 30 (1): 57-65 5 6 21 78
5 1969 Leonard ENielsen DSolomon KPrather KJEngineering microbes with synthetic biology frameworksTRENDS IN BIOTECHNOLOGY2008 DEC; 26 (12): 674-681 1 2 21 81
6 2165 Picataggio SPotential impact of synthetic biology on the development of microbialsystems for the production of renewable fuels and chemicalsCURRENT OPINION IN BIOTECHNOLOGY2009 JUN; 20 (3): 325-329 0 0 21 60
7 1451 Drubin DAWay JCSilver PADesigning biological systemsGENES & DEVELOPMENT2007 FEB 1; 21 (3): 242-254 20 32 20 107
8 2008 Tanouchi YPai AYou LCDecoding biological principles using gene circuitsMOLECULAR BIOSYSTEMS2009; 5 (7): 695-703 0 2 17 78
9 2184 Bhalerao KDSynthetic gene networks: the next wave in biotechnology?TRENDS IN BIOTECHNOLOGY2009 JUN; 27 (6): 368-374 0 1 16 66
10 2132 Deplazes APiecing together a puzzle An exposition of synthetic biologyEMBO REPORTS2009 MAY; 10 (5): 428-432 0 0 15 38

结语;
文献信息分析只是为我们提供了不同的视角去了解别人的工作,让我们能够更快的找到最有价值的信息,但任何分析都不能代替我们阅读文献。
如果你想了解更详细的软件使用方法,可以下载《文献管理与信息分析》课程中相应的教学录像。也可以关注我后续将推出的软件教程。

 

from: 科学网—引文分析软件histcite简介 – 罗昭锋的博文.

发表评论

电子邮件地址不会被公开。 必填项已用*标注

CAPTCHA

*