“大概近似正确”的评价

2015/1/23   点击数:3164

[作者] 武夷山的博客

[单位] 中国科技信息研究所,南京大学信息管理系

[摘要] 比利时情报学家、国际科学计量学与信息计量学学会会长罗纳尔德.鲁索教授有一篇已被JASIST接受的稿件,题目是 Citation data as a proxy for quality or scientific influence are at best PAC (Probably Approximately Correct)(作为质量或科学影响力替代指标的引文数据充其量是大概近似正确的)。文章主要意思如下。

[关键词]  大概近似正确 科研评价 计量学



比利时情报学家、国际科学计量学与信息计量学学会会长罗纳尔德.鲁索教授有一篇已被JASIST接受的稿件,题目是 Citation data as a proxy for quality or scientific influence are at best PAC (Probably Approximately Correct)(作为质量或科学影响力替代指标的引文数据充其量是大概近似正确的)。文章主要意思如下。

Leslie Valiant是国际数学联合会设立的Nevanlinna奖得主,也是图灵奖得主。他1984年提出过一个概念叫Probably Approximately Correct (PAC),意为“大概近似正确”。2013年,他又在Basic Books出版社发表了专著,书名就是Probably Approximately Correct(大概近似正确)。

PAC最先指的是ecorithms算法的特点,ecorithms算法能够在算法设计者不了解、不熟悉的环境下运行,通过与环境的交互而学习。这种学习模式不可能是完善的,只能是“大概近似正确”的。

Valiant 用猜测弹珠颜色的例子来说明PAC。罐子里放了不止一种颜色的弹珠,让我们随机抽取一个,然后判断罐子里的其他弹珠是什么颜色的。这时我们可能犯两种错误。碰巧抽到一个罕见色的弹珠,我们以为其他弹珠也是这个颜色,而不知道多数弹珠其实是别的颜色(这就涉及到PAC 的概率部分、“大概”部分);抽到一个“大众”色的弹珠,我们就失去了接触罕见色弹珠的机会,以为所有弹珠都是这个颜色(这就涉及到PAC的近似部分)。但多数情况下,我们还是能正确猜到多数弹珠的颜色。

鲁索认为,除了Valiant讨论的上述两种错误原因(偶然性、罕见性)外,还可能有其他三种错误根源。第一,我们采用的理论自身只是近似的。例如,牛顿物理学是近似的,它只是爱因斯坦物理学的一个特例。第二,算法有时会得出错误的结果。例如,我们寻求全局的优化,而优化算法在找到一个局部最优点后就陷在那里出不来了。第三,数据可能不对。由于我们的感官或仪器的局限性,我们获得的信息只能是近似正确的。

在基于指标的科研评价中,上述5种错误源都存在。第一种是偶然性。我们从数据库中随机抽出的样本真的能反映全体吗?更别说,一个数据库收录哪些期刊,剔除哪些期刊,也受偶然因素影响。第二种是罕见性。例如,真正创新的理念仿佛“横空出世”,往往被多数专家认为是错误的,即它们在早期获得的是负面评价。Kao(高锟)和 Hockham于 1966年发表的关于光频率介质纤维表面波导的论文一开始的遭遇就是这样。第三,理论自身可能有错误。例如,科学计量学领域的同被引分析是1998年提出的,那时,同被引分析的一个步骤,是用皮尔逊相关系数来测度相似性,直到2003年,人们才指出这是错误的。第四,算法出错。引文只是质量的替代指标,而人们经常用引文指标作为评价算法的输出变量,有时候就会得出错误的结果,比如,Bouyssou & Marchant于2011发表的文章, Waltman & van Eck于 2012年发表的文章,都指出了h指数的一些问题。第五,数据库的错误。这一点大家都理解。

总之,在科研评价中,应该将文献计量学数据和指标作为同行评议过程的输入。这种输入值几乎不可能是100%正确的,但或许足够接近真实情况,于是评价者仍可适当地利用之。目前的情况,科研评价其实处于无理论指导的框架之中,在此框架中,专家仍能应对,仍能做出足够理性的决策。

鲁索最后引用美国情报学家、JASIST现任主编Blaise Cronin的话:“在实践中,近似的测度(而不是完善的测度)就足够了,且只能如此”。

博主:感谢鲁索教授分享其刚刚被接受的论文。

原文连接:http://blog.sciencenet.cn/home.php?mod=space&uid=1557&do=blog&id=861961