,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,信息计量学,郑 重,第五章 齐普夫定律,1,5.1 齐普夫定律的形成(I),争论对象:词频,即某一个单词在文章或讲话中消失的次数。“相对次数”或“确定次数”,“齐普夫定律”“文献中的词频分布规律”,1932年,哈佛大学的语言学专家齐普夫在争论英文单词消失的频率时,觉察假设把单词消失的频率按由大到小的挨次排列,则每个单词消失的频率与它的名次的常数次幂存在简洁的反比关系,这种分布就称为齐普夫定律。,它说明在英语单词中,只有极少数的词被常常使用,而绝大多数词很少被使用。实际上,包括汉语在内的很多国家的语言都有这种特点。,2,乔治齐普夫(George Zipf)指出,使用最多的英语单词“the”占到了人们全部会话量的7%,排名其次的“of”的使用频率正好是“the”的一半,依此类推,第100个最常用单词的使用频率是“the”的百分之一。齐普夫定律示意,在任何序列中,后继者的价值会定量地削减。,3,早期争论:,1898年,德,编写了世界上第一部频率词典 德语频率词典;,5.1 齐普夫定律的形成(II),两个数量指标:“词的降序序号r”和“词频nr”,1916年,法 J.Estoup,觉察了在较长的文章中“词频nr”和“词序r”之间存在肯定的规律;,rnr=K K为常数,1928年,美 E.Condon,觉察了“词的相对频率fr”和“词序r”满足以下关系;,fr=Cr-1 fr=nr/N,C为常数吗?,4,汤姆索耶中的齐夫定律 Zipfs Law in Tom Sawye,单词word 频率Freq.(f)排名Rank(r)f rthe 3332 13332and 2972 25944a 1775 35235he 877 10 8770but 410 20 8400be 294 30 8820there 222 40 8880one 172 50 8600about 158 60 9480never 124 80 9920Oh 116 90 10440,5,5.1 齐普夫定律的形成(III),齐普夫(George Kingslye Zipf)的争论:,1935年,出版动态语言学导论,对词频分布规律进展了系统争论,初步确立了“齐普夫定律”。,1949年,出版人类行为与最省力法则人类生态学引论,系统论述了“最省力法则”,奠定了“齐普夫定律”的理论根底,标志着该定律正式形成。,争论样本:MHanley为 Ulysses 所编撰的频率词典。,6,5.2 齐普夫定律的根本内容,5.2.1 齐普夫第肯定律,5.2.2 朱斯的双参数公式,7,5.2.1 齐普夫第肯定律(I),文字表述:设有一篇文献包含N个词N5000,统计其中每个词消失的频次Fr,依据频次递减的挨次排列,并用自然数给这些词编上等级序号rLr 1,则:Frr=C 齐普夫公式一,或者 fr=cr-1 齐普夫公式二,其中:fr=Fr/N,c=C/N,参数c的性质:,c,等于“最高频词的相对频率”;,一个与文献性质有关的参数,且,0,C,0.1,。,由 可得:;,8,5.2.1 齐普夫第肯定律(II),图像:,“齐普夫分布曲线”:负幂曲线双曲线,“齐普夫分布对数曲线”:直线斜率为-1,9,5.2.2 朱斯的双参数公式,1936年,美 M.Joos,对“齐普夫公式”进展修正,提出了“双参数词频分布公式”:b0,“齐普夫公式”是“朱斯公式”的一种特殊状况。b=1,10,5.3 齐普夫定律的机理分析(I),最省力法则the Principle of Least Effort,定义:一个人在解决面临的问题时,将尽量使自己付出的“,力,”最小。,根本性质:,“力”而是一种多种因素共同作用的总体代价,与问题的具体状况有关。,“最省力”是带有主观涵义的,与决策主体有关。,在各种人为选择中,人们都自觉或不自觉地共同遵循“最省力法则”。,其他名称:,最小功原则、最小努力原则、,11,他认为,在语言沟通过程中,“省力法则”同时表达在说话人和听话人身上。,说话人希望组成语言的词少,而且一词多义,以节省其精力。,听话人认为最好是一词一义,使听到的词与其准确涵义简洁匹配,削减他理解的功夫。,这2种节省精力的倾向最终平衡的结果,便是词频的双曲线型分布。,12,5.3 齐普夫定律的机理分析(II),“最省力法则”与“词频分布规律”,“作者”,“读者”,“单一化的力”:只用一个词就可以表达全部概念为“最省力”;,“,多样化的力,”:每个概念都用一个不同的词来表达为“最省力”;,在“单一化的力”和“多样化的力”的共同作用下,文献中的词频分布满足“齐普夫分布规律”。,13,5.4 齐普夫定律的应用(I),信息治理领域:,图书馆学、情报学、文献学、科技治理等。,其他社会科学领域:,语言学、科学学、经济学、社会学等。,在文献标引和词表编制中的应用;,在情报检索中的应用;,在科学评价中的应用。,14,5.4 齐普夫定律的应用(II),在,文献标引和词表编制,中的应用,词表编制,依据齐普夫定律,可以使词表的编制有规律可循并建立在科学方法的根底之上,把词汇掌握在一个恰当的范围,从而提高词表的质量。,自动标引,定义:用计算机处理原文信息,将待处理的原文输入系统后,通过程序掌握对每个词的频率进展统计分析,筛选出适于标引的词进展标引;或者与一个特定的分类体系比较,进展分类处理。,1958年,美,提出了基于“词频统计”的自动标引方法:,依据齐普夫定律,可以选用词频适当、功能较强、最能代表文献内容的词来进展标引。,15,5.4 齐普夫定律的应用(III),在,情报检索,中的应用,倒排档inverted file:把文献记录中一切可检字段或属性值抽出,依据某种挨次重新加以组织后所得到的一种文档。,依据齐普夫定律,可以估算文献数据库所需的存储量,使得“倒排档”的建立有规律可循,从而更合理地组织情报检索文档。,16,5.4 齐普夫定律的应用(IV),在,科学评价,中的应用,依据齐普夫定律,通过词频分析方法,来分析一个学科领域的争论现状和将来的进展方向。,实例:,1、加拿大蒙特利尔大学的纳米科技争论与进展报告课本p152,2、2023年国内外情报学进展动向分析课本p154,17,5 齐普夫定律,5.1 齐普夫定律的形成,5.2 齐普夫定律的根本内容,5.3 齐普夫定律的机理分析,5.4 齐普夫定律的应用,18,案例争论,Twitter是国外的一个社交网络及微博客效劳的网站,它利用无线网络,有线网络,通信技术,进展即时通讯,是微博客的典型应用。它允许用户将自己的最新动态和想法以短信息的形式发送给手机和共性化网站群,而不仅仅是发送给个人。2023年,博客技术先驱blogger 创始人埃文威廉姆斯(Evan Williams)创立的新兴公司Obvious推出了大围脖效劳。在最初阶段,这项效劳只是用于向好友的手机发送文本信息。2023年底,Obvious对效劳进展了升级,用户无需输入自己的手机号码,而可以通过即时信息效劳和共性化Twitter网站接收和发送信息。,19,梅特卡夫定律,网络的有用性价值随着用户数量的平方数增加而增加。换句话说,某种网络,比方 的价值随着使用用户数量的增加而增加。,“150定律邓巴数字”,该定律指出,人类智力将允许人类拥有稳定社交网络的人数是148人,四舍五入大约是150人。该定律由罗宾邓巴Robin Dunbar提出,罗宾邓巴是英国牛津大学的一名人类学家。罗宾邓巴是依据猿猴的智力与社交网络推断出该定律的。,20,齐普夫定律和邓巴“150定律”都是经过验证的理论,它们提醒出Twitter的网络价值并不是230万用户的平方数。更准确地说,Twitter是由小规模的不同人群组成的,它们之间存在着对其相互影响的隔膜和限制。而这对投资者和商家是至关重要的,由于它会在任一社交网络中对其内部通信传播产生强大掣肘。,21,