2000万本书的奥秘

打开文本图片集

这是一个好玩到停不下来的搜索引擎。

Ngram Viewer是Google Labs和哈佛大学学者共同开发的成果，只要用这个工具进行搜索，就可以发现从公元1500年到现在的500多年里，社会的热点如何不停地切换。谷歌在2004法兰克福书展上开始启动谷歌图书馆计划，试图扫描自现代印刷术发明以来全世界所有的印刷书籍。在此基础上，通过OCR识别，建成了世界上最大的电子书数据库。谷歌图书馆计划与Google"s Partner Program 共同组建成广为人知的 Google Books。

至 2015年10月，这个项目已扫描超过2500万本书，占人类历史上所有出版书目总数的19.2%。Google 对书籍的处理不仅是扫描，还进行了数字化与数据化，通过一系列算法从万亿级别的原始数据中识别出单个的词语和短语，建成了一个语料库，这样就巧妙地避开大多数国家的版权问题。

庞大的数据库催生了一个新学科的成立——Google Ngram Viewer就是借用这个数据库开发的新工具。Ngram Viewer支持8种语言的检索，包括英语、法语、德语、意大利语、西班牙语、俄语、希伯来语、汉语，其中英语数据占到大约56%，汉语约占8%。

网友可输入至多5个不同词汇，透过Ngram Viewer显示的趋势线，观察这些词汇在不同年代出现的频率。当你输入“莎士比亚”，搜索范围设定在1500～2000年的英语书籍里，在他过世后的第92年，即1708年是“热搜”莎士比亚的最高峰，之后1930～1953年，莎翁的著作又一次受到了追捧。与莎士比亚被引用热度不分伯仲的还有福尔摩斯，这位虚构的侦探人物在1971～1979年间，成了街谈巷议的热点。维多利亚时代英国最伟大的作家狄更斯在1917～1923年期间，获得了空前的成功。那个年代大约万分之三的书籍里，都会提到狄更斯的名字，这时候距离作家因为脑溢血和写作疲劳去世，已经过去了约半个世纪。

除了可以看到数据趋勢图，原始数据还可从网页免费下载，提供给语言学家、社会学家、人类学家等作进一步的资料分析和研究。《纽约时报》将Ngram Viewer这个全新的可视化工具，称为“通向5000亿单词的文化视窗”。

数据可视化的意义

Ngram Viewer如同一个普通的搜索引擎，输入一个“关键词”，就可以查询它在书籍中出现的频率，而且可以依据年代时间线查询。在搜索栏上方的“from the corpus”里可以切换要查询哪种语言的书籍，其中支持简体中文书籍的内容统计分析。接着，可以在两个年代之间查询书籍数据，时间跨度的范围从1500年到2008年。用户最多可以设定五组关键词来对比，关键词之间用逗号分隔。

我们可以在图表里看到不同关键词在不同年代里被书籍使用的频率，这在统计分析上可以做出很多有趣的调查与申论。若是继续点击图表下方的年代链接，就可以进入Google Books服务，查询指定条件的书籍，直接找到相关图书。

参与设计项目的是来自哈佛大学的计量社会学教授让-巴蒂斯塔·米歇尔（Jean-Baptiste Michel），他因为致力于人文数据的可视化研究而被誉为“数据的艺术家”。埃雷兹·李伯曼·艾登（Erez Lieberman Aiden）是计算机科学家、生物物理学家和应用数学家，他们一直试图找到一幅展现人类文明和人文历史的“科学”画面。

“人类在漫长岁月中写了很多书，我们向他们学习的最佳方法，就是把那几百万本书全部读完。当然，这个可行性极低。人们不得不倾向于另一种做法，就是选择几本书进行精读，可行性很高，但还不够好。”当米歇尔和谷歌的数字化工程师进行交流时，他们找到了这个“既可行又很好的”方法。

自印刷机问世以来，写书的过程变得简单多了，据统计到2010年，全世界大约出版了1.29亿本图书，而这些书籍如果没有随着岁月遗失，就都在图书馆里存放着。谷歌已经将图书馆中的书籍进行了数字化，掌握了这些书籍的出版地、作者、出版时间等信息，最终筛选出了5000亿个高质量的单词。

Ngram Viewer 收录的单词或短语，需要满足一项要求：这个词组或者短语在某年出版的超过 40 本书中出现过，才会有该年该词的数据点。同时，对数据进行标准化处理，可以削弱某些年份某些书印数过多对结果的影响。当这些数据加上时间和引用比例，就转变成为一个具备XY轴的搜索服务。

据米歇尔透露，这5000亿个单词的长度连起来是人类基因组的1000倍，如果把这些单词连续写出来，长度相当于在月球和地球间来回穿梭10次以上，而这仅仅是人类“文化基因组”的小小一段。谷歌向来是分析大数据的专家，它们企图要将所有图书数字化的努力，成就了现在的Ngram Viewer。

在工作原理上，Ngram将一个句子拆分成N个连续相邻词组成的词组，从而用来猜测语言的可能性，谷歌将这个方法定义为“文化组学”。“文化组学”的方法最早出现在2010年《科学》杂志上一篇名为《使用数百万本电子书对文化进行的计量分析》的文章里，现在指的是通过电子化文本的量化分析，研究人类行为、人类活动与文化趋势的计算词典学。

这个由谷歌定义的新词，来源于“基因组学”——把人类基因作为研究对象，是生物学上观察人类基因序列组的透镜。文化组学与其非常类似，挖掘大量数字化信息，将数字化的历史记录片段作为透镜，探寻反映在语言和文字中的社会文化现象。文化组学的优点，就如同人类基因序列，“所有人都可以用上它。”

英语谚语说，“一幅画面可以抵过1000个词。”米歇尔表示，他们在邀请了来自哈佛大学、麻省理工大学、《英国大百科全书》、《美国传统英语字典》的编委后，得出了一个惊人的结论，Ngram Viewer的一幅画面抵过上亿个词。

从用字遣词发现社会趋势

Ngram Viewer已经成了一些媒体人爱不释手的玩具，美国最具影响力的商业杂志之一《快公司》比较了英语中报纸、杂志、英特网在不同年代的兴衰，结果出人意料，不管哪个年代，报纸都是最受青睐的读物，甚至在英特网风靡的时代，报纸的流行度虽然不如鼎盛时期，但还在向上攀升。此外，《快公司》还对蒸汽、电力、原子能等三种不同能源的兴衰做了比较，原子能自1945年迅速崛起，并在上世纪80年代成了最热门的能源话题。

当查找“流感”这个词时，你会看到全球范围内，1918～1920年在欧洲爆发的西班牙流感，成了人类历史上最致命的自然事件之一。在之后的几十年里，流感虽已平息，但人们的讨论从未终止，它的热度似乎不亚于一些文学畅销书。

具有160多年历史的《亚特兰大》杂志收集了一系列有趣的趋势比较，例如：在过去的200年里谁比较受欢迎，狗和猫？咖啡和茶？男性和女性？对比发现，狗受到的宠爱始终多于猫；茶的流行度始终高于咖啡，直到上世纪70年代趋势才被改变；女性在书籍里出现的概率逐渐走高，并与男性接近，性别平权的趋势非常明显。

广告从业者希望通过一些敏感词获得用户的关注度，使用Ngram Viewer也有助益。如果你想告诉大家“上帝死了”，那么该换一个说法了，自1968年这个说法达到鼎盛之后，关注度就一路下滑。但“气候变化”的热度却在飞涨，从1970年后，很多书籍里都出现了“海平面正在上升”、“全球气温升高”、“二氧化碳浓度增加”这样的词汇，比起上世纪50年代，这些词的使用增加了500倍。对广告人来说，Ngram Viewer是一个把社会热点切换成趋势的关键工具。

Ngram Viewer虽然没有公开全书的内容，但是公开了书本的相关统计数据，从而可监测人们口语表述的变化情况，搜索者还可以透过数据本身，看到数据背后的故事。在搜索英文书籍数据库时，如果检索马克·夏加尔这位定居在法国的俄裔超现实主义艺术家，是一条稳步上升的曲线，知名度越来越高。

然而在德语书籍库进行同样的检索时，你会看到非常奇怪的现象——闻所未闻。他先是名极一时，但突然之间名声直线下落，1933年到1945年间达到了低谷，后来才回升。为什么呢？原来夏加尔因为犹太人的身份，而在纳粹德国遭到了政治禁令，这幅图反映了书籍记录中的审查情况。

同样，人们从上世纪60年代就开始展望“千禧年”，到了80年代中期关注度突然飞升，人们意识到2000年快要来了，各种书籍里都在讨论，这样的讨论持续了整整十几年，而到了2008年，大家醒悟过来2000年已成往事，一场关于千禧年大讨论的泡沫就这样破裂了。

通过Ngram Viewer，美国学者阿历山大·彼得森发现了词汇的产生和消亡的生命周期临界点：在它产生30年到50年之后，要么写入字典，要么消亡。词汇的消亡速度，通常超过了新词汇的产生速度。而且，通过这些漂亮的图表也可以发现，人类对过去的遗忘速度快得惊人。

关于准确性的质疑

据参与Ngram Viewer开发的威尔·布鲁克曼（Will Brockman）和乔恩·欧文特（Jon Orwant）表示，自上线以来，这个工具每分钟的使用频率至少达到50次，用户生成的数据图表超过了4500万张，透过这些词汇，人们发现文字背后的人类社会与历史。其中，粘度非常高的用户有语言学家、历史学家、图书学家。

除了發现过去，Ngram Viewer还有预测未来的功能：在文化组学2.0的项目里，卡列夫·利塔如（Kalev Leetaru）通过分析包含印刷品和媒体信息的数据库，预测到了2011年的“阿拉伯之春”事件，并且成功地预测到了本·拉登生前的居住地，误差在124英里范围内。

但是对于这个工具的准确性，各方依然有着不一致的评价。加州大学语言学教授杰奥夫·扭恩伯格（Geoff Nunberg）发现，有很多无效的数据：出版时间、作者、类型等等。由于OCR自动识别扫描的关系，因此可能带来非常高的错误率。他在检索中搜索了美国前总统巴拉克·奥巴马的名字后，在他的出生年份之前，竟然有29条数据。不过谷歌很快就更正了这些错误。

也有评价认为，对于人名、概念热门度的评估，不能仅仅依靠在书籍中被引用的数量计算得出——这样的话，一本只被读过一次的书和被浏览过数百万次的书，具有相同的价值。这既不能反映出大家在热议什么，也无法得出出版界在关心什么。

更多的评价则认为，Ngram Viewer建立在谷歌图书馆计划扫描的图书基础之上，但是没有人知道，谷歌是如何选择和获取这占到人类出版史约19.2%的图书的。不确定是否会有系统性的选择偏差，也不确定图书的幸存者偏差有多严重，故而这些图表得出的结论，并不能随意外推。

圣迭戈州立大学的心理学家吉斯曾经使用Ngram作为工具研究自恋，但他提醒“小心倒洗澡水的时候，把孩子一起倒掉”。因为这个工具的缺陷，在于无法衡量某一类著作在数量上的变化。比如一段时间“秋天”这个词语的使用变少了，很难真正说清楚，到底是对秋天感兴趣的人变少了，还是因为和“秋天”无关的词汇变多了？

也有学者认为这个工具没有将动词、名词、形容词等做出有效区分，例如“Cheer”既可以是动词，也可以是名词。但在斯拉夫·比特罗夫（Slav Petrov）领导的谷歌自然语言处理小组的带领下，弥补了这个缺陷，目前可以区分出这两个不同类型词语的频度。

除此之外，目前Ngram Viewer收录的数据还有一定滞后性和片面性——与Google Trends的高度实时性不同，图书的滞后性较长，只能在比较大的尺度上看趋势变化。数据库的内容完全来自出版图书，而不包括未出版图书或其他形式的文字，也不包括正在以指数级增长的网络和电子信息。

由于英文图书占到了数据库的56%，而汉字书籍仅占其中的8%，英语的语料库最大，且英语在最近几百年来的图书中的使用率总体看来看是最广的，比较能够反映真实世界的一些变化。

对汉语检索的结果，需要更加谨慎的解读。一方面是因为中文里，单词和字符的概念是模糊的，如果分词不当，就很难在Ngram Viewer里找到了。另一方面，汉语在不同时期，语义、用法和拼写的差别比较大，文言文和现代汉语很多时候很难进行比较。而且Ngram Viewer目前只支持简体中文的搜索，这也限制了对1950年前繁体汉字的搜索能力，不过近几十年的汉语数据分析结果还是具有较高的可信度。

对此，项目发起人之一的艾登教授认为，Ngram Viewer和很多科学计量工具一样，都存在着缺陷，但并不影响它的受欢迎程度，一个世纪以前，研究人员梦寐以求这个工具，现在它终于上线了，并不断改进着。

推荐访问:本书奥秘