最近看到一篇论文,作者利用微博关键词出现的频率来预测空气污染的状况并认为来自社交媒体的数据能为环境监测提供更多的细节。这个想法很不错,但其实抛开文章的视角,微博的文本分析技术上实现并不困难,下面以齐普夫定律的验证做一个展示。

首先找一个开源的微博语料库,我找到的是NLPIR微博内容语料库,里面有23万条微博内容。然后从里面提取词汇与词频,目的是用来验证下文献计量学中的齐普夫定律,也就是发现字词的使用次数(f)与字词的使次数排名(r)之乘积,会等于常数C。

上图来自维基百科

<h2 …