注:
这个小研究仍在进行中,后期可能会有删改。
欢迎参与,源代码 https://github.com/tsai1993/aisixiang,原始数据 http://pan.baidu.com/s/1dFy5bXJ。
对中国政治审查的研究,最知名的应该是 Gary King1。Gary King 和他的团队在 1400 个社交媒体平台部署了各类议题的帖子,然后长期跟踪这些帖文的删除情况,利用文本分析的方法,在对 85 个议题的分析中发现,对政府的批评不太可能被删贴处理,相反,任何有可能促使社会运动的言论才是删除的重点,审查制度主要服务于预测并消除群体性事件。Gary King 利用大数据做因果分析,开创了一个新的研究范式。
在对 爱思想网 的观察中,意外发现爱思想网有全部文章目录,其全部文章的点击排行 (http://www.aisixiang.com/toplist/index.php?id=1&period=all) 中包含全部文章目录。因此,可以通过定期抓取全部文章目录,对比不同时间点的文章列表,可以知道文章的增删情况。
此外,爱思想网部分文章仅对会员可见,可以对比分析全部可见与仅会员可见和删文的性质,来分析哪类文章更可能被删除。
通过在云服务器部署爬虫,最终得到 2017 年 1 月 20 日、5 月 24 日和 6 月 10 日的全部文章列表,1 月 20 日、5 月 24 日的仅会员可见文章列表,1 月 20 日 99539 篇全部可见文章,5 月 24 日 100946 篇全部可见文章和 528 篇会员可见文章。
爱思想网自称成立于 2010 年 1 月,但其前身为燕南网、天益网,真正历史源头远早于此。网站上最早的一篇文章是于 2000 年 6 月 22 日发布的辛岛静态的《关于汉译佛典的研究——语言、方法及文献学问题》。爱思想网的定位,“终身学习平台和思想门户,致力于传播常识、追求真知、分享资讯,旨在推动学术繁荣、塑造社会精神”。
通过分析网站作者,发现爱思想网的作者绝大部分是大学教授以及公共知识分子。爱思想网与社交媒体不同,社交媒体人人可以发言,但是爱思想网是编辑约稿,设置学者专栏和栏目分类的模式,具有较高的门槛。比较发文数量前 20 名的作者,发现他们全部为大学教授,并且经常做公共发言。
数量排名 | 作者 | 文章数量 |
---|---|---|
1 | 张鸣 | 772 |
2 | 郑永年 | 554 |
3 | 徐贲 | 453 |
4 | 傅国涌 | 414 |
5 | 周其仁 | 396 |
6 | 信力建 | 389 |
7 | 杨恒均 | 385 |
8 | 秋风 | 377 |
9 | 张千帆 | 336 |
10 | 鲍盛刚 | 322 |
11 | 陈行之 | 313 |
12 | 雷颐 | 308 |
13 | 秦晖 | 279 |
14 | 吴敬琏 | 268 |
15 | 戴建业 | 260 |
16 | 高一飞 | 257 |
17 | 田飞龙 | 250 |
18 | 吴稼祥 | 244 |
19 | 陶东风 | 239 |
20 | 于建嵘 | 238 |
因此,不同于 Gary King 对普通社交媒体平台的研究,爱思想网有不同的模式。它的内容主要是学者学术研究的公共发布,以及其他社会议题的公共讨论。网站主要刊登的是学者的学术研究和公共讨论,其篇幅都较长,比一般社交媒体要更为严肃。
爱思想网的每一篇文章均有一个独特ID,如“于建嵘:中国农村的政治危机:表现、根源和对策”,其 ID 807,地址为 http://www.aisixiang.com/data/807.html。通过对比文章ID与发布时间,可以发现,除了早期的ID与时间不统一之外,文章ID是按照线性增长。
因此,可以根据全部文章数量与最大 ID 的比值,计算出全部删除文章的比例。经计算,2017 年 1 月 20 日、5 月 24 日和 6 月 10 日,删除比例分别为 3.24%、 3.37% 和 3.40%。
通过对比消失的ID,可以得到历年删文的水平。2017 年 6 月 10 日,全网 共有 101050 篇文章,但最大的 ID 为 104612,有 3563 篇文章消失了。为了得到各年删文数量情况,将消失的 ID 数字加 10,作为被删文章的发布时间估计。发现新的 ID 中有 3335 篇文章有对应数据,得到历年全网文章和被删文章情况如下。
由上图可知,除了 2017 年只有半年数据外,2008 年相较于 2007 年,文章数量上有巨大的增长。而最大的增长来自于 2011 年,相较于 2010 年,几乎翻倍。2015 年在文章数量上,增长超过五分之一,但是相应的删文数量也创新高。而 2016 年的发文数量回落到 2008-2010 年的水平。此外,还可以发现,2017 年已经过半,但是文章数量仅有 2016 年的三分之一左右。
在 2017 年 1 月 20 日的 99539 篇全部可见文章中有 112 篇文章没有出现在 2017 年 6 月 10 日的文章列表里(截至到 6 月 10 日,有 3562 篇文章被删除)。分析在这五个月中被删的 112 篇文章,发现有 33 篇文章在当时就属于仅会员可见,占到被删除文章的 29.5%,而仅会员可见文章一共只有 528 篇,只占全部文章的 0.52%。因此,有理由认为,仅会员可见是网站的自我保护的行为,同时,也可以理解成网站的一种自我审查。
排名 | 作者 | 被删文章数量 | 总数量(20170120) |
---|---|---|---|
1 | 左春和 | 30 | 30 |
2 | 崔卫平 | 12 | 222 |
3 | 吴万伟 | 6 | 191 |
4 | 李昌庚 | 4 | 51 |
5 | 傅国涌 | 3 | 417 |
6 | 嵇立群 | 3 | 10 |
7 | 陈有西 | 2 | 34 |
分析这 112 篇文章的作者,除去只出现一次的作者,一共只有七人,其中左春和的 30 篇文章悉数删除。搜索后发现是该作者在微博发表言论后被撤职并且遭到封杀,这是属于典型的对人不对言。
而排名第二的崔卫平,截至 2017 年 1 月 20 日,在整个爱思想网发文 222篇,被删除的 12 篇文章,均是有关后极权主义、哈维尔和米奇尼克。傅国涌的三篇文章也都是关于米奇尼克。显然,这是明显的对言不对人,有关极权主义的文章显然挑起了当局的敏感神经。
而排名第三的吴万伟的几篇文章均是关于自杀、道德哲学等主题,而吴万伟在整个爱思想网的发文和译文超过 191 篇,也是一个明显的对言不对人。
排名第四的李昌庚,主题涉及到土地产权、国企改革和社会转型,他在整个爱思想网发文 51 篇。余下暂不赘述。
从这个简单的分析中可以看出来,学者文章被删,有两个主要类别,一是“对人不对言”,是针对作者的封杀;二是“对言不对人”,当作者触及到某些议题,就有可能会被删除。至于是哪些议题,除了反极权等当局比较敏感的议题外,其他诸如道德哲学、社会转型、土地改革等,也会被删文。与 Gary King 在社交媒体中的发现不同,这些偏学术、严肃讨论的文章,并没有任何引发社会运动的因素,相反,有关意识形态、改革和无厘头的主题更容易被删文。
仅会员可见是网站的一种自我保护,可以看一下仅会员可见文章的点击量与全部可见文章的差异。
分析发现,从总体上说,仅会员可见的文章平均点击量是全部可见文章的 1.9 倍,可见仅会员可见文章的总体水平是高于平均值的。
2017 年 5 月 24 日,有 528 篇会员可见文章,截至到 6 月 11 日抓取数据时有 5 篇文章已经被删除。在余下的 523 篇文章中,利用 jiebaR 软件包,读取全文,去除空格和空白行后,提取每篇文章的 10 个关键词,进行词频统计,获取超过 10 次以上的关键词。
在 2017 年 5 月 24 日的 100415 篇全部可见文章中的未删除文章中,随机抽取 523 篇,每篇文章同样提取 10 个关键词,进行词频统计,获取超过10次以上的关键词。
将两类关键词相减,得到每个关键词的净频次。
净频次前十的关键词分别是,毛泽东,文革,政治,民主,宪政,共产党,自由,事件,中共,人民;净频次后十的关键词分别是,发展、美国、研究、经济、法律、法治、日本、企业、世界、传统。分析这些会员可见文章的关键词,可以发现,历史领袖人物评价、改革、历史、文革、自由、宪政等等议题更可能成为会员可见内容。因此,意识形态仍然是严肃学术讨论中的禁区,这与Gary King有关社交媒体平台的审查截然不同。
King, Gary, Jennifer Pan, and Margaret E. Roberts. “How censorship in China allows government criticism but silences collective expression.” American Political Science Review 107.02 (2013): 326-343. ↩