← Home

基于爱思想网窥视网络审查

注:

  1. 这个小研究仍在进行中,后期可能会有删改。

  2. 欢迎参与,源代码 https://github.com/tsai1993/aisixiang,原始数据 http://pan.baidu.com/s/1dFy5bXJ

对中国政治审查的研究,最知名的应该是 Gary King1。Gary King 和他的团队在 1400 个社交媒体平台部署了各类议题的帖子,然后长期跟踪这些帖文的删除情况,利用文本分析的方法,在对 85 个议题的分析中发现,对政府的批评不太可能被删贴处理,相反,任何有可能促使社会运动的言论才是删除的重点,审查制度主要服务于预测并消除群体性事件。Gary King 利用大数据做因果分析,开创了一个新的研究范式。

研究方法

在对 爱思想网 的观察中,意外发现爱思想网有全部文章目录,其全部文章的点击排行 (http://www.aisixiang.com/toplist/index.php?id=1&period=all) 中包含全部文章目录。因此,可以通过定期抓取全部文章目录,对比不同时间点的文章列表,可以知道文章的增删情况。

此外,爱思想网部分文章仅对会员可见,可以对比分析全部可见与仅会员可见和删文的性质,来分析哪类文章更可能被删除。

通过在云服务器部署爬虫,最终得到 2017 年 1 月 20 日、5 月 24 日和 6 月 10 日的全部文章列表,1 月 20 日、5 月 24 日的仅会员可见文章列表,1 月 20 日 99539 篇全部可见文章,5 月 24 日 100946 篇全部可见文章和 528 篇会员可见文章。

爱思想网简介

爱思想网自称成立于 2010 年 1 月,但其前身为燕南网、天益网,真正历史源头远早于此。网站上最早的一篇文章是于 2000 年 6 月 22 日发布的辛岛静态的《关于汉译佛典的研究——语言、方法及文献学问题》。爱思想网的定位,“终身学习平台和思想门户,致力于传播常识、追求真知、分享资讯,旨在推动学术繁荣、塑造社会精神”。

通过分析网站作者,发现爱思想网的作者绝大部分是大学教授以及公共知识分子。爱思想网与社交媒体不同,社交媒体人人可以发言,但是爱思想网是编辑约稿,设置学者专栏和栏目分类的模式,具有较高的门槛。比较发文数量前 20 名的作者,发现他们全部为大学教授,并且经常做公共发言。

数量排名 作者 文章数量
1 张鸣 772
2 郑永年 554
3 徐贲 453
4 傅国涌 414
5 周其仁 396
6 信力建 389
7 杨恒均 385
8 秋风 377
9 张千帆 336
10 鲍盛刚 322
11 陈行之 313
12 雷颐 308
13 秦晖 279
14 吴敬琏 268
15 戴建业 260
16 高一飞 257
17 田飞龙 250
18 吴稼祥 244
19 陶东风 239
20 于建嵘 238

因此,不同于 Gary King 对普通社交媒体平台的研究,爱思想网有不同的模式。它的内容主要是学者学术研究的公共发布,以及其他社会议题的公共讨论。网站主要刊登的是学者的学术研究和公共讨论,其篇幅都较长,比一般社交媒体要更为严肃。

审查总体规模

爱思想网的每一篇文章均有一个独特ID,如“于建嵘:中国农村的政治危机:表现、根源和对策”,其 ID 807,地址为 http://www.aisixiang.com/data/807.html。通过对比文章ID与发布时间,可以发现,除了早期的ID与时间不统一之外,文章ID是按照线性增长。

01.png

因此,可以根据全部文章数量与最大 ID 的比值,计算出全部删除文章的比例。经计算,2017 年 1 月 20 日、5 月 24 日和 6 月 10 日,删除比例分别为 3.24%、 3.37% 和 3.40%。

历年删文分布

通过对比消失的ID,可以得到历年删文的水平。2017 年 6 月 10 日,全网 共有 101050 篇文章,但最大的 ID 为 104612,有 3563 篇文章消失了。为了得到各年删文数量情况,将消失的 ID 数字加 10,作为被删文章的发布时间估计。发现新的 ID 中有 3335 篇文章有对应数据,得到历年全网文章和被删文章情况如下。

02.png

由上图可知,除了 2017 年只有半年数据外,2008 年相较于 2007 年,文章数量上有巨大的增长。而最大的增长来自于 2011 年,相较于 2010 年,几乎翻倍。2015 年在文章数量上,增长超过五分之一,但是相应的删文数量也创新高。而 2016 年的发文数量回落到 2008-2010 年的水平。此外,还可以发现,2017 年已经过半,但是文章数量仅有 2016 年的三分之一左右。

被删文章内容分析

在 2017 年 1 月 20 日的 99539 篇全部可见文章中有 112 篇文章没有出现在 2017 年 6 月 10 日的文章列表里(截至到 6 月 10 日,有 3562 篇文章被删除)。分析在这五个月中被删的 112 篇文章,发现有 33 篇文章在当时就属于仅会员可见,占到被删除文章的 29.5%,而仅会员可见文章一共只有 528 篇,只占全部文章的 0.52%。因此,有理由认为,仅会员可见是网站的自我保护的行为,同时,也可以理解成网站的一种自我审查。

排名 作者 被删文章数量 总数量(20170120)
1 左春和 30 30
2 崔卫平 12 222
3 吴万伟 6 191
4 李昌庚 4 51
5 傅国涌 3 417
6 嵇立群 3 10
7 陈有西 2 34

分析这 112 篇文章的作者,除去只出现一次的作者,一共只有七人,其中左春和的 30 篇文章悉数删除。搜索后发现是该作者在微博发表言论后被撤职并且遭到封杀,这是属于典型的对人不对言。

而排名第二的崔卫平,截至 2017 年 1 月 20 日,在整个爱思想网发文 222篇,被删除的 12 篇文章,均是有关后极权主义、哈维尔和米奇尼克。傅国涌的三篇文章也都是关于米奇尼克。显然,这是明显的对言不对人,有关极权主义的文章显然挑起了当局的敏感神经。

而排名第三的吴万伟的几篇文章均是关于自杀、道德哲学等主题,而吴万伟在整个爱思想网的发文和译文超过 191 篇,也是一个明显的对言不对人。

排名第四的李昌庚,主题涉及到土地产权、国企改革和社会转型,他在整个爱思想网发文 51 篇。余下暂不赘述。

从这个简单的分析中可以看出来,学者文章被删,有两个主要类别,一是“对人不对言”,是针对作者的封杀;二是“对言不对人”,当作者触及到某些议题,就有可能会被删除。至于是哪些议题,除了反极权等当局比较敏感的议题外,其他诸如道德哲学、社会转型、土地改革等,也会被删文。与 Gary King 在社交媒体中的发现不同,这些偏学术、严肃讨论的文章,并没有任何引发社会运动的因素,相反,有关意识形态、改革和无厘头的主题更容易被删文。

仅会员可见文章分析

仅会员可见是网站的一种自我保护,可以看一下仅会员可见文章的点击量与全部可见文章的差异。

04.png

分析发现,从总体上说,仅会员可见的文章平均点击量是全部可见文章的 1.9 倍,可见仅会员可见文章的总体水平是高于平均值的。

2017 年 5 月 24 日,有 528 篇会员可见文章,截至到 6 月 11 日抓取数据时有 5 篇文章已经被删除。在余下的 523 篇文章中,利用 jiebaR 软件包,读取全文,去除空格和空白行后,提取每篇文章的 10 个关键词,进行词频统计,获取超过 10 次以上的关键词。

在 2017 年 5 月 24 日的 100415 篇全部可见文章中的未删除文章中,随机抽取 523 篇,每篇文章同样提取 10 个关键词,进行词频统计,获取超过10次以上的关键词。

将两类关键词相减,得到每个关键词的净频次。

03.png

净频次前十的关键词分别是,毛泽东,文革,政治,民主,宪政,共产党,自由,事件,中共,人民;净频次后十的关键词分别是,发展、美国、研究、经济、法律、法治、日本、企业、世界、传统。分析这些会员可见文章的关键词,可以发现,历史领袖人物评价、改革、历史、文革、自由、宪政等等议题更可能成为会员可见内容。因此,意识形态仍然是严肃学术讨论中的禁区,这与Gary King有关社交媒体平台的审查截然不同。

参考文献

  1. King, Gary, Jennifer Pan, and Margaret E. Roberts. “How censorship in China allows government criticism but silences collective expression.” American Political Science Review 107.02 (2013): 326-343.