Tor Metrics

实际上,我们计算的不是用户数量,而是客户端为了更新中继列表定期向目录发出的请求,然后根据这些请求,间接估计用户数量。

不是,我们可以看到哪一部分目录报告了这些数字,然后推断出网络中的总数量。

我们假设客户端平均每天发出 10 个这样的请求。 一个 24/7 保持连接的 tor 客户端,每天大约发出 15 个请求,但并并非所有客户端都是 24/7 连接的,于是我们选择 10 作为客户端平均值。 只要将目录请求除以 10 ,结果就是用户数量。 另一种方法是,假设每个请求代表一个客户端一天中有十分之一的时间在线,即 2 小时 24 分钟。

并发用户平均数,根据一天内收集的数据估计的。我们无法区分有多少不同的用户。

没有,报告这些统计数据的中继,以24小时为周期将请求按来源国进行汇总。 每小时用户数量需要的统计数据,过于详细,可能将用户置于风险之中。

那就把这些用户算作一个。我们计算的其实是客户端,但对大多数人来说,用户更为直观,所用我们说用户而不说客户端。

目录将 IP 地址解析为国家代码,并以汇总形式报告这些数字。 这也是 tor 为什么会有GeoIP 数据库的原因之一。

很少网桥报告关于传输或 IP 版本的数据。在默认情况下,我们认为请求使用默认的 OR 协议和 IPv4。 一旦更多的网桥报告这些数据,数字将变得更加准确。

中继和网桥以24小时的时间间隔报告一些数据,这些数据可能在一天中的任何时间结束。
而在这样的时间间隔结束后,中继和网桥可能还需要18个小时来报告数据。
我们从图表中把最后两天的数据删掉,因为我们想避最后一个数据点表明的最近趋势变化,实际上只是算法的一个伪命题。

原因是,一旦我们有足够的信心,认为用户数字不会再有明显变化,我们就会公布用户数字。 但是,数据发布几个小时后,又有目录报告数据,总是有可能发生这种事,所以图表会略有变化。

我们确实有在此之前的描述符档案,但这些描述符并不包含用来估计用户数量的所有数据。 请从 tarball 中获得更多内容:

Tarball

对于直接连接用户,我们包括了所有的目录,旧方法则没有。 我们还使用了只包含为回答目录请求而写入的字节记录,而这比使用一般的字节记录更精确。

那就说来话长了。我们写了 13 页的技术报告来淘汰旧方法的原因。
长话短说:在旧方法中,我们测量的是错误的对象,而现在我们测量的是正确的对象。

我们运行基于异常情况的审查检测系统,该系统查看几天内的估计用户数量,并预测未来几天的用户数量。 如果实际数字较高或较低,可能表明有审查事件审查放松。 更多详情,请阅读技术报告