На самом деле мы не считаем пользователей, но мы учитываем запросы к каталогам, которые клиенты периодически делают, чтобы обновить свой список узлов и косвенно оцениваем количество пользователей оттуда.
Нет. Мы смотрим, какая часть управляющих серверов сообщила данные, а потом экстраполируем на всё сообщество и оцениваем общий результат.
Мы исходим из предположения, что средний клиент делает 10 подобных запросов ежедневно.
Клиент Tor, который работает круглые сутки семь дней в неделю, совершает примерно 15 запросов ежедневно. Не все клиенты работают 24/7. Поэтому мы считаем среднее число запросов равным 10.
Мы просто делим запросы на 10 и считаем результат количеством пользователей.
Есть и другой подход: мы предполагаем, что каждый запрос относится к клиенту, который находится онлайн 1/10 часть суток, то есть, 2 часа 24 минуты.
Среднее число одновременно подключившихся пользователей. Рассчитывается из данных, собранных в течение дня. Мы не можем делать утверждения о точном числе пользователей.
Нет. Узлы, которые сообщают эту статистику, сортируют запросы по странам происхождения за период в 24 часа.
Если бы мы собирали статистику о количестве пользователей в час, это были бы слишком точные данные: мы рисковали бы раскрыть наших пользователей.
Тогда мы считаем этих пользователей как одного. На самом деле, мы считаем клиентов, но большинству людей проще говорить и думать о пользователях. Поэтому мы говорим "пользователи", а не "клиенты".
Нет, поскольку такой пользователь обновляет свой список узлов так же часто, как и пользователь, который не меняет IP-адрес в течение дня.
Управляющие серверы преобразуют IP-адреса в коды стран. Эта информация собирается в обобщённом виде. (Одна из причин, по которой в комплект Tor включена база GeoIP).
Пока очень небольшое число мостов сообщает данные о транспортах или IP-версиях. По умолчанию мы считаем, что используются протокол OR и IPv4.
Чем больше мостов будет сообщать эти данные, тем аккуратнее будут значения.
Узлы и мосты сообщают некоторые данные с промежутками в 24 часа. Эти промежутки могут сменяться в любое время суток.
По окончании такого промежутка мосту может понадобиться до 18 часов, чтобы сообщить данные.
Мы отбрасываем два последних дня сознательно. Мы не хотим, чтобы в последних значениях "обнаружился" новый тренд, который фактически отражает лишь погрешность алгоритма.
Причина в следующем. Мы публикуем статистику пользователей, когда уверены, что она уже существенно не изменится.
Но всегда остается вероятность, что вскоре после публикации управляющий сервер сообщит новые данные, и это повлияет на статистику.
У нас есть архивы до 2011 года, но в них нет достаточных данных, чтобы оценить число пользователей.
Если вам нужна более подробная информация, пожалуйста, загляните в этот архив:
Tarball
Для наших непосредственных пользователей мы включаем данные всех управляющих серверов, чего не было в прошлом.
Мы также используем фрагменты данных, где содержатся только байты, отвечающие на запросы управляющих серверов. Это дает более точный результат, чем общие данные.
Это целая история. Мы написали 13-страничный технический отчет, в котором объясняется, почему мы отказались от прежнего подхода.
tl;dr: раньше мы измеряли неправильные вещи, а сейчас правильные.
У нас есть система определения цензуры на основе выявления аномалий. Эта система следит за числом пользователей на протяжении нескольких дней и предсказывает, сколько их будет в следующие дни.
Если реальное число оказывается больше или меньше, это может сигнализировать об инциденте или о начале масштабной цензуры.
Подробности можно прочесть в нашем техническом отчете.