Насправді ми не рахуємо користувачів безпосередньо, але ми підраховуємо запити до керівних серверів, що їх клієнти періодично роблять для оновлення своїх списків ретрансляторів та оцінюємо кількість користувачів опосередковано звідти.
Ні, але ми можемо побачити, яка частина керівних серверів повідомила дані, а потім ми можемо екстраполювати загальну кількість у мережі.
Ми беремо за припущення, що середній клієнт робить 10 таких запитів на день.
Клієнт tor, який підключений 24/7, робить близько 15 запитів на день, але не всі клієнти підключені 24/7, тому ми вибрали число 10 за середньостатистичну цифру.
Ми просто ділимо запити на 10 і розглядаємо результат як кількість користувачів.
Інший погляд на це полягає в тому, що ми припускаємо, що кожен запит представляє клієнта, який залишається онлайн протягом однієї десятої доби, тобто 2 години 24 хвилини.
Середня кількість одночасних користувачів, розрахована на основі даних, зібраних за день. Ми не можемо сказати, скільки є окремих користувачів.
Ні, ретранслятори, що повідомляють цю статистику, об'єднують запити за країною походження за період 24 годин.
Статистичні дані, які нам потрібно було б зібрати щодо кількості користувачів за годину, були б занадто детальними й могли б поставити користувачів під загрозу.
Тоді ми враховуємо цих користувачів як одного. Ми дійсно рахуємо клієнтів, але для більшості людей інтуїтивніше думати про користувачів, тому ми говоримо про користувачів, а не про клієнтів.
Ні, тому що цей користувач оновлює свій список ретрансляторів так само часто, як користувач, який не змінює IP-адресу протягом дня.
Керівні сервери перетворюють IP-адреси на коди країн та повідомляють ці номери у зведеній формі. Це одна з причин, чому tor постачається з базою даних GeoIP.
Ще дуже мало мостів повідомляють дані про передавачі або версії IP, і за замовчуванням ми припускаємо, що усі запити використовують стандартний протокол OR та IPv4.
Щойно більше мостів повідомлять ці дані, цифри стануть точнішими.
Ретранслятори та мости повідомляють деякі дані з 24-годинними інтервалами, які можуть закінчитися в будь-який час доби.
І після того, як такий інтервал закінчиться, ретранслятори та мости можуть передавати дані ще 18 годин.
Ми відрізали останні два дні від графіків, тому що хочемо уникнути того, щоб остання точка даних на графіку вказувала на нещодавню зміну тенденції, яка насправді є лише артефактом алгоритму.
Причина в тому, що ми публікуємо дані про кількість користувачів, коли ми достатньо впевнені, що вона більше суттєво не зміниться.
Але завжди залишається ймовірність, що невдовзі після публікації керівний сервер повідомить нові дані, і це вплине на статистику.
У нас є архіви до того часу, але ці архіви містять не всі дані, які ми використовуємо для оцінки кількості користувачів.
Будь ласка, використовуйте цей tar-архів для детальнішої інформації:
Tarball
Для безпосередніх користувачів ми включаємо дані всіх керівних серверів, чого не було в минулому.
Ми також використовуємо фрагменти даних, де містяться лише байти, які відповідають на запити керівних серверів. Це дає точніший результат, ніж історія загальних даних.
О, це зовсім інша історія. Ми написали технічний звіт на 13 сторінок, у якому пояснювали причини скасування старого підходу.
tl;dr: у старому підході ми вимірювали не те що потрібно було вимірювати, а тепер вимірюємо потрібне.
Ми використовуємо систему визначення цензури на основі аномалій, яка розглядає приблизну кількість користувачів протягом кількох днів і прогнозує кількість користувачів у наступні дні.
Якщо фактичне число більше або менше, це може свідчити про можливе піддання цензурі або звільнення від цензури.
Для отримання додаткової інформації дивіться наш технічний звіт.