Chúng tôi không thực sự đếm người dùng, nhưng chúng tôi đếm các yêu cầu tới các thư mục mà các ứng dụng/máy khách thực hiện theo định kỳ để cập nhật danh sách các rơ-le của họ và ước lượng số lượng người dùng một cách gián tiếp từ đó.
Không, nhưng chúng tôi có thể xem phần mục nào của các thư mục đã báo cáo chúng ,và sau đó chúng tôi có thể ngoại suy tổng số trong mạng lưới.
Chúng tôi đặt giả định rằng, máy khách trung bình thực hiện 10 yêu cầu như vậy mỗi ngày.
Một ứng dụng/máy khách mà được kết nối 24/7 thực hiện 15 yêu cầu một ngày, nhưng không phải tất cả các ứng dụng/máy khách được kết nối 24/7, do đó chúng tôi lựa ra số 10 cho máy khách trung bình.
Chúng tôi đơn giản chỉ là phân chia các yêu cầu thư mục cho 10 và xem xét kết quả như là số lượng người dùng.
Một cách khác để nhìn nhận chúng đó là, có phải là chúng ta giả định rằng mỗi một yêu cầu đại diện cho một máy khách được giữ online cho 1/10 của một ngày, hoặc là 2 giờ và 24 phút.
Số lượng người dùng đồng thời trung bình, được ước tính từ dữ liệu được thu thập trong một ngày. Chúng tôi không thể nói có bao nhiêu người dùng riêng biệt.
Không, các rơ-le báo cáo các yêu cầu thống kê tổng hợp này dựa theo quốc gia xuất phát và theo một quãng thời gian 24 giờ.
Các thống kê mà chúng tôi cần thâu thập cho số lượng người dùng theo từng giờ sẽ là quá chi tiết và có thể đặt người dùng vào nguy hiểm.
Sau đó chúng tôi đếm số lượng người dùng đó như một. Chúng tôi thực sự đếm số lượng máy khách, nhưng nó sẽ trực quan hơn đối với hầu hết mọi người khi nghĩ về người dùng, đó là lý do tại sao chúng tôi nói là người dùng mà không phải là máy khách.
Không, bởi vì người dùng đó cập nhật danh sách các rơ-le của họ thường xuyên như khi một người dùng không thay đổi địa chỉ IP trong ngày.
Các thư mục giải quyết các địa chỉ IP về các mã quốc gia và báo cáo các số liệu này dưới dạng tổng hợp. Đây là một trong số các lý do tại sao tor được gửi đi với một cơ sở dữ liệu GeoIP.
Cho tới hiện tại, có rất ít các cầu Bridge báo cáo dữ liệu về các transport giao vận hoặc các phiên bản IP, và theo mặc định, chúng tôi xem xét các yêu cầu để sử dụng giao thức protocol OR mặc định và IPv4.
Một khi có nhiều cầu Bridge báo cáo những dữ liệu này, các số liệu sẽ trở nên chuẩn xác hơn.
Các Rơ-le chuyển tiếp và các cầu Bridge báo cáo một số dữ liệu trong từng khoảng thời gian 24 giờ, mà có khả năng kết thúc vào bất kỳ thời điểm nào trong ngày.
Và sau khi khoảng thời gian đó kết thúc, các rơ-le và cầu Bridge có thể mất thêm 18 giờ nữa để báo cáo dữ liệu.
Chúng tôi cắt bỏ đi hai ngày cuối cùng ra khỏi đồ thị, bởi vì chúng tôi muốn tránh khỏi việc, điểm dữ liệu cuối cùng trong một biểu đồ chỉ báo ra một xu hướng thay đổi gần đây mà thực ra đó chỉ là một kết quả của thuật toán mà thôi.
Lý do là, chúng tôi công bố số lượng người dùng một khi chúng tôi đã đủ tự tin rằng, chúng sẽ không thay đổi một cách đáng kể nữa.
Nhưng luôn có khả năng rằng, một thư mục báo cáo dữ liệu vài giờ sau khi chúng tôi đã đủ tự tin, nhưng sau đó thay đổi biểu đồ một chút.
Chúng tôi có các bản lưu trữ của bộ mô tả descriptor từ trước thời điểm đó, nhưng những bộ mô tả descriptor ấy không chứa đựng tất cả các dữ liệu mà chúng tôi dùng để ước lượng số lượng người dùng.
Xin hãy tìm tarball sau đây để biết thêm chi tiết:
Tarball
Cho những người dùng trực tiếp, chúng tôi bao gồm tất cả các thư mục mà chúng tôi đã không làm theo cách tiếp cận cũ.
Chúng tôi cũng sử dụng các lịch sử mà chỉ chứa các byte được ghi vào để trả lời các yêu cầu thư mục, mà nó còn chính xác hơn cả khi sử dụng các lịch sử byte tổng quan.
Ồ, đó lại là một câu chuyện hoàn toàn khác. Chúng tôi đã viết một báo cáo kỹ thuật dài 13 trang giải thích những lý do cho việc đào thải phương thức tiếp cận cũ.
nếu bạn không rảnh để đọc: trong cách tiếp cận cũ, chúng tôi đã đo đạc sai các thứ, và hiện giờ chúng tôi đo đạc các thứ đúng đắn.
Chúng tôi chạy một hệ thống phát hiện kiểm duyệt dựa trên các bất thường, chúng theo soát số lượng người dùng ước lượng trên một chuỗi các ngày và tiên đoán số lượng người dùng vào các ngày tiếp theo.
Nếu như con số thực tế là cao hơn hoặc thấp hơn, điều này có thể chỉ ra được một sự kiện kiểm duyệt khả dĩ hoặc phát hành kiểm duyệt.
Để biết thêm các chi tiết, hãy xem báo cáo kỹ thuật của chúng tôi.