De fapt, nu numărăm utilizatorii, dar numărăm solicitările către directoarele pe care clienții le fac periodic pentru a-și actualiza lista de relee și pentru a estima numărul de utilizatori indirect de acolo.
Nu, dar putem vedea ce fracțiune de directoare le-au raportat, și apoi putem extrapola numărul total în rețea.
Presupunem că clientul mediu face 10 astfel de cereri pe zi.
Un client care este conectat 24/7 face aproximativ 15 de cereri pe zi, dar nu toți clienții sunt conectați 24/7, așa că am ales numărul 10 pentru clientul mediu.
Pur și simplu împărțim solicitările de directoare la 10 și considerăm rezultatul ca fiind numărul de utilizatori.
Un alt mod de a privi lucrurile este că presupunem că fiecare cerere reprezintă un client care rămâne online timp de o zecime de zi, deci 2 ore și 24 minute.
Numărul mediu de utilizatori concurenți, estimat din datele colectate pe parcursul unei zile. Nu putem spune câți utilizatori diferiți există.
Nu, releele care trimit raport cu aceste statistici agregă cererile în funcție de țara de origine și pe o perioadă de 24 de ore.
Statisticile pe care ar trebui să le colectăm pentru numărul de utilizatori pe oră ar fi prea detaliate și ar putea pune utilizatorii în pericol.
Apoi îi numărăm pe acești utilizatori ca fiind unul. Chiar contăm clienții, dar este mai intuitiv pentru majoritatea oamenilor să se gândească la utilizatori, de aceea spunem utilizatori și nu clienți.
Nu, pentru că acel utilizator își actualizează lista de relee la fel de des ca un utilizator care nu schimbă adresa IP în timpul zilei.
Directoarele rezolvă adresele IP la codurile de țară și includ în raport aceste numere în formă agregată. Acesta este unul dintre motivele pentru care tor livrează cu o bază de date GeoIP.
Foarte puține poduri includ în raport date privind transporturile sau versiunile IP încă, și în mod implicit luăm în considerare cererile de a utiliza implicit SAU protocol și IPv4.
Din nou, aceste date vor fi incluse în raport de poduri, iar cifrele vor deveni mai exacte.
Releele și podurile includ în raport unele dintre date în intervale de 24 de ore, care se pot termina în orice moment al zilei.
Și după un astfel de interval este peste relee și poduri ar putea dura încă 18 de ore pentru a include în raport datele respective.
Am tăiat ultimele două zile din grafice, pentru că vrem să evităm ca ultimul punct de date dintr-un grafic să indice o schimbare recentă a tendinței, care este de fapt doar un artefact al algoritmului.
Motivul este că publicăm numere de utilizator odată ce suntem suficient de încrezători că nu se vor mai schimba semnificativ.
Dar este întotdeauna posibil ca un director să raporteze date la câteva ore după ce am fost suficient de încrezători, dar care apoi a schimbat ușor graficul.
Avem arhive descriptori de dinainte, dar aceste descriptori nu au conținut toate datele pe care le folosim pentru a estima numerele de utilizator.
Vă rugăm să găsiți următorul tarball pentru mai multe detalii:
Tarball
Pentru utilizatorii direcți, includem toate directoarele pe care nu le-am făcut în vechea abordare.
De asemenea, folosim istorii care conțin doar octeți scriși pentru a răspunde solicitărilor de directoare, ceea ce este mai precis decât utilizarea istoriilor generale ale octeților.
Oh, asta e o poveste cu totul diferită. Am scris un raport tehnic de 13 de pagini explicând motivele pentru retragerea vechii abordări.
tl; dr: în veche abordare am măsurat lucrul greșit, iar acum măsurăm lucrul corect.
Rulăm un sistem de detectare a cenzurii bazat pe anomalii, care analizează numerele de utilizatori estimate pe o serie de zile și prezice numărul de utilizatori în următoarele zile.
Dacă numărul real este mai mare sau mai mic, acest lucru ar putea indica un posibil eveniment de cenzură sau de eliberare a cenzurii.
Pentru mai multe detalii, consultați raportul tehnic.