pexels lukas 574077 1

Este data scraping-ul legal?

9 minute • Emilia Oancea • 19 februarie 2022


În acest articol vom prezenta ce este data scraping-ul, la ce folosește și ce probleme juridice produce. Având în vedere că problematicile apărute în mediul virtual nu sunt reglementate atât de bine, multe dintre acestea rămân într-o zona gri a legalității și, din aceasta cauză, se nasc litigii complicate. Astfel, este important să cunoaștem ce efecte pot avea acțiunile noastre în spațiul web pentru a ne asigura că rămânem în zona de legalitate.

Vom începe prin a prezenta la ce se referă data scraping.

Ce este data scraping-ul

Data scraping, numit și web scraping sau online scraping, este un proces prin care putem descărca diferite date din paginile web în funcție de anumite criterii prestabilite. Această activitate se poate face și manual, însă efortul ar fi unul considerabil și de lungă durată. Astfel, se pot folosi niște programe speciale care să facă această muncă mult mai rapid și eficient. Acești boți găsesc paginile web ce corespund criteriilor relevante pentru utilizator, descarcă aceste pagini și le prelucrează, pentru a extrage imagini, videoclipuri, texte și orice alte date relevante.

La ce poate fi folosit data scraping-ul

Web scraping-ul poate fi utilizat în diverse sectoare de activitate, în diferite scopuri, precum: marketing, imobiliare, presă, cercetare, comerț și multe alte ramuri de activitate. Practic, poate fi folosit în orice domeniu unde studiul unui volum mare de date este necesar, deoarece selectează informațiile cerute eficient.

De exemplu, data scraping-ul se poate folosi pentru analiza prețurilor de pe piață, lucru util în conturarea unor strategii pentru antreprenori. De asemenea, se pot colecta și recenzii ale cumpărătorilor. Data scraping-ul este folositor în aproape toate cazurile în care este nevoie ca un volum mare de informații să fie mutat dintr-o parte în alta și sortat în funcție de anumite criterii.

Un exemplu în care această activitate se poate realiza cu succes este, așa cum am menționat, cea de analiză a prețurilor de pe piață. De exemplu, Ana își dorește să meargă într-o vacanță binemeritată după un an de muncă intensă și se gândește că ar vrea să se cazeze la un anumit hotel. Caută pe internet și vede că există mai multe site-uri ale agențiilor de turism de pe care poate rezerva camera, iar fiecare prezintă prețuri diferite. Pentru că nu are timp să le verifice pe toate, apelează la un astfel de bot ce face data scraping pentru ea și îi găsește site-ul de pe care își poate rezerva camera dorită la cel mai mic preț de pe piață. Acesta este doar un exemplu în care data scraping-ul poate fi utilizat în viața de zi cu zi, însă acesta își demonstrează utilitatea și importanța în multe alte domenii și activități, mai ales în cele ce urmăresc să afle opinia publică sau în care există constant anumite fluctuații.

Implicații legale

Data scraping-ul nu este interzis prin texte de lege, dar asta nu înseamnă ca orice activitate de acest tip este legală. Este necesar ca activitatea să se situeze între anumite limite, limite pe care le vom prezenta în continuare.

Protecția datelor personale

În primul rând, este important să știm ce sunt datele persoane pentru a înțelege dacă și în ce condiții le putem colecta prin data scraping. Datele cu caracter personal sunt orice informații care se referă la o persoană identificată sau identificabilă, astfel dacă prin ele însele sau prin adunarea lor se poate ajunge la identificarea unei anumite persoane, datele sunt personale. Câteva exemple de date personale sunt numele și prenumele, adresa domiciliului, datele de pe actele de identitate și alte date asemenea.

Acestea sunt protejate în Uniunea Europeană prin Regulamentul General privind Protectia Datelor (GDPR). Acest Regulament nu protejează doar datele personale private, care nu sunt accesibile publicului, ci le protejează pe toate, chiar și pe cele care sunt publice. Astfel, dacă îți dorești ca botul tău să colecteze date personale prin data scraping, trebuie să știi că nu este legal decât în următoarele condiții:

  • persoanele ale căror date le colectează și-au dat consimțământul
  • datele respective sunt indispensabile pentru a onora o obligație contractuala față de persoana ce le deține
  • datele sunt necesare pentru a se îndeplini o obligație legală
  • datele sunt necesare pentru a proteja interesele vitale ale persoanei în cauză
  • prelucrarea datelor personale se face pentru a se îndeplini o sarcină în interesul publicului
  • se acționează în interesul legitim al companiei, atâta timp cat nu sunt afectate în mod serios drepturile și libertățile fundamentale ale persoanei ale cărei date sunt prelucrate

Mai mult de atât, art. 5 alin. 1 din GDPR prevede principiul minimizării datelor. Acesta creează condiția ca datele personale prelucrate să fie:

  • adecvate – suficiente pentru a se realiza scopul declarat
  • relevante – să aibă legătura cu scopul declarat
  • limitate la ceea ce este necesar – nu mai multe decât este absolut indispensabil pentru îndeplinirea scopului declarat

Astfel, colectarea multor date prin web scraping nu este în toate cazurile bună și eficientă, pentru că este necesar să se aibă în vedere problematica datelor personale. Aceste date trebuie să fie colectate în cantități cât mai mici și numai dacă acele condiții prezentate anterior sunt îndeplinite.

Respectarea drepturilor de autor

Ca și în cazul datelor personale, conținutul protejat de drepturile de autor este de avut în vedere atunci când vrem să realizăm data scraping. În Uniunea Europeană, Directiva 2019/790 privind dreptul de autor și drepturile conexe pe piața unică digitală prevede în Articolul 3 si Articolul 4 că se pot extrage date protejate prin drepturile de autor, însă doar pentru a genera diferite informații. De exemplu, se pot extrage date statistice sau diferite titluri de lucrări științifice, însă nu se pot extrage articole științifice pe care să le publici apoi pe propriul tău site, pentru că nu ar fi respectate drepturile de autor.

De asemenea, este necesar să extragi doar datele care sunt accesibile publicului și pentru a le folosi în scopuri științifice. Respectarea drepturilor de autor este importantă, deoarece contrariul poate duce la litigii lungi și costisitoare.

Respectarea termenilor și condițiilor

Termenii și condițiile reprezintă, așa cum reiese și din denumire, un set de reguli prin care se stabilesc drepturile, obligațiile și răspunderea ce revin fiecărei părți. În alte cuvinte, termenii și condițiile alcătuiesc contractul dintre proprietarul site-ului și utilizatorii acestuia.

Astfel, în termenii și condițiile site-ului se poate stipula interzicerea web scraping-ului, iar utilizatorii paginii web trebuie să se conformeze acestor reguli, deoarece contractul existent are forță juridică obligatorie atâta timp cât politica a fost acceptată. De asemenea, nu are relevanță dacă utilizatorul a citit sau nu termenii și condițiile, fiind important doar dacă și-a dat consimțământul.

Date publice

Este important ca datele extrase prin data scraping să fie publice, informații la care poate avea acces orice persoană ce vizitează site-ul. Este ilegală extragerea de date private, ce nu sunt la îndemâna oricărui utilizator, acest lucru fiind posibil doar cu acordul expres al proprietarului datelor respective. Astfel, data scraping-ul nu se încadrează în activitatea de hacking, sau cel puțin nu ar trebui, deoarece datele extrase trebuie să fie unele publice, accesibile oricărei persoane sau, dacă sunt private, să fi existat acordul proprietarului pentru a le colecta.

În acest sens este relevantă o cauză relativ recentă, Cauza hiQ Labs, Inc. v. LinkedIn Corp. Cauza prezintă relevanță, deoarece Curtea a confirmat ca datele publice ale website-urilor pot fi colectate, această operațiune fiind una complet legală. Problema a început când LinkedIn a blocat compania HiQ Labs, o companie ce se ocupă cu analizarea de date, în a mai accesa datele publice referitoare la profilurile utilizatorilor.

HiQ Labs a fost prejudiciată în urma acestei prohibiții, deoarece întreaga sa activitate se baza pe colectarea datelor publice. LinkedIn a susținut ca activitatea desfășurată de HiQ Labs încalcă drepturile utilizatorilor LinkedIn și alte reglementări.

În principiu, Curtea a susținut că blocarea companiei HiQ Labs de către LinkedIn reprezintă o punere în pericol a activității celui în cauză, deoarece întreaga sa activitate consta în colectarea datelor publice ale utilizatorilor LinkedIn. Un argument invocat de LinkedIn a fost că această extragere de date pune în pericol chiar și datele private ale utilizatorilor, aceștia pierzându-și încrederea în serviciile oferite de către companie, însă Curtea a considerat că acest argument nu este destul de semnificativ în comparație cu interesul prezentat de HiQ Labs. Fără acces la datele ce, în mod obișnuit, sunt publice, compania nu și-ar putea îndeplini obligațiile contractuale.

Mai mult, s-a pus problema existenței unei practici de concurență neloială, deoarece LinkedIn avea planuri în a pune pe piață un instrument asemănător cu cel al HiQ Labs, instrument care să extragă date publice de pe website-uri. HiQ Labs a mai arătat ca această metodă de a colecta informații este una obișnuită mai ales pentru cercetarea științifică, iar restricționarea accesului la date îi oferă companiei LinkedIn puterea discreționară de a decide cine poate colecta date publice și cine nu, exercitând în mod abuziv controlul asupra datelor publice.

În final, Curtea a decis ca HiQ Labs a acționat legal, colectând date publice neprotejate de către drepturile de autor, accesibile oricărui alt utilizator obișnuit al site-ului, iar oferirea întregului control al informațiilor publice către LinkedIn sau orice site asemănător ar conduce la transmiterea către acestea a unei puteri inechitabile.

Concluzie

Concluzionând, putem afirma că, în principiu, procesul de data scraping este legal, dar, ca în orice problematică juridică, există un “depinde”. Este important să știi, dacă vrei să colectezi date prin online scraping, că trebuie să respecți anumite prevederi pe care le-am menționat în cuprinsul acestui articol.

Trebuie să te asiguri că acele date sunt publice, nu au caracter personal, nu sunt protejate de drepturile de autor și, de asemenea, trebuie să verifici termenii și condițiile site-ului respectiv, deoarece reprezintă un veritabil contract în condițiile în care ți-ai exprimat consimțământul la acceptarea acestora.

Imagine realizata de Lukas pe Pexels


Este important să știi de la bun început ce poți face, dar mai ales, ce NU poți face. Contactează-ne astăzi și hai să descoperim împreună cum îți protejezi afacerea.

Lasă un răspuns

Adresa ta de email nu va fi publicată.