GDPR

Komentář k vyjádření CNIL pro použití Google Analytics

Po dlouhých diskuzích se konečně podařilo upřesnit pravidla za jakých je možné legálním způsobem používat v EU Google Analytics. Jak jsme již avizovali, řešení povede k použítí nezávislého systému (proxy), který zajistí, že se do Google Analytic nedostanou žádné osobní údaje.

Autor: Jan Hornych

Publikováno: 8. 6. 2022 | 4 minuty čtení

Francouzská obdoba českého Úřadu pro ochranu osobních údajů, CNIL vydal 7.6.2022 vyjádření do svého FAQ jak používat Google Analytics tak, aby bylo v souladu s Obecným nařízením o ochraně osobních údajů (2016/679 GDPR).

Původní problém, proč lokální úřady v Rakousku, Francii a Lichtenštejnsku zakázaly používat Google Analytics (a to i v anonymním módu, který je použitelný v GA4) se týkal neoprávněného přenosu osobních údajů mimo EU. Google na tento nedostatek zareagoval a slíbil, že zajistí přesměrováním sběru dat na servery, které jsou v blízkosti IP adresy, ze které požadavky odchází*.

Například při testování 10.6.2022 při přístupu z Prahy z mého počítače napojeného přes Cetin jde požadavek na server s adresou region1.google-analytics.com, která má IP 216.239.32.36 a dle ip address lookup je to server umístěný v Data Centru Google v Kalifornii. O týden dříve ale požadavky odcházel na servery v EU. Zdroj: whatismyipaddress.com

Dle vyjádření, který francouzský úřad učinil, je ale i tento postup (pokud by tedy fungoval, což nevypadá, viz obrázek výše) nedostatečný, a proto velice explicitně stanovil několik pravidel, které se musí splnit, aby používání Google Analytics** bylo v souladu s GDPR nařízením a zajistilo se, že nebude docházet k zasílání osobních údajů mimo EU.

Doporučení úřadu je tedy neposílat data do Google Analytics přímo, ale použít prostředníka, který data před odesláním do GA očistí. Takzvanou server proxy. Níže jsou vypsaná pravidla, která úřad vyžaduje, včetně mého osobního komentáře.

Pro zajištění souladu s GDPR musí tato proxy splňovat následující pravidla

Nesmí docházet k zasílání IP adres na servery, které patří měřícímu nástroji.

Asi bych, zde spíše respektoval tvrzení Google, že když už odřízne poslední Byte z IP adresy, tak už tato data nikdy nespojí a navěky se ten poslední Byte zapomene. Ale budiž, pokud tam IP adresu pošlu už odříznutou, tak je to lepší. V podstatě to i navrhoval Google v jejich prezentaci, kdy zmínil, že nejlepší varianta jak používat SGMT, je běžet docker na vlastním serveru mimo Google Cloud.

Musí být nahrazen identifikátor zařízení (visitorId, v případě GA tedy _ga cookies) a jakýkoliv user identifikátor.

To je logické. V textu je ještě zmíněno, že je akceptovatelná pseudoanonymizace, ale pouze pokud tento algoritmus neběží na serveru měřící platformy a platforma k němu nemůže získat přístup.

Musí být smazána informace o tom z jaké stránky uživatel na web přišel.

Bavíme se zde o parametru document.referrer a to je asi moc přísné, nenapadá mě případ (kromě nějakých extrémně nepravděpodobných scénářů), kdy by tento parametr pokud to bude pouze doména mohl pomoci v identifikaci uživatele.

Při zaslání stránky musí být smazány všechny parametry co v URL jsou.

Obdobně jako u předchozího případu, pokud je parametr agregovaný, tak bych jej nepovažoval za údaj, který může pomoci s identifikací subjektu. Například některé stránky se liší podle toho, jaký mají parametr, například ?filter=newproducts Asi se to dá vyřešit nějakým následným mapováním na virtuální stránky. Dále zmiňují, že se do stránky nesmí posílat utm parametry. Opět pokud obsahuje agregovaný identifikátor, například ID kampaně, tak mi to přijde celkem neškodné. Na druhou stranu, proč by takový parametr měl být posílán v URL a ne v custom dimenzi, pokud je tak důležitý.

Nesmí být používány další techniky, které povedou k obohacení sebraných údajů. Například fingerprinting, detekce přes user agenta, atd.

To je logické, tedy bez komentáře

Nesmí se posílat, žádné jiné cross site identifikátory.

Tady nevím přesně co tím je myšleno, ale představuji si to jako něco co umožní propojit chování návštěvníka mezi různými weby. Asi něco jako 3rd party cookies parametry?

Žádná jiná data, která povedu k identifikaci subjektu.

Tohle je tedy jen opakování samotného nařízení.

Poznámky pod čarou

Na závěr úřad požaduje, že proxy server musí běžet v prostředí, které zajistí, že nebude možné propojit data před očištěním s daty v měřící platformě a zajistit, aby se údaje z proxy serveru nedostaly mimo EU. To je tedy naprosto logické, snad aby někoho nenapadlo běžet Proxy server v AWS, Azure, Heroku nebo jiném cloudovém prostředí v datacentru umístěném v US. Samotný Google Cloud bez ohledu na lokaci je vyloučen, protože v případě Google Analytics není garantováno nepropojení dat. Ideálně musí proto proxy běžet v nějakém datacentru v EU a nebo rovnou na vlastních serverech.

Moje znalost francouzštiny je na takové úrovni, že se jedná o laický překlad a komentář je můj osobní postoj k nařízení. Pro zájemce o originál je odkaz na původní znění zde.

Takováto proxy je například mHub Cloud.

*Google Analytics Regionální sběr dat
**CNIL se v titulku článku vyjadřuje ke Google Analytics, ale samozřejmě se to týká i jiné webově analytické platformy, kde je riziko přenosu dat mimo EU.