Botit Google Analyticsissa – Näin tunnistat ja estät ne

Botit Google Analyticsissa
Santeri Kallio
Santeri Kallio

Bottien estäminen on tarpeen kaikille Google Analyticsin käyttäjille.

Tässä tekstissä opit kaiken tietämisen arvoisen näistä analytiikan häiriköistä.

Kerron esimerkiksi…

Katsomme myös aiheeseen liittyvää GA- ja GA4-raportointia sekä pari teknistä asiaa, mutta pidän aiheen tavalliseen tapaan simppelinä.


Miksi botteja tulee? 🤖

Google Analyticsin tarkoitus on raportoida oikeiden ihmisten oikeita tekemisiä sivustolla.

Valitettavasti kaikki netin kulkijat eivät ole ihmisiä.

Netissä liikkuu jatkuvasti erilaisia botteja, eli tietokoneohjelmia jotka on määrätty tekemään tiettyjä asioita verkkosivuilla.

Osa näistä boteista tekee ihan järkeviä asioita, kuten mahdollistaa meille netin hakukoneet.

Osa taas on määrätty tekemään ikäviä asioita:

  • Klikkausten väärentäminen mainostuottojen saamiseksi (click fraud)
  • Sähköpostiosoitteiden kerääminen roskaposteja varten
  • Viruksia sisältävien linkkien jättäminen kommenteihin tai haavoittuvaisen sivuston koodiin
  • Sivustojen sisältöjen kopioiminen (web scraping)

Syyt lähettää botteja ovat moninaisia, mutta useimmiten taloudellisia.

Pahojaan tekevien bottien liikkeet voivat lopulta päätyä analytiikan raportointiin sattumalta tai täysin tarkoituksellisesti.

Tässä oppaassa keskitymme ennaltaehkäisemään ja korjaamaan bottien aiheuttamia ongelmia Google Analyticsissa. Botteja tulee silti sivustollesi, koska ne ovat valitettavan normaali asia nettimaailmassa.


Miten botit väärentävät liikennettä? 🕵️

Bottien kanssa pätee vanha sanonta: Tunne vihollisesi

Emme nimittäin puhu vain yksittäisestä asiasta.

Botteja on monenlaisia, ja kukin yrittää omalla tavallaan päästä koristamaan Analyticsin raporttejasi.

Tyypillisin ja yksinkertaisin botti toimii kuten voisi olettaa, eli se oikeasti vierailee sinun sivustollasi.

GA poistaa onneksi suuren osan näistä tapauksista yhdellä klikkauksella käyttöön otettavalla bottisuodatuksella.

Lisäksi simppelit botit on helppo tunnistaa jos ne pääsevät raportteihin asti.

Botit GA-raportoinnissa

HUOM! Älä ikinä klikkaa outoja linkkejä Analyticsin raportoinnissa! Ne voivat johtaa jopa viruksia sisältäville sivustoille

Kaikki tapauksen eivät kuitenkaan ole näin helppoja.

Esimerkiksi helmikuussa 2021 monien GA-käyttäjien tileihin tuli paljon viittaavaa (referral) liikennettä nimillä kuten ”trafficbot”, ”botraffic” ja ”bot-traffic”:

Trafficbot oli merkittävä tapaus, sillä sen on spekuloitu käyttäneen suurta bottiverkkoa.

Bottiverkko ei ole vain yksittäinen häiritsevä botti. Siinä suuri määrä laitteita on saanut viruksen, jonka kautta bottiverkon haltija voi käskyttää laitteita vierailemaan sivustoilla.

Analyticsin tilistä riippuen Trafficbotin tapaus saattoi olla todellinen piikki normaaleissa kävijämäärissä.

Kukaan ihminen ei tietenkään käynyt sivustoilla.

Juuri tämä valeliikenne on ikävin seuraamus boteista.

Bottien vaikutus liikenteeseen

Kun Google Analyticsissa on sekaisin todellisia vierailuja ja bottien aiheuttamaa väärennettyä liikennettä, niin meillä on ongelma.

Bottien myötä datasta voi tulla epäluotettavaa. Tällöin sitä ei ehkä haluta käyttää.

Katsotaan nyt 3 käytännön tapaa millä botteja voi ehkäistä.

Huomioithan, että osa näistä vinkeistä toimii vain uudessa Google Analytics 4:ssä (GA4), kun taas osa toimii aikaisemmassa Analyticsissa (jota kutsun nimellä ”vanha GA”).


Bottien estäminen Google Analyticsissa 🛡️

1. Laita päälle bottisuodatus (uusi GA4 & vanha GA)

Google Analyticsissa on jo pitkään voinut estää yleisimmät botit.

Tämä valmis bottisuodatus on ensisijainen tapa estää valeliikenne GA-tililläsi.

Uudessa Google Analytics 4:ssä bottisuodatus on itseasiassa aina automaattisesti päällä.

Vanhemmassa GA’n versiossa suodatus pitää ottaa erikseen käyttöön haluamassasi GA’n näkymässä (View).

Tämä onnistuu Järjestelmänvalvonnasta:

GA Järjestelmänvalvoja

Järjestelmänvalvonnan oikealla puolella näet nykyisen näkymän asetukset, ja voit vaihtaa pudotusvalikosta tietyn näkymän.

Valitse se näkymä johon haluat bottisuodattimen.

GA Järjestelmänvalvoja näkymät

Klikkaa sitten ”Näkymän asetukset” ja skrollaa ikkunassa aivan alas.

Klikkaa kohdassa Robottisuodatus laatikko aktiiviseksi, ja paina lopuksi alta ”Tallenna”.

Google Analytics robottisuodatus

Nyt GA-näkymään ei tule enää tyypillisimpiä bottitapauksia.

Varsin helppo juttu.


2. Tee domain-suodatin (vanha GA)

Kun valmis bottisuodatus ei riitä, niin pitää ottaa käyttöön kovemmat keinot.

Suodatin-omaisuus (Filter) poistaa Google Analyticsissa tietyn säännön mukaan dataa, jota ei haluta kerätä.

Tämä soveltuu siis hyvin ennaltaehkäisemään bottiongelmat. Tarvitsemme ainoastaan säännönmukaisuuden, jolla suodatin toimii.

Eräs yleinen botin ominaisuus on se, että kenttä nimeltä verkkoaseman tunnus (hostname) näyttää olevan jokin muu kuin oman sivustosi domain:

Verkkoaseman tunnus raportin botteja

Tämä johtuu siitä, että botit eivät usein tiedä kohdettaan etukäteen, joten ne eivät osaa väärentää tätä tietoa oikein.

Jos siis luomme suodattimen, mikä poistaa automaattisesti vierailut joissa on ollut väärennetty verkkoaseman tunnus, niin saamme estettyä yhä enemmän valeliikennettä.

Ennen kuin teemme mitään, niin lue läpi nämä huomiot:

  • Väärin asennettuna domain-suodatin voi estää myös oikean liikenteen pääsyn GA’han. Muutokset kannattaa siis testata aina ensin Testinäkymässä.
  • Kun suodatin otetaan käyttöön, niin tuleva bottiliikenne suodatetaan käyttöönottopäivästä eteenpäin. Suodatin ei muuta aikaisemmin kerättyä tietoa.
  • Domain-suodatinta ei voi vielä käyttää GA4:ssä.

Nyt kun tiedät tämän, voimme aloittaa.

Tässä on ohje domain-suodattimen tekemiseen (ei onnistu GA4:ssä):

1. Klikkaa Google Analyticsissa ylävasemmalta auki tilinavigointi ja valitse se näkymä mistä haluat estää bottiliikenteen (ensin esimerkiksi Testinäkymässä)

GA ylävalikko näkymän valinta

2. Klikkaa Google Analyticsissa raporttiin ”Yleisöt > Teknologia > Verkosto”

3. Klikkaa ”Verkkoaseman tunnus”

Verkkoaseman tunnus ensisijaiseksi ulottuvuudeksi

4. Esiin tulee taulukko verkkoaseman tunnuksista. Näet käytännössä missä domaineissa GA-seurantasi on lähettänyt dataa. Esimerkiksi oma sivuni on domainissa ”santerikallio.com”, joten verkkoaseman tunnuksissa näkyy ensimmäisenä ”santerikallio.com” (kuten pitäisikin):

Verkkoaseman tunnus-raportti

Verkkoaseman tunnuksissa saattaa näkyä jo nyt outoja domaineja. Ne ovat todennäköisesti bottiliikennettä!

Pienillä sivustoilla on usein vain yksi verkkoaseman tunnus, mikä vastaa domainiasi (esim. ”santerikallio.com”). Kopio tämä verkkoaseman tunnus talteen.

Suurempien sivustojen tapauksessa kopio talteen ne kaikki verkkoaseman tunnukset mistä liikennettä kuuluukin tulla. Tämä sisältää esimerkiksi subdomainisi ja verkkokauppojen maksupalveluiden domainit.

5. Kopioinnin jälkeen mene alavasemmalta Google Analyticsin ”Järjestelmänvalvoja”-osaan.

6. Valitse oikelta Suodattimet (Filters) ja klikkaa ”Lisää suodatin”

Lisää uusi Google Analyticsin suodatin

7. Valitse suodattimen asetukset kuvan mukaisesti:

GA suodattimen määritys

8. Liitä ”Suodatinmalli”-kenttään aikaisemmin kopioitu verkkoaseman tunnus/tunnukset.

Yhden domainin suodattaminen

Jos kopioit enemmän kuin yksi tunnusta, niin sinun pitää tehdä tunnuksista yksi yhtenäinen teksti käyttämällä näitä sääntöjä:

  • Lisää \ -merkki aina ennen pistettä
  • Laita jokaisen verkkoaseman tunnuksen väliin | -merkki (pystyviiva)

Tässä on esimerkki näiden sääntöjen käytöstä, jossa olen yhdistänyt verkkoaseman tunnukset esimerkki1.com, esimerkki2.com ja blog.esimerkki3.com:

esimerkki1 \ .com | esimerkki2 \ .com | blog \ .esimerkki3 \ .com

Kun olet luonut tämän tyyppisen tekstin, niin liitä se ”Suodatinmalli”-kenttään:

Usean domainin suodattaminen

9. Klikkaa Tallenna, niin suodatin tulee käyttöön näkymässä.


Hienoa! Bottien esto on taas astetta parempi.

Käy vielä varmistamassa GA’n reaaliaikaisesta raportista, että sivustosi kerää edelleen dataa.

Tällä varmistamme, että suodatin ei poista oikeaa liikennettä. Jos liikennettä ei enää tule normaalisti, niin varmista vielä suodattimen asetukset (varsinkin usean domainin yhtenäinen teksti).

Niin ja jos laitoit suodattimen Testinäkymään, niin muista kopioida sama suodatin tärkeimpään Käyttönäkymääsi kunhan olet varma sen toiminnasta.


3. Ota käyttöön Google Analytics 4

Yksi ratkaisu bottiongelmaan on asentaa uusi Google Analytics 4.

Tämä johtuu siitä, että vanhemmassa Google Analyticsin versiossa on vuosia ollut haavoittuvuus, mitä käytetään usein lähettämään bottiliikennettä.

Kyseessä on edistynyt ominaisuus nimeltä mittausprotokolla (measurement protocol), jolla Analyticsiin voi lähettää tietoa täysin itse rakennettuna, ilman verkkosivustoa.

Näin GA’han voi käytännössä viedä tietoa esimerkiksi asiakaspalvelun puhelulokista tai yrityksen tietojärjestelmistä.

Tämä on muuten hyvä asia, mutta mittausprotokollan käyttö vaatii vanhemmassa GA’ssa vain kaksi asiaa:

Ikävä kyllä Analytics-tunnus on usein todella helppo löytää, koska se lukee GA’n asennuskoodissa sivustolla. Botin avulla näiden tunnuksien hakemisen voi vieläpä automatisoida.

Lopputuloksena on, että osaava henkilö voi lähettää valeliikennettä kerralla todella moniin GA-tileihin!

Google Analytics 4:ssä tämä on onneksi (vihdoin) korjattu.

Mittausprotokolla on edelleen olemassa, mutta tällä kerralla sen käyttö vaatii lisäksi salaustunnuksen, jonka vain GA4-omaisuuden haltija voi tehdä:

GA4 mittausprotokollan salaustunnukset

Salaustunnus paikkaa siis todella suuren haavoittuvuuden ja se estää näin useita bottitapauksia saapumasta GA4’n dataan.

Esimerkiksi Trafficbot-bottien tapauksessa helmikuussa 2021 käytettiin mittausprotokollaa.

En ole kuitenkaan törmännyt yhteenkään GA4-tiliin, johon olisi tullut näitä botteja. Mittausprotokolla on nimittäin suojattu uudessa versiossa!

Analytiikan uudelleenasennus ei tietenkään ole nopein bottieston tapa, mutta se on tulevaisuuden kannalta paras.

Tällä oppaalla asennus ainakin onnistuu nopeasti:


OPAS: Google Analytics 4:n asentaminen



Voiko botit poistaa jälkikäteen? 🗑️

Vaikka ottaisit kaikki yllä olevat estot päälle, edistynyt botti voi silti löytää tien raportointiin.

Jos haluat bottien aiheuttamat häiriöt pois GA’sta, niin minulla on hyviä ja huonoja uutisia.

Huono uutinen on se, että vanhemmassa GA’n versiossa jo kerätyn tiedon poistaminen ei onnistu kohdennetusti.

Vaihtoehtona on vain poistaa kaikki liikenne tietyltä aikaväliltä.

GA datan poistamispyyntö

Hyvä uutinen on, että tämä on mietitty paremmin uudessa Analyticsin versiossa.

GA4:ssä on mahdollista poistaa vain tietty osa datasta (kuten bottien aiheuttama):

GA4 datan poistamispyyntö

Huomioi kuitenkin, että tämä vaatii jo aika edistynyttä osaamista Analyticsin mittaustekniikasta.

Aiheesta voit lukea lisää tältä apusivulta.


Bottien tunnistaminen raporteissa 🔍

Onko mieleesi jo hiipinyt epäilys, että botit ovat aiheuttaneet valeliikennettä sivustollasi?

Tämän voi onneksi tarkastaa suoraan GA’n raportoinnistasi.

Katsotaan nyt lopuksi kaksi yleistä botin tunnusmerkkiä:

Liikenne ei tule sinun domainista

Puhuimme jo ylempänä paljon verkkoaseman tunnuksesta (hostname).

Ei siis varmaan tule yllätyksenä, että sillä voi myös tunnistaa bottien aiheuttaman liikenteen.

Tämä onnistuu uudessa sekä vanhassa Analyticsissa samaan tapaan katsomalla liikenteen hankinnan raporttia.


Vanhassa GA:ssa

Valitse raportti ”Hankinta > Kaikki liikenne > Liikenteen lähde / tulotapa” ja klikkaa painikkeesta Toissijainen ulottuvuus.

Toissijaisen ulottuvuuden valinta

Lisättäviä asioita on paljon, joten kirjoita hakuun ”verkkoaseman tunnus” ja klikkaa sen nimisestä vihreästä kentästä.

Verkkoaseman tunnus toissijaiseksi ulottuvuudeksi

Nyt näemme taulukon, johon on lisätty uutena sarakkeena verkkoaseman tunnus.

Käy läpi tätä kyseistä taulukkoa, ja etsi rivejä joissa verkkoaseman tunnus on omasta domainistasi poikkeava.

Verkkoaseman tunnus raportin botteja

Poikkeuksissa kyseessä saattaa olla bottiliikenne, minkä pystyi estämään (yllä näytetyllä) domain-suodattimella.


Uudessa GA4:ssä

Valitse raportti ”Hankinta > Liikenteen hankinta”, ja klikkaa sinisestä plus-merkistä toissijainen ulottuvuus.

GA4 valitse toissijainen ulottuvuus

Valitse ensin ”Sivu/näyttö”-kategoria ja sitten ”Palvelimen nimi”.

Palvelimen nimi toissijaiseksi ulottuvuudeksi

Älä anna nimen hämätä. ”Palvelimen nimi” on GA4:ssä sama kuin ”Verkkoaseman tunnus” vanhassa GA:ssa. Kyseessä on täysin sama asia, mutta suomennettuna eri tavalla (englanniksi ”Hostname”).

Käy läpi taulukkoa, ja etsi rivejä joissa palvelimen nimi on omasta domainistasi poikkeava.

GA4:ssä ei ole tapaa suodattaa tätä pois, mutta voit yrittää poistaa valeliikenteen tekemällä datan poistamispyynnön tämän apusivun ohjeen mukaan.


Selaimen kokoa ei ole määritelty

Toinen hyväksi todettu tapa on etsiä tapauksia, joissa dataa on kerätty Analyticsiin ilman selaimen koon tietoa.

Tämä toimii, koska botit eivät tyypillisesti jätä selaimen koon tietoa. Selaimia käyttävät enemmänkin vain oikeat netinkäyttäjät.

GA4:ssä ei ole tätä kenttää, mutta vanhassa GA’ssa selaimen koko on hyvä toissijainen tapa etsiä botteja.

Samalla tavalla kuin ensimmäisessä esimerkissä, niin mene liikenteen lähteiden raporttiim valitsemaan ”toissijainen ulottuvuus”, mutta tällä kerralla valitse Selaimen koko.

Selaimen koko toissijaiseksi ulottuvuudeksi

Yritä etsiä rivejä joissa selaimen kokoa ei ole määritetty, eli se on (not set).

Saat nämä tilanteet helpoiten näkyviin, kun klikkaat ”selaimen koko”-palkista. Tämän lajittelee rivit selaimen koon mukaan nousevasti, jolloin (not set)-tilanteet näkyvät ensimmäisinä:

Selaimen koko raportoinnissa

Toivon mukaan (not set)-riveillä ei ole suurta määrää käyttäjiä, koska nämä kävijät ovat olleet luultavasti jonkin sortin botteja.


Pidähän botit kurissa, ja kiitos lukemisesta!

Santeri Kallio profiilikuva

Santeri Kallio

Web-analyytikko – Quru Oy Helsinki – Kauppatieteiden kandidaatti

Blogissani näytän miten dataohjattua markkinointia tehdään käytännössä … Lue lisää

Vastaa

Sähköpostiosoitettasi ei julkaista.