Základy OpenRefine pro SEO

Při analýze klíčových slov musíte téměř vždy řešit následující dva problémy:

  • duplicitní klíčová slova – týká se především případů, kdy dáváte dohromady klíčová slova z více zdrojů, ale stačí jeden nástroj, který vám prostě některá klíčová slova zobrazuje opakovaně (Nástroj pro návrh klíčových slov v Skliku)

  • různé tvary klíčových slov – typicky např. s diakritikou a bez

Naším cílem dnes bude zajistit odstranění duplicit a sjednocení různých tvarů. Použijeme k tomu OpenRefine (dříve Google Refine) – jedná se o silný nástroj, se kterým je dobré se postupně sžít, takže mu dáme přednost přes Excelem a jinými nástroji.

Na konci článku najdete tahák pro nás zapomnětlivé.

Instalce OpenRefine

Stačí si zde vybrat balík vhodný pro vaši platformu. Instalace nebývá složitá – používám elementary OS, kde stačilo balík rozbalit a spustit ./refine v terminálu. Pro Windows je nejspíš ke stažení nějaký .exe soubor, který by se měl o vše postarat.

Program běží na vašem PC a ovládá se přes prohlížeč – stačí po spuštění do adresního řádku zadat http://127.0.0.1:3333

Import dat a vytvoření projektu

Abyste mohli s daty pracovat, nejdřív si je tam musíte importovat a vytvořit si první projekt. Pro naše potřeby budeme používat soubor s testovacími daty. Obsahuje na každém řádku jedno klíčové slovo a údaj o hledanosti. Pro jednoduchou neobsahuje žádné další údaje.

Pro ukázku jsem si zvolil jako téma [mobilní klimatizace].

Krok #1: Klikněte na “Create project” (Vytvořit projekt). Data můžete importovat z URL adresy, schránky apod. My zvolíme lokální soubor (“This computer”).

image07

 

Krok #2: Zkontrolujte, zdali se data importovala v pořádku. Pokud je vše OK, můžete vpravo nahoře projekt pojmenovat a kliknout na “Create Project” (Vytvořit projekt).

image08

Krok #3: Předtím, než se pustíme do boje s duplicitami, musíme seznam seřadit podle klíčového slova. To provedeme přes malý modrý čtvereček u sloupce s klíčovými slovy, zvolíme Sort (“Řadit”) s vybereme řazení podle textu od A do Z.

image10

Trochu více vpravo se nám objevila nová nabídka “Sort” (Řadit), kde zvolíme “Reorder rows permanently” (Trvale změnit pořadí).

image05

Krok #4: Nyní již máme data připravena a můžeme začít přímo s odstraněním duplicit. V nabídce (modrá šipka) u sloupce s klíčovými slovy zvolíme “Edit cells -> Blank down” (Editovat buňky -> Vymazat následující). Tím zajistíme, že jsou duplicitní klíčová slova vymazána. Zůstalo nám tu ale několik prázdných řádků.

image04

Krok #5: Prázdné řádky identifikujeme tak, že dáme opět nabídku u sloupce klíčových slov a zvolíme “Facet -> Text facet” (vsuvka: jak se překládá facet, je to toto?).

image01

Vlevo přibylo pole v části “Facet / Filter”. Najdeme řádek (blank) a označíme jej. Ze seznamu klíčových slov jsou odfiltrována jen ta prázdná. Nyní je zvolíme “All -> Edit rows -> Remowe all matching rows” (Všechny -> Editovat řádky -> Odstranit všechny odpovídající řádky).

image02

OK, duplicity jsou pryč. Máte pravdu: v Google Docs či LibreOffice by to bylo trochu rychlejší, ale to důležité teprve následuje.

Sjednocení různých variant klíčových slov

Krok #6: Nejprve si křížkem vlevo zavřete Facet, abyste zase viděli všechna klíčová slova. V nabídce u sloupce s klíčovými slovy zvolte “Edit cells -> Cluster and Edit” (Editovat buňky -> Sdružit a editovat).

image12

Zobrazí se vám nabídka viz obrázek níže. Standardní nastavení metody na “key collision” a keying function na “fingerprint” bývají často nejlepší, ale zkuste si s nastavením pohrát a ideálně provést sjednocení několikrát s různým nastavením (pro snížení chyby).

image11

Krok #7: A můžeme sjednocovat. Stačí ve sloupci “Values in Cluster” zvolit ten tvar, který považujete za nejlepší (ten se správnou diaktritikou apod.) Případně můžete do “New Cell Value” (Nová hodnota buňky) dopsat vlastní hodnotu. Po najetí na skupinu klíčových slov se vám objeví odkaz “Browse this cluster” (Prohlížet tuto skupinu) – ten v novém okně zobrazí jen řádky v této skupině. Můžete tak zkontrolovat hledanost jednotlivých klíčových slov a další hodnoty a podle toho vybrat primární slovo pro skupinu.

Následně stačí kliknout na “Merge Selected & Re-Cluster” (Sjednotit označené a znovu seskupit). Nyní můžete zkusit aplikovat jinou metodu a “Keyring function” a sjednocení provést ještě jednou (nebo několikrát).

Teď jsme dosáhli toho, že je v každé sjednocené skupině použito jedno klíčové slov. Tím nám vznikla zase spousta duplicit, jenže návod výše nelze použít – nechceme tyto duplicity pouze odstranit, ale zároveň je u nich potřeba sečíst hodnotu hledanosti.

Krok #8: Postup je následující: Seřazení položek podle sloupce s klíčovým slovem (nabídka pod modrou šipkou -> Sort -> Sort…), poté nabídka Sort -> Reorder rows permanently.

Poté dáte znovu modrou šipku u sloupce s klíčovým slovem a nyní zvolíte Edit cells -> Blank down. Uvidíte něco jako obrázek níže:

image11

Předtím než řádky s prázdným klíčovým slovem odstraníme, je třeba hodnotu hledanosti přenést nahoru ke klíčovému slovu, ke kterému patří.

Nyní budeme pracovat se sloupcem hledanosti. Klikneme na modrou šipku a zvolíme “Edit cells -> Join multi-valued cells” (Editovat buňky -> Spojit buňky s více hodnotami).

image06

Vyskočí na nás dialogové okno s předvyplněnou čárkou. To jen potvrďte.

Nyní jsou duplicity pryč a u klíčových slov, které se sjednotili jsou všechny hodnoty hledanosti odděleny čárkou (např. 59, 68, 13).

S tím už si poradíme relativně snadno. Stačí u sloupce s hledaností opět kliknout na modrou šipku a zvolit “Edit cells -> Transform” (Editovat buňky -> Transformovat).

image011

Do pole Expression jen vložte následující výraz:

forEach(value.split(','),v,v.toNumber()).sum()

V náhledu, který se hned zobrazuje, můžete zkontrolovat, zdali se součet provedl správně.

image00

Hotovo! :-) Tlačítko “Export” vpravo nahoře vás z OpenRefine vysvobodí a můžete si pročištěná data otevřít třeba v Google Docs.

Tahák pro zapomnětlivé:

Duplicity:

  1. Místní nabídka slupce klíčových slov -> Sort -> řadit podle abecedy vzestupně

  2. Sort -> Reorder rows permanently

  3. Místní nabídka slupce klíčových slov -> Edit cells -> Blank down

  4. Místní nabídka slupce klíčových slov -> Facet -> Text facet

  5. Vpravo vybrat (blank)

  6. Místní nabídka prvního sloupce -> Edit rows -> Remowe all matching rows

 

Sjednocení klíčových slov:

  1. Místní nabídka slupce klíčových slov -> Edit cells -> Cluster and Edit

  2. Naklikat sjednocení -> Merge Selected & Re-Cluster

  3. Místní nabídka slupce klíčových slov -> Sort -> řadit podle abecedy vzestupně

  4. Sort -> Reorder rows permanently

  5. Místní nabídka slupce klíčových slov -> Edit cells -> Blank down

  6. Místní nabídka sloupce hledanosti -> Edit cells -> Join multi-valued cells -> nechat “, ” a dát OK

  7. Místní nabídka sloupce hledanosti -> Edit cells -> Transform

  8. Do Expression vyplnit:
    forEach(value.split(','),v,v.toNumber()).sum()

  9. OK

Odkazy

10 Comments Základy OpenRefine pro SEO

  1. Filip Podstavec

    Díky za pěkné shrnutí Honzo, pouze bych změnil nadpis, jelikož využití pro OpenRefine (Google Refine) při analýze klíčových frází je mnohem více, například:
    – Získávání dat o vyhledávanosti frází
    – Automatické přidělování nejvíce odpovídající landing page na základě obsahu domény
    – Automatická segmentace/klasifikace dat na základě vzorů
    -… a mnohem více

    Takto nadpis zavádí k jedinému využití při tvorbě AKW.

    Btw.: Pro ty, kteří se po clusterizaci frází dostali do bodu, ve kterém mají sloupec „Konkurence“ a neví jak udělat průměr hodnot:
    with(value.split(‚,‘), a, forEach(a, v, v.toNumber()).sum() / a.length())

    Případně pokud něco z výše uvedeného nevíte a chcete se naučit, dejte mi vědět na email filip@podstavec.cz – 17.12. pořádám v Praze workshop na téma „Google Refine pro SEO konzultanty“.

    Reply
    1. Pavel Herůfek

      Skvělý návod – moc mi pomohl s prvními kroky v OpenRefine a pochopení principů fungování programu.

      *technická poznámka k průměru hodnot od Filipa – apostrof zaměnil za čárku. Správné zadání do expression:
      with(value.split(‚,‘), a, forEach(a, v, v.toNumber()).sum() / a.length())

      Reply
  2. Jan Onesork

    Děkuji Filipe za doplnění. S nadpisem máte pravdu – zkracoval jsem až moc.

    Má ten workshop URL, abych na něj mohl z článku odkázat?

    Reply

Leave A Comment

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Můžete používat následující HTML značky a atributy: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>