Případová studie: Generování unikátních textů bez vzniku duplicit

Obrázek v intru
tlačítko

Obsah je král, Kontext královna

Každý kdo vlastní nebo spolupracuje na nějakém online projektu (od prezentačního webu po e-shop) se již setkal s „problematikou“ tvorby obsahu. Heslo „obsah je král“ je dnes již notoricky známé a je tomu stále tak. Zároveň se však jedná o jednu z časově, popřípadě finančně, nejnáročnějších částí budování webu.

Kromě samotného krále však nesmíme zapomínat ani na „královnu“, za kterou se označuje kontext či smysl daného textu. Aby měla práce na obsahu smysl, měl by být unikátní, ideálně na každé stránce, pro každou kategorii, každý produkt… Cokoli co na webu uživatel může najít by mělo být relevantně popsáno. Proč? Protože tím dáváme nejen vysvětlení samotnému uživateli, který tak ví co na dané stránce může hledat, ale zároveň dáváme i „náboje“ robotům vyhledávačů. Ti poté na dotaz uživatele prostřednictvím samotného vyhledávače (Google, Seznam atp.) pravděpodobněji zobrazí vaší stránku, jelikož mu podstrkáváte více informací k pochopení vašeho zaměření a kontextu. Tím se stáváte v jeho „kybernetických očích“ relevantnějším zdrojem.

Budování kvalitního obsahu tak posouváte váš projekt výše, což může ve výsledku znamenat rapidní zvýšení organického dosahu. Tedy, že váš web bude lépe dohledatelný, s čímž může souviset i ušetření nemalých prostředků na propagaci.

Základní pravidla tvorby obsahu

  • Relevantní a kvalitní obsah
  • Unikátní text (zamezení duplicit, nekopírování textů z jiných zdrojů)
  • Kontext
  • Psát texty pro lidi, ne pro vyhledávače
  • Kontrola – gramatické chyby vás nesrazí v očích vyhledávače, ale nepomohou v očích uživatele

Případová studie

Úvod do problematiky

To, proč je obsah důležitý jsme si již vysvětlili. Často však narážíme na nedostatek času, kapacit či finančních zdrojů pro tvorbu textů. Z několika důvodů se to týkalo i našeho vlastního projektu herní databáze CSHDD, která disponuje více než 40 000 hrami v databázi a napsat tak unikátní texty ke každé z nich je takřka nereálné. V některých pravidlech, kterými bychom se správně při budování obsahu měli držet, jsme tak museli ustoupit, zároveň jsme však chtěli najít vhodný kompromis. Jelikož jsme věděli, že u většiny známých her se stejně nepropracujeme na první místa ve vyhledávání, jelikož ty jsou obsazeny buď oficiálními stránkami her, tradičními magazíny nebo například Heurekou, tak jsme u nich přistoupili k tomu, že jsme jejich popis propárovali s uvedenými zdroji. Získali jsme tak naprosto relevantní obsah k daným titulům, zároveň jsme se však nevyhnuli duplicitám. To jsme však byli ochotni obětovat. Co ale s dalšími hrami, které relevantní obsah v češtině nemají? To jsme měli nechat tisíce her bez obsahu a doufat, že se nám jej podaří pomocí vlastní nebo uživatelskou postupně naplnit? Ano, to bylo řešení, ale pro nás nedostatečné, a proto jsme vymysleli vlastní dočasný způsob. Vygenerování relevantního obsahu na základě dat, které jsme o hrách měli k dispozici.

Realizace

Jelikož jsme znali základní data typu Název hry, Rok vydání, Vývojářské studio, Vydavatele, Žánr a další kategorie, vymysleli jsme způsob, jak vygenerovat vlastní unikátní texty založené na daných datech. V ideálním případě by každá hra měla být popsána smysluplným souvětím. Proto jsme vytvořili jakési balíčky vět, které měly v dané sekci vždy stejný význam, ale zároveň byly popsány jinými slovy. Tyto balíčky vět jsme pevně uspořádali a vložili mezi ně prostor pro data uvedená výše. Tím nám postupně vznikaly logická souvětí, která se však dala mezi sebou kombinovat. Mohli jsme tak vygenerovat souvětí, které vzalo vždy první větu z daného balíčku v pevně daném pořadí a tím se složila věta. Abychom však získali obrovské množství variant, generovali jsme tato souvětí nezávisle na pořadí věty v balíčku. Jelikož daný balíček vždy popisoval významově to stejné, pořadí nehrálo roli. Tímto způsobem jsme schopni vygenerovat relevantní texty pro každou hru, která nemá napárován oficiální popis. Pro lepší přehlednost se můžete podívat na tabulku, ze které jsme generovali obsah a na konkrétní ukázku toho, co z našeho snažení vzniklo.

Ukázky

  • Dokument pro generování (jednotlivé balíčky vět, proložené prostorem pro reálná data)

 

  • Ukázka vzniklého textu

Hráli jste snad všechno a už opravdu nevíte kam sáhnout? Možná vás osloví hra Mortal Kombat, která byla vydána v roce 1992 vývojářem Probe Software a pod hlavičkou vydavatelství Virgin Interactive Entertainment (Europe) Ltd.  Tuto hru si můžete zahrát prostřednictvím platforem Arcade, Sega Mega, Game Boy, Super Nintendo, Amiga, Sega Master System, Sega Game Gear, PC DOS, Sega CD.  Pokud bychom hru chtěli žánrově zařadit, tak by se jednalo o Bojové a sportovní hry, které řadíme zejména do kategorie Bojové. Neváhejte a vyzkoušejte si tuto dnes již klasiku!

V rámci herního portálu CSHDD jsme s tímto konceptem přišli poprvé. Od té doby se nám však podařil aplikovat i v jiných vlastních projektech a dnes již víme jak balíčky připravit tak, aby vzniklá souvětí byla co nejkvalitnější. Jsme tak schopni v konkrétních případech připravit spoustu kvalitního, unikátního obsahu, který dokážeme vygenerovat v poměrně krátkém čase. Toto řešení není aplikovatelné na každý typ obsahu, ale tam kde to možné je, tam ušetří spoustu času. 

Výsledek

V minimálním čase (jeden večer) se nám podařilo vygenerovat stovky/tisíce unikátních větných spojení, kterými jsme schopni naplnit obsah pro hry, které nemají vlastní popis. Porovnávat to s ručním psaním textů nebo překládáním z cizojazyčných zdrojů ani není možné, čas a cena je naprosto nesrovnatelná. Zároveň se tímto krokem zvyšuje pravděpodobnost v rámci dohledatelnosti.

Zbývá jediné. Pojďme spojit síly.