Greenflare: kontrola odkazů a extrakce dat z webu bez omezení

Většina z vás asi zná Screaming Frog SEO Spider. Je to skvělý nástroj pro kontrolu webu s omezením bezplatné verze na 500 URL. Greenflare je podobný. Je však zcela zdarma bez omezení a slibuje slušný výkon i na slabém počítači. Navíc umí extrahovat jakoukoli informaci na webu.

Pokud se svým webem aktivně pracujete, případně se staráte o weby klientů, čas od času dojdete do situace, kdy narazíte na nefungující odkazy. Možná proto, že jste nechtěně změnili adresu podstránek a nenalinkovali je správně z textů v jiné části webu. Možná proto, že odkazujete na cizí stránky, které již změnili svou strukturu.

Jednoduchý bezplatný program Greeflare vám pomůže takové problémy odhalit. Nalezne nefungující odkazy, ale také obrázky, JavaScript nebo CSS stylesheety, které nejdou načítat. Zkrátka je to takový pohotový nástroj pro kontrolu webu.

Greenflare

Podobných nástrojů je více. V perexu zmíněný Screaming Frog SEO Spider platí za jistý etalon v této oblasti. Ovšem myslím, že Greenflare jej drtivé většině z vás zcela vynahradí. Je zadarmo, bez omezení a funguje na Windows, v Linuxu i macOS.

Jak zkontrolovat odkazy na webu s Greenflare

Po stažení aplikace z webu ji jednoduše nastartujte a před první kontrolou webu se porozhlédněte, jaké volby nabízí ve svých čtyřech záložkách:

Crawl – až si projdete následující nastavení, na tuto kartu se opět vraťte. Zadejte URL adresu domovské stránky webu a spusťte kontrolu.

Settings – zde nastavujete, které prvky stránky se budou kontrolovat. Doporučuji zapnout i kontrolu obrázků, CSS a JavaScriptu. Minimálně na macOS nebyla zapnutá.

Exclusions – Greenflare projde automaticky celý web, pokud jej máte správně prolinkovaný. Přesto mohou být adresy, které na webu kontrolovat nechcete. A zde je prostor pro vytvoření jejich seznamu.

Extractions – zde se nabízí prostor pro poněkud nenápadnou, ale za to zajímavou funkci extrakce dat z kontrolovaného webu. O tom později.

Po spuštění kontroly a jejím dokončení Greenflare vytvoří seznam procházených adres. Podobně jako v konkurenčních aplikacích uvidíte ve sloupečcích slovní stav procházení a číselný kód odpovídající http stavu. Tedy třeba OK 200, Not found 404 a podobně.

Seznam lze seřadit klepnutím pravým tlačítkem myši do záhlaví některého ze sloupečků, případně jej rychle vyfiltrujete podle nějakého kritéria pomocí programové nabídky View. Zobrazený pohled vyexportujete do CSV pomocí nabídky File. Data tak v případě potřeby zpracujete i v jiných aplikacích.

Greenflare

Jak extrahovat data z webových stránek

Na kartě Settings vám Greeflare nabízí zapnutí kontroly značek title, meta description, h1 a h2. Pokud byste rádi získali obsah jiných prvků na stránce, přidali jej do tabulky s výsledky procházení webu a pak jej třeba exportovali do CSV, přepněte se na kartu Extractions.

To je totiž místo, kde pomocí CSS selektoru specifikujete prvek, jehož obsah má Greeflare zařadit do reportu. Pokud není CSS selektor jednoznačný, pak se do reportu vloží obsah prvního nalezeného prvku. Rovněž dojde k odebrání HTML značek z tohoto prvku.

Získaná data jsou zobrazena v posledních sloupečcích kontrolního reportu. Extrakcí si samozřejmě připravíte, kolik potřebujete. Jednoduše tak lze získat třeba jména autorů článků, data publikace nebo informace o vyplněných značkách OpenGraph pro sociální sítě.

Jakkoli je totiž specifikace CSS selektorem pohodlná, Greenflare vás na ni neomezuje a nabízí rovněž možnost specifikovat prvek pomocí XPath. Díky tomu extrahujete úplně cokoli, od značky po hodnotu nějakého atributu kdekoli na stránce.

Vřele doporučuji Greeflare vyzkoušet. Do softwarové inventury za loňský rok se mi nevešel, ale pravděpodobně mi v počítači zůstane a doplním s ním SEO Power Suite. U ní si totiž platím verzi bez možnosti exportu pro klienty.

Tagy

Buďme ve spojení, přihlaste se k newsletteru

Odesláním formuláře souhlasíte s podmínkami zpracováním osobních údajů. 
Více informací v Ochrana osobních údajů.

Autor článku: Jan Polzer

Tvůrce webů z Brna se specializací na Drupal, WordPress a Symfony. Acquia Certified Developer & Site Builder. Autor několika knih o Drupalu.
Web Development Director v Lesensky.cz. Ve volných chvílích podnikám výlety na souši i po vodě. Více se dozvíte na polzer.cz a mém LinkedIn profilu.

Komentáře k článku

Přidat komentář

Odesláním komentáře souhlasíte s podmínkami Ochrany osobních údajů

reklama
Moje kniha o CMS Drupal

 

Kniha 333 tipů a triků pro Drupal 9


Více na KnihyPolzer.cz

Sledujte Maxiorla na Facebooku

Maxiorel na Facebooku

Poslední komentáře
Hosting pro Drupal a WordPress

Hledáte český webhosting vhodný nejenom pro redakční systém Drupal? Tak vyzkoušejte Webhosting C4 za 1200 Kč na rok s doménou v ceně, 20 GB prostoru a automatické navyšováním o 2 GB každý rok. Podrobnosti zde.

@maxiorel na Twitteru

Maxiorel na Twitteru