Kilka informacji o zmianach, które wprowadziłem pod maską bloga, które docelowo mają zmniejszyć ruch generowany przez różnego rodzaju spidery (przede wszystkim googlebot).
Blog: zmiany pod maską - One URL To Point Them All!
Bynajmniej nie chodzi mi tutaj o proste załatwienie sprawy poprzez blokowanie robotów przy pomocy pliku robots.txt. Wprost przeciwnie, chcę się stać bardziej przyjazny dla wszelkiego rodzaju wyszukiwarek. Nie chodzi mi tutaj o kwestie związane z SEO, lecz o ograniczenie ilości adresów, które wyszukiwarki indeksują.
Pierwszym krokiem było udostępnienie mapy strony (Sitemap) po to, by roboty łatwiej znajdowały treść, którą chcę, by znalazły. W zasadzie równolegle poprawiłem sposób generowania adresów tak, by polskie znaki były zastępowane ich "bezogonkowymi" odpowiednikami, a nie tak jak wcześniej - pomijane. Dodatkowo obecnie wszystkie generowane adresy powinny być "lowercase". Efektem ubocznym tych modyfikacji jest to, że w wyszukiwarkach ta sama treść funkcjonuje pod kilkoma różnymi adresami. Nie chodzi tu nawet o ewentualne "kary" nakładane przez algorytmy wyszukiwarek za powieloną treść, ale o zwiększony ruch ze strony robotów, które tą samą treść sprawdzają wielokrotnie dla każdego URLa, który posiadają. Mając na uwadze fakt, że ruch wygenerowany przez różne crawlery to jakieś 10% całości ruchu jakiemu czoła stawić musi mój blog, jest o co walczyć.
W celu ograniczenia ruchu wykonałem następujące zmiany
- określenie w pliku robots.txt ścieżek, które mogą indeksować roboty (te ścieżki, które są publikowane przez mapę strony),
- dodanie w sekcji head strony informacji o właściwym jej adresie: Specify your canonical,
- stworzenie mechanizmu przekierowania ze "starych" adresów na te "nowe" (przekierowanie przez 301),
Ciekawy jestem jak będą wyglądały efekty. Na razie spodziewam się wzmożonego wręcz ruchu ze względu na zmianę formatu adresów publikowanych w mapie strony, w dłuższej perspektywie zmiany powinny się chyba jednak opłacać. Oczywiście nie jest wykluczone, że przy tych zmianach coś zepsułem, trafi się jakieś niekończące się przekierowanie, albo inne tego typu atrakcje. Jeśli ktoś się na tego typu "niezamierzone funkcjonalności" natknie, będę wdzięczny za informację.