Tuplasisältöä

Useat blogisoftat ja sisällöntuotantojärjestelmät tuottavat ns dynaamisia sivuja (esim: /index.php?catid=2&blogid=1). Hakukoneilla on ollut vaikeuksia näiden sivujen indeksoinnin kanssa. Käytännössä tämä voi tarkoittaa että dynaamisesti tuotetut sivut eivät löydy Googlesta.

Tätä helpottamaan voidaan dynaamisista URLeista tehdä staattisia, kuten olen tässä blogissa tehnyt. Sivut, eli URL:it ovat muotoa http://www.optimointi.com/uutiset/item-33.html.

Ongelma tämä muutoksen kanssa on se että Google näköjään löytää myös nuo dynaamiset URL:it jotka ovat muodossa http://www.optimointi.com/uutiset/index.php?itemid=33. Googlen johtopäätös voi pahimmassa tapauksessa olla että sivustolla on ns tuplasisältöä.

Google taas ei pidä tuplasisällöstä ja voi “rankaista” sivustoa jossa sitä esiintyy.

Olen etsinyt tämän ongelman ratkomiseksi eri vaihtoehtoja joista yksi voisi olla dynaamisten URL:ien kieltäminen robots.txt tiedoston avulla. Eräät webmasterit ovat ilmoittaneet että tämä ei ole paras tapa. Kokeillaan – ilmoittelen miten asia etenee…

Esimerkki robots.txt tieodostosta

User-agent: *
Disallow: /uutiset/index.php?itemid

Kommentoi jos sinulla on asiasta kokemusta!

Kommentoi

Itse hoidin asiaa eräällä sivustollani näin:

.htaccess:iin normaalit:

Options +FollowSymLinks
RewriteEngine on
RewriteRule view(.*).html$ /view.php?ItemID=$1
RewriteRule ShowCategory(.*).html$ /ShowCategory.php?CategoryID=$1

tämän jälkeen tarvittaviin tiedostoihin

<?
if( preg_match ("(php)",$_SERVER['REQUEST_URI']) ) {
header("HTTP/1.1 301 Moved Permanently" ) ;
$newlocation = "http://".$_SERVER'SERVER_NAME'."/view".$ItemID.".html";
header("Location:$newlocation" ) ;
exit();
} ?>

ei tosiaankaan takaa 100% tulosta, mutta vähensi jonkin verran dynaamisien urlien esiintymistä hakutuloksissa.

Kiittii infosta. Itse asiassa minulla on .htaccess:ille myös yksi ratkaisu, mutta en ole myöskään ihan varma sen käytöstä.

Kirjoita kommentti

(required)

(required)