Mein Code - Basis wird zwischen mehreren Umgebungen (live, Inszenierung, dev) und Sub-Domains geteilt ( staging.example
, dev.example
usw.) und nur zwei sollten gecrawlt werden dürfen (dh. www.example
Und example
). Normalerweise würde ich ändern /robots.txt
und hinzufügen Disallow: /
, aber aufgrund der gemeinsam genutzten Codebasis kann ich nicht ändern, /robots.txt
ohne alle (Unter-) Domänen zu beeinflussen.
Irgendwelche Ideen, wie man das macht?
sub.example.com/robots.txt
, daher müssten Sie je nach Subdomain etwas tun , um eine andere Antwort zu erhalten. Sie müssen mod_rewrite nicht verwenden, aber es ist eine Technik, die ich schon mehrmals gesehen habe. Wennrobots.txt
es dynamisch generiert wird, können Sie die Antwort im serverseitigen Code (z. B. PHP) ändern.robots.txt
könnte darin bestehen, die Indizierung zu verhindern, anstatt sie zu crawlen, indem einX-Robots-Tag: noindex
HTTP-Antwortheader gesendet wird, wenn auf solche Subdomänen zugegriffen wird (was auch in .htaccess erfolgen kann). Obwohl ich denke, dass das Verhindern des Kriechens wahrscheinlich vorzuziehen ist. (?)robots.txt
funktioniert nur, wenn es in der Wurzel vorhanden ist.Sie müssen
robots.txt
für jede Subdomain-Website eine separate Website hochladen , von der aus auf sie zugegriffen werden kannhttp://subdomain.example.com/robots.txt
.Fügen Sie den folgenden Code in hinzu
robots.txt
Eine andere Möglichkeit besteht darin,
<META>
auf allen Seiten ein Robots- Tag einzufügen .quelle
/robots.txt
und hinzufügenDisallow: /
, aber aufgrund der gemeinsam genutzten Codebasis kann ich keine Änderungen vornehmen,/robots.txt
ohne alle (Unter-) Domänen zu beeinflussen."Ich würde das Meta-Tag von der HTML-Seite entfernen und es abhängig von Ihrer Subdomain dynamisch erstellen. zB verwenden wir Subdomain dev. zur Entwicklung. Im Pageload-Event haben wir also Folgendes:
quelle