【#建站小技巧#】#如何正确设置爬虫协议# 很多人建站，robots.txt爬虫

【#建站小技巧#】#如何正确设置爬虫协议#
很多人建站，robots.txt爬虫协议容易设错，结果直接让网站在互联网上“隐身”。
博主Evgenii Pendragon就踩了坑——
他在robots.txt里写了个简单的规则：
User-agent: *
Disallow: /
所有爬虫，一律不准来。干脆利落。
结果是，发到LinkedIn的博客链接再也没有预览图，没人点击，曝光和互动都一落千丈。
一查才发现，被他自己设置的爬虫挡了。
原理是，LinkedIn这种网站的图文预览，必须要访问网页的Open Graph信息。但robots.txt直接让它们吃了闭门羹。
解决办法也很简单：别一刀切，单独给这些平台放行就行。比如他现在这样改了——
User-agent: LinkedInBot
Allow: /
User-agent: *
Disallow: /
单独加一条Allow规则，需要图文预览的网站就会被放行。
就是这么简单，你学会了吗？原文：evgeniipendragon.com/posts/i-was-wrong-about-robots-txt/

DC娱乐网

【#建站小技巧#】#如何正确设置爬虫协议# 很多人建站，robots.txt爬虫

热门分类