【#建站小技巧#】#如何正确设置爬虫协议# 很多人建站,robots.txt爬虫

量子位 2025-07-18 18:01:42

【#建站小技巧#】#如何正确设置爬虫协议# 很多人建站,robots.txt爬虫协议容易设错,结果直接让网站在互联网上“隐身”。 博主Evgenii Pendragon就踩了坑—— 他在robots.txt里写了个简单的规则: User-agent: * Disallow: / 所有爬虫,一律不准来。干脆利落。 结果是,发到LinkedIn的博客链接再也没有预览图,没人点击,曝光和互动都一落千丈。 一查才发现,被他自己设置的爬虫挡了。 原理是,LinkedIn这种网站的图文预览,必须要访问网页的Open Graph信息。但robots.txt直接让它们吃了闭门羹。 解决办法也很简单:别一刀切,单独给这些平台放行就行。比如他现在这样改了—— User-agent: LinkedInBot   Allow: /   User-agent: *   Disallow: / 单独加一条Allow规则,需要图文预览的网站就会被放行。 就是这么简单,你学会了吗?原文:evgeniipendragon.com/posts/i-was-wrong-about-robots-txt/

0 阅读:1
量子位

量子位

关注前沿科技资讯,追踪人工智能动态