游客

标题:美丽说网站的SEO手段探讨 - 用户和搜索引擎区别对待
正文:
都说《美丽说》网站SEO做的很牛叉，那么今天我们来验证探讨一下，它是怎么做SEO的 - 针对搜索引擎输出网页。　　看完美丽说单品页列表的HTML源码，觉得很奇怪，他们居然是用javascript脚本输出数据，然后再用javascript模板引擎渲染展示，这样搜索引擎能抓取到内容吗？图1：Meilishuo.config.p4p用来存储条目数据图2：使用javascript模板引擎渲染条目内容　　随便找一个美丽说上“连衣裙”的网页，对应的URL=upload/2014/7/201407311404115230.jpg" alt="百度搜索“美丽说连衣裙”" width="440" height="148" >图3：连衣裙页面在百度搜索结果中　　使用百度快照功能查看该网页被百度抓取的内容（同图4），可以清楚明确的看到，缓存的网页里所有图文条目都是HTML，并未出现javascript数据和渲染代码。这就令我诧异了，难道是所谓“大站原则”，美丽说用某种特殊的协议让百度理解他们的网页内容？　　以上的疑问都基于百度搜索优化一条关于SEO作弊行为的阐述：（参考文章1）服务器端进行特殊处理：网站自身或外链针对百度spider与用户返回不同内容。　　这种SWO作弊行为叫伪装（Cloaking），通常是说在Web服务器上使用一定的手段，对搜索引擎中的巡回机器人显示出与普通阅览者不同内容的网页。　　正因为这条规则，所以我并没有想美丽说是否用这个方法操作导致前面提到的现象，但我无法找到更合理的解释，所以，是时候验证一下这事了。　　写一个简单的抓取程序，伪装成baiduspider去抓取该页面的内容（如图4），看完抓取来的HTML内容，前面的几个疑问解开了，美丽说的确在用典型的“伪装”手法来操作网页。在抓取过程中，发现美丽说网页对于空User-Agent的请求直接返回404页面，这应该是为了防采集设置的小门槛吧，不然没必要添加这一步去增加资源负担。　　理解了操作手法，但还是不清楚其中的用意，我能想到的有：　　1、防止采集。　　不解：即便javascript输出数据，对于执意要采集的人也不是个难事。只是多一个门槛？代价值得
[<<][[1]][2][>>]

查看评论(0)
发表评论

 首页