Google和Baidu是怎么样研究我们的

作者:风飘雪    文章来源:zz0371.blogcn.com    点击数:    更新时间:2008-5-8
Google都拿走了哪些数据, 是不是我网站的全部?

下面是我对这个问题的看法(借用了Rico和Wohere的网站)

首先,写一个小程序用来拿Google, Baidu的数据, 因为每个站点被收录的内容都不是小数字, 手工做可能就要死人了.

主界面, 把全部的搜索结果整理出来, 可以过滤URL


k555.cn这个域名在Google和Baidu的收录情况(Google 215, Baidu 612), 所以从搜索引擎来讲, Baidu收录更多


发现k555.cn在Baidu的收录中有263 (43%) 的记录的标题是"打印文章", 但Google中只有一条, 是不是Google以为这些都是类似的了呢? 其实不应该算类似的. 再者, 这样的标题也不利用户的搜索, 可以说浪费了在搜索引擎上的们置了.


另一个有趣些的数据(下面两图):
K555.cn/Soft 的数据在Baidu 14(2%) Google 140 (65%)
K555.cn/Article的数据在Baidu 564(92%) Google 16 (7%)
Baidu更在乎Article这个路径的页面, 但Google反尔是更重视Soft下面的数据, 可见Google与Baidu的拿数据的原则是大相径庭, 甚至几乎成了互补, 我想Rico应该可以找到些办法来跟据它们的胃口来Feed它们吧
搜索引擎对于动态页面不会用主动的方法去爬, 所以对于这两种页面的信息发布页应该就是这个问题产生的跟源了吧.

(同上)


同rico一样, Baidu的数据要比Google的多得多(760条是在Baidu上能拿到的最大数字, 如果想要更多就需要细化关键字了, Google也同样不会超过1000)


关于zhihere.com的List.asp页面, Baidu应该是尽力了, 但Google仍然是报着类似页面的原则


Baidu的数据量虽大, 但不一定代表全, 比如有关收藏的页面



还是简单的总结一下吧
1.Google对比Baidu, Google似乎有着强大的智能, 数据全而且对类似页面进行过滤, 去掉大部分重复的, 而Baidu却象是仍然在靠体力工作, 数量大但却不一定全, 从技术上来看, Baidu想真的学到Google的本领还是要时间的.
2.页面标题还是要注意的一个大问题, k555.cn中的"打印页面"是不是可以在前面加上文章的标题? zhihere的标题有很多是"知合网-XXXX", 是不是可以改为"XXXX-知合网", 因为知合网对于关键字来讲不是重要的, 很少会有人直接搜"知合网"查找你, 如果能把现在的标题内容放在"知合网"的前面, 应该能把这些页面对于相应的关键字的级别多少有些好处吧? 因为关键字的顺序也是很重要的

 

3.其实许多时候, 除了学那些在网上贴得到处都是的那些文章外, 我们也需要去想一下是不是存在其他的途径来帮助我们解决问题.
4.这里只是我抛砖引玉的一个简单想法和实践, 如果能集更多的人智慧, 我想这个学习小组应该真的是前途远大咧.

  • 上一篇文章:
  • 下一篇文章: