据悉百度将今年推出原创星火计划,重点整治互联网上低质量的垃圾内容,并且提升内容优质的原创网站,这对于站长界和SEO界来说似乎是一件天大的好事。可以肯定的是百度迟早会推出这样的计划或者算法,谷歌在2011年推出了熊猫算法,意在打击垃圾内容,百度之前也推出过类似的算法,但围绕原创和转载之间的矛盾依旧得不到根治,事实上从技术的角度上很难去根治。例如:一篇文章在A站上先发表,百度还没有收录就被B站转载,而B站的权重比A站高很多,这样一来B站会先收录,百度就误以为文章属于B站的原创。那么通过技术手段识别原创和转载的方法有哪些呢?
NO1:根据文章收录的时间判断
原则就是谁先被收录判定谁是原创,举个例子:我写了这篇文章先发布到自己的小站,然后再投稿到A5站长网,但是A5站长网权重高,因此先收录了这篇文章,这样我自己的小站就成了转载别人的文章了,显然这是很不公平的,以往这种现象一种存在,站长们也是无可奈何。根据时间去判断是否原创还要求百度蜘蛛的爬行速率更快,肯定要比现在快很多,当然这对服务器的压力肯定不小。
NO2:根据文章的标题去判断
这种方法更简单,根据互联网上是否有相同标题的文章,以此来判断某篇文章是不是原创,平常用intitle这个命令就可以搜索到所有相同标题的文章,但这种方法比第一种更草率,互联网上同样标题不同内容的文章实在太多了,也许可以再根据文章内容的字节数来判断。
以上笔者说的两种方法都很不靠谱,内容的原创性实在很难去判断,其实互联网上有太多的转载内容,包括一些门户类网站不也是经常转载别人的文章吗,像新浪、网易等等。还有大量的小说网站和电影网站都涉及到侵权的,那些小说和视频也都是无版权的,如果百度的原创星火计划真的要赶尽杀绝,那恐怕就不光是百度技术的问题了,还牵涉到互联网版权的问题。而且那么多站点都是会受到影响,被服务商关闭站点,被百度K站。话说回来不一定原创的内容就是用户想要的东西,那些小说站和电影站都有存在的意义,百度重视用户体验,所以肯定不会这么干,我估计百度的原创星火计划会针对某些行业下手。猜想一下会是哪些类型的站点呢?
个人感觉是中小型站点,重点是企业站和SEO类的站点,还有医疗行业的站点。这些类型的站点也许是百度星火计划重点整治的对象,比方说为数众多的企业站,可以说绝大多数企业站的内容都比较垃圾。大量的转载其他站点的内容,如果百度星火计划对拥有优质内容的企业站提升权重,那对SEO行业影响会很大。再说说医疗行业的站点,情况是类似的,医疗行业管理的非常严格,所以对医疗站的内容也应该要求更高,例如:不得发布一些虚假的广告信息。2013年注定是个不平静的一年,今年百度已经推出了绿萝算法,前段时间又发布了外链标准文档,不过百度原创星火计划是不是纸上谈兵,现在谈还为之尚早!