最常用的防采集方法:
1.每个文章的命名不要有任何规律,比如你的文章是<%=id%>.htm的话,请在前面或后面生成个日期,如:20070911-1234.htm,前面的就是日期了,这样对采集新手来说是非常有效的。
2.不要把所有的文章都放在一个目录下,你可以利用日期生成不同的目录名。
3.不要所有的文章都用一个模板,制作尽量多的模板,添文章的时候可有选要用哪个模板,一般采集者的采集程序是有针对性的,他在采集前会对你的页面进行分析,如果你所有的页面排版无规律可寻,那么我想他就会放弃了。
三种实用的方法。
1、文章头尾加随机广告..
2、文章列表加随机不同的链接标签,比如<a href="",<a class="dds" href=''
3、正文头尾或列表头尾添加<!--重复特征代码-->
第一种防采集方法:
下面我详细说一下这三种方法的实际应用:
如果全加上,绝对可以有效的防采集,单独加一种就可以让采集者头疼。。
完全可以对付通用的CMS采集程序。。
在采集时,通常都是指定头尾特征从哪到哪过滤.这里我们先讲第一种方法,文章头尾加随机广告..
随机广告是不固定的。
比如你的文章内容是"欢迎访问阿里西西",那么随机广告的加入方法:
<div id="xxx">
随机广告1欢迎访问阿里西西随机广告2
</div>
注:随机广告1和随机广告2每篇文章只要随机显示一个就可以了.
第二种防采集方法:
<!--<div id="xxx_文章ID">-->
其它标题或内容...
<!--<div id="xxx_文章ID">--> <div id="xxx_文章ID">
随机广告1欢迎访问阿里西西随机广告2
<--</div>-->
</div>
<--</div>-->
这是第二种防采集方法。在文章正文页面插入重复特征头尾代码的注释。
当然,这个可以用正则去掉,但足于对付通用的采集系统。。
第三种防采集方法:
第三种加在文章的列表,随便链接样式:
<a href="xxx.html">标题一</a>
<a alt="xxx" href="xxx.html">标题二</a>
<a href='xxx.html'>标题三</a>
<a href=xxx.html>标题四</a>
原理是让采集的人无法抓到列表链接规律,无法批量进行采集.
如果三种方法全部加上,我想一定能让想采集的人头疼半天而放弃的..
如果你还问,如何防止别人复制采集呢?要做到这一点容易,把你的网站的网线拔了,自己给自己看就好了.哈哈.
如果你的文章来自原创,那像可以加上版权声明,别人随意转载时,你可以要求对方删除你有版权的文章.
以上三种方法能防住初级采集的,但是对高手来说没什么用。
下面三种方法用限制采集人的IP或SESSION的方法来达到防采集的目的。
方法一:(ASP代码):
以下为引用的内容:
<%
Dim AppealNum,AppealCount
AppealNum=10 '同一IP60秒内请求限制10次
AppealCount=Request.Cookies("AppealCount")
If AppealCount="" Then
response.Cookies("AppealCount")=1
AppealCount=1
response.cookies("AppealCount").expires=dateadd("s",60,now())
Else
response.Cookies("AppealCount")=AppealCount+1
response.cookies("AppealCount").expires=dateadd("s",60,now())
End If
if int(AppealCount)>int(AppealNum) then
response.write "网页教学网http://提醒您:抓取很累,歇一会儿吧!"