防止网站信息被人采集的方法-星旺坡

管理首页

楼主是没做过规则吧,做多几个重复的代码,采集找的是文章内容唯一性,如果重复,别人也不会用这个代码,不过的确,自己做的站被天天采集也很闷的,偶的站现在也天天被一个陕西的挂着采,貌似是无需人工采集,连动手都不用,挂在上面三四天啦,后面给自己的站加上干扰码.不过据说也没用,还特意禁了他采集的IP段,禁一年,这两天他没来的,昨天半夜突然又过来,还是那个IP段,全是无效越权访问,嘿嘿
战斗持续中..................

呵呵!根本就没有用.我想只要一个代码就搞定你!
那就是根据你的设置原理.把你的障碍消除.

就是写个过滤规则.把这个所有包含在<-- -->的代码全部过滤..不费那么多事.

个人觉得理论上.如果你不是把它生成图片的话.什么样的文章都可以采集.问题的关键就是找到规律而已.不服的话你拿出例子来我写给你看!

没有用的，我一个正则过滤就把你的过滤了，你的方法，除了增加了你的页面大小，耗费了流量以外，没有任何作用。

还是我来说点实用的思路，基本上，对正则一知半解的人是破不了的
用js写随机字符，包括"< >"和中文字符，用js控制底色，让他过滤的话，就会将所有内容都过滤掉
所有内容加上样式表class控制，不同的是，每个class都会被随着页面刷新，随机加入编号...你慢慢找规律去吧...
一不留神，唔，怎么采了篇空白内容回来..唔，这篇采到了，怎么全是乱码...

这个思路也不是没特别(合法性请自查)的，只是，我相信，会难倒很多采集新手、中手啦...

总的来说，是不存在不能被采集的内容的

[原创申精]巧妙运用HTML防止被采集!绝对有效!

采集,这里的人都知道是什么意思吧~~~也许你刚开始建站的时候发现它确实很好用,只需设置一下,唰的一下,真的是瞬间建站,感觉好爽.

可是后台,当你被别人采集的时候,你不喜欢了吧?眼看着天天靠采集自己来更新的站竟然一个个流量比自己高,那个气啊~~
尤其是我,自己好不容易精心编辑的文章,被人家一下采集去,好几个站我眼睁睁的看着天天就采集我更新,而人家流量全比我高,好郁闷啊.

于是便好好研究了下怎么来防止被采集.仔细想了好久,终于找出个方法来,呵呵,虽然很简单,但效果绝对有的!,先看看效果截图:

首先考虑采集的原理就是利用文章页面每个页面上文章前和后的代码是一样的来截取的,一天研究采集的时候看到动易下面一句话"代码在采集页面是唯一的才能准确采集",突然灵机一动,既然这样,那我们就给故意制造几个重复的代码来!看你还能截取的成功不!

不过又想,既然代码重复了,那页面内容出现重复怎么办呢?要想把代码加进网页里又不让它在浏览时生效...对了!用标记啊!

马上测试:我内容页面文章内容附近的代码是:

CODE:[Copy to clipboard]              <table cellSpacing=0 cellPadding=4 width="100%" border=0>
                <tr>
                  <td class=titleNewsRemark height=72>
                  <P><FONT color=#f26c4f>文章作者：</FONT>{$Author} 录入时间：{$UpdateTime} 来源：{$CopyFrom} <BR>网站声明：本站的文章除部分特别声明禁止转载的专稿外，可以自由转载.但请务必注明出处和原始作者，文章版权归本网站与文章作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。</P></td>
                </tr>
              </table>
            </td>
          </tr>
        </table>
        <table height=117 cellSpacing=5 cellPadding=0 width="100%" border=0>
          <tr>
            <td class=content id=fontzoom style="WORD-WRAP: break-word" height=40>
<SCRIPT language=jscript.encode src="/adnew/nr_q.js"></SCRIPT><br>{$ArticleContent}</td>
          </tr>
        </table>
</div>
        <table cellSpacing=0 cellPadding=5 width="100%" border=0>
          <tr>
            <td>{$PrevArticle}<BR>{$NextArticle} </td>
          </tr>
        </table>
那么他采集的时候肯定就用的这里的来截取文章内容,我们就制造这里的代码让重复就好了.
制造的用于重复的代码如下:

CODE:[Copy to clipboard]<BR>网站声明：本站的文章除部分特别声明禁止转载的专稿外，可以自由转载.但请务必注明出处和原始作者，文章版权归本网站与文章作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。</P></td>
                </tr>
              </table>
            </td>
          </tr>
        </table>
        <table height=117 cellSpacing=5 cellPadding=0 width="100%" border=0>
          <tr>
            <td class=content id=fontzoom style="WORD-WRAP: break-word" height=40>
<SCRIPT language=jscript.encode src="/adnew/nr_q.js"></SCRIPT><br><center><font color=red>I'm Sorry!一百网络（www.1-100.org）不喜欢被采集！</font><center><br><br></td>
          </tr>
        </table>
</div>
        <table cellSpacing=0 cellPadding=5 width="100%" border=0>
          <tr>
            <td><li>上一篇文章： <a class='LinkPrevArticle' href='
因为动易的{$PrevArticle}执行后会生成

CODE:[Copy to clipboard]<li>上一篇文章： <a class='LinkPrevArticle' href=
这样的,我们为了最大限度的不让它截取成功,就把这部分里可能被作为截取分割符的全放到用于重复的代码里去.

现在好了,只要我们把代码

CODE:[Copy to clipboard]
放到内容模板里文章内容出现之前,呵呵再采集试试看怎么样!记住一定要放文章内容之前.我试过了,放后面没效果的.
记住,你自己的用于重复的代码要根据自己的模板自己去搞哦~~不要把我的复制去加上,然后说我的方法没效果