020-81959520
首頁(yè)
網(wǎng)站建設(shè)
速成網(wǎng)站
案例展示
新聞動(dòng)態(tài)
關(guān)于我們
聯(lián)系我們
網(wǎng)站問(wèn)題集錦
網(wǎng)站問(wèn)題集錦
新聞動(dòng)態(tài)
網(wǎng)站問(wèn)題集錦
模板網(wǎng)站
星洋網(wǎng)站優(yōu)化案例
網(wǎng)站優(yōu)化之防止網(wǎng)站被采集
發(fā)布時(shí)間:2018-08-08
來(lái)源:本站
點(diǎn)擊數(shù):
14
采集就是使用程序通過(guò)自動(dòng)化操作復(fù)制數(shù)據(jù)。首先說(shuō)明,只要是能讓瀏覽器訪問(wèn)的,就沒(méi)有不能采集的。但是可以通過(guò)一定的手段讓采集變得非常麻煩,進(jìn)而在大量數(shù)據(jù)的情況下延遲采集完成時(shí)間,加大采集難度。一般的情況略過(guò)不說(shuō),幾種情況比較特別的:1、驗(yàn)證來(lái)路,cookie,...
采集就是使用程序通過(guò)自動(dòng)化操作復(fù)制數(shù)據(jù)。
首先說(shuō)明,只要是能讓瀏覽器訪問(wèn)的,就沒(méi)有不能采集的。
但是可以通過(guò)一定的手段讓采集變得非常麻煩,進(jìn)而在大量數(shù)據(jù)的情況下延遲采集完成時(shí)間,加大采集難度。
一般的情況略過(guò)不說(shuō),幾種情況比較特別的:
1、驗(yàn)證來(lái)路,cookie,session這些,比如PHP可以用fsockopen自定義HTTPHeader,基本上這些方法沒(méi)什么效果。
2、限速,限制某段時(shí)間內(nèi)打開(kāi)頁(yè)面數(shù)量。這個(gè)只是推遲了下,大部分時(shí)間效果一般。比如某站限制一分鐘之內(nèi)只能打開(kāi)30個(gè)網(wǎng)頁(yè),頁(yè)面大小平均30K,則用迅雷批量下載就OK了,設(shè)置限速為2K,一覺(jué)醒來(lái)什么都好了。這個(gè)方法效果也基本沒(méi)有。
3、比較特別的方法,設(shè)置一個(gè)數(shù)量級(jí)的閥值,達(dá)到這樣數(shù)量后,必須驗(yàn)證方能繼續(xù),比如打開(kāi)10個(gè)頁(yè)面需要輸入驗(yàn)證碼,這個(gè)時(shí)候只需要保證驗(yàn)證碼不可識(shí)別,分配一個(gè)session,以后的瀏覽過(guò)程中用session保證用戶(hù)合法性,這樣不影響后續(xù)訪問(wèn),同時(shí)可以有效防止采集。
4、第三條對(duì)蜘蛛是致命的,此時(shí)可通過(guò)手機(jī)蜘蛛IP段,放行,其它的按照嚴(yán)格規(guī)則來(lái)。
5、3+4真是無(wú)敵的嗎?遠(yuǎn)非可以高枕無(wú)憂(yōu),比如此站有10萬(wàn)個(gè)頁(yè)面,則設(shè)置100個(gè)代理,在閥值前循環(huán)使用代理,這樣實(shí)際上繞過(guò)了3的限制。
6、還有別的辦法嗎?不能,因?yàn)槟愕木W(wǎng)站能用瀏覽器打開(kāi)。
文章均為力洋網(wǎng)絡(luò)專(zhuān)注網(wǎng)站建設(shè),廣州網(wǎng)站建設(shè)的廣州網(wǎng)站建設(shè)公司原創(chuàng),轉(zhuǎn)載請(qǐng)注明來(lái)自https://www.www.gxmingpai.com/FAQ/5225.html
上一篇:
關(guān)于關(guān)鍵詞的去重的一些東西
下一篇:
怎樣才能提高網(wǎng)站權(quán)重
熱門(mén)資訊
百度愛(ài)采購(gòu),商家入駐及推廣的費(fèi)用是多少
商家如何在百度愛(ài)采購(gòu)?fù)茝V
企業(yè)網(wǎng)站大揭秘之加密技術(shù)的重要性
貨架廠做網(wǎng)站,如何規(guī)劃網(wǎng)站內(nèi)容和欄目
手把手教您一步到位的網(wǎng)站詳情頁(yè)設(shè)計(jì)攻略
微信小程序?yàn)槭裁催@么火,建設(shè)小程序?qū)I(yíng)銷(xiāo)有哪些好處?
ASCII文章在優(yōu)化搜索引擎方面能起到什么關(guān)鍵作用
更高端的企業(yè)網(wǎng)站建設(shè)應(yīng)該遵循哪些原則?
首頁(yè)
銷(xiāo)售熱線(xiàn)
郵箱
聯(lián)系