新動力軟件 點擊圖片與新動力在線客服務交談 http://www.791938.live/
新動力SEO 首頁新動力SEO 軟件產品新動力SEO 技術服務新動力SEO 軟件下載新動力SEO 購買新動力SEO 幫助
用戶中心新動力SEO 用戶中心
注意!我們唯一的官方網站是:http://www.791938.live/(http://www.netnewpower.com/) 購買時候請看清楚軟件最新版本!Since 2010
公司動態
產品
服務
下載
購買
幫助
外鏈雷達之邪惡蜘蛛LinkDance 使用說明與技巧
更新時間:2013-05-14

“邪惡蜘蛛LinkDance”是AhrefsRadar外鏈雷達的一個最新模塊,是挖掘外鏈資源的利器,擯棄了以前從搜索引擎或ahrefs_com抓取外鏈資源的模式,因而不再需要代理IP或者AH付費賬戶。

“邪惡蜘蛛LinkDance”的核心原理就是模擬GOOGLE/BAIDU/YAHOO搜索引擎蜘蛛,以一小批種子外鏈網址為起點爬行,通過橫向和縱向(或為廣度與深度)的不斷擴展爬行,以種子外鏈網址為基礎不斷發現新的相關站點與URL,而爬行的途中,依據我們配置規則,實時地保存下好的可用的外鏈資源URL,規則越豐富,得到的外鏈資源精度越高。

雖然原理上最終可以爬遍整個互聯網,實際使用中,則因為種子外鏈網址選取的不同,大家得到的外鏈資源也很大程度不同,這個正好符合了我們需要不同外鏈資源的初衷。



使用說明與技巧:

1、種子外鏈網址
可以選一批發布成功的頁面網址,如CC XR ZP等發布成功的結果URL;
邪惡蜘蛛會以種子外鏈網頁為基礎無限爬下去;

2、不繼續往下爬的URL特征
就是說抓到的URL包含這種特征時候,我們直接放棄,不保存也不再往下爬了
比如某些大站如163網易,你不想讓蜘蛛去爬的,就寫一條.163.com就可以;
我們內置了一批,你可以再根據自己需要擴展;

3、結果不得包含的URL特征
這個和2中提到的URL特征都是排除式的,不一樣的是這里的URL特征排除不是阻止繼續往下爬,而是不保存為結果;
這個可以選擇啟用或不啟用;
建議啟用;

4、結果必須包含的URL特征
這個就和3中相反了,符合這個列表的某條URL特征的,我們才要保存;
3和4綜合編輯規則,可以很大程度得到直接是很好的外鏈資源;我們內置了一批,可以自己再根據需要擴展;
這個也可以選擇啟用或不啟用;
建議啟用;

5、去重復類型
這個針對保存結果來說的;
1)按URL去重復,選擇這個,同時“每站點爬行頁面數”設置一個比較大的值,就可以依據導入的種子外鏈資源地址進行同站點外鏈資源擴展;

2)按域名去重復,選擇這個,就是一個站點只保留一個結果,同時“每站點爬行頁面數”設置一個比較小的值,就可以快速爬更多的站,獲取更多符合的外鏈資源;

相關的說明也可以同時參考第11點!

6、結果保存到
就是選一個用于保存結果的TXT文件,比如:D:\LinkDance結果-20130510.txt;

7、爬行策略
這個是設置蜘蛛的爬行算法,有廣度優先算法(BFS)和深度優先算法(DFS);

什么是廣度優先算法?

廣度優先是指蜘蛛在一個頁面上發現多個鏈接時,不是順著一個鏈接一直向前,而是把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發現的鏈接爬向第三層頁面。



如上圖所示,蜘蛛從A頁面順著鏈接爬行到A1,B1,C1頁面,直到A頁面上的所有鏈接都爬行完,然后再從A1頁面發現的下一層鏈接,爬行到A2,A3,A4......頁面。

什么是深度優先算法?

深度優先指的是蜘蛛沿著發現的鏈接一直向前爬行,直到前面再也沒有其他鏈接,然后返回到第一個頁面,沿著另一個鏈接再一直往前爬行。



如上圖所示,蜘蛛跟蹤鏈接,從A頁面爬行到A1,A2,A3,A4,到A4頁面后,已經沒有其他鏈接可以跟蹤就返回A頁面,順著頁面上的另一個鏈接,爬行到B1,B2,B3,B4。在深度優先策略中,蜘蛛一直爬到無法再向前,才返回爬另一條線。

8、爬行深度
從理論上說,無論是深度優先還是廣度優先,只要給蜘蛛足夠的時間,都能爬完整個互聯網。 
在實際工作中,蜘蛛的帶寬資源、時間都不是無限的,也不可能爬完所有頁面。實際上最大的搜索引擎也只是爬行和收錄了互聯網的一小部分。 因此我們有必要設置一個合理的爬行深度(或為爬行級數) 。

9、爬行超時時間(單位:秒)
就是在抓取/爬行頁面的時候如果超過這個設置時間,我們就自動放棄掉,避免不必要的時間等待,比如:5(秒);

10、爬行間隔時間(單位:秒)
這個間隔時間與線程數綜合設置,可以有效降低CPU負荷,根據自己電腦配置以及運行情況,綜合設置;
比如:CPU T2390 我測試時候設置:爬行間隔時間2秒+線程數200 運行比較流暢,看自己的情況;

11、每站點爬行的頁面數
1)如果是要獲取更多不同站點的
為避免爬某些大站浪費時間,可以設置適當小點比
如:10-100
同時去重復類型要選擇“去域名重復”,這樣可以盡快讓蜘蛛去爬更多不同的站點,發現更多有效外鏈資源,效率提升很高;

2)如果只是想拓展與種子外鏈資源同站點的外鏈資源
那么設置一個你需要的值,比如:10000,同時去重復類型要選擇“按URL去重復”,那么就可以把一些可以發布的站的全站或大部分頁面地址都抓來作為外鏈資源,相當于你可以做全站鏈接;

12、線程數
經過我們和一些老客戶的測試來看,機器性能比較普通的如:
CPU:Intel(R) Pentium(R) Dual CPU T2390 @ 1.86GHZ
RAM:3GB
開100線程,可以流暢運行 CPU 20%-30%;開200線程,CPU 40%-50%;

運行中的線程調節辦法:暫停->調節線程數->繼續

13、多開
邪惡蜘蛛LinkDance可以一機多開,每個副本用一組大概1-2W的種子。

CPU:I7
RAM:16GB
開200線程,輕松流暢,可以多開甚至;
開500線程,CPU穩定在15-20%;

線程并不是越高越好,要綜合看自己的帶寬、機器性能自行調整線程數,長時間流暢運行才是最高效的;

常見問題更新:

1、點了暫停和停止為什么要過一段時間再生效?
因為這里是做了線程安全結束策略,如果某個頁面已經抓會來了正在分析、保存URL,那么要等處理完再暫停或停止掉,因此需要幾秒到1分鐘左右時間的延遲。

SEO軟件 關于我們  |   聯系我們  |   代理加盟  |   誠聘英才  |   官方公告
104.161.35.140 Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1)
金山通過金山  瑞星通過瑞星  卡巴通過卡巴  NOD通過NOD32  360通過360  小紅傘通過小紅傘  無插件無插件  Win7兼容Win2000/WinXP/Win2003/Vista/Win7/Win10兼容/64位兼容 
Copyright © 2010-2019 新動力軟件. All Rights Reserved. 業務QQ:189879691 189879692
新動力 SEO軟件
在線客服
彩票大奖符 美东2分彩是正规彩票吗 幸运农场预测号码推荐 安微11选5最新开奖 河南快3走势图一三位 股来顺配资 东方6十1历史开奖码 上证指数是什么 股票分析论文3000字 快乐飞艇大小计划 甘肃11选5推荐