淺析,網(wǎng)站抓取建設(shè),常見的注意事項!
網(wǎng)站不收錄,可能是最近,大量SEO從業(yè)者都在討論的一件事情,這里面不乏更多的大型行業(yè)網(wǎng)站,這也是為什么我們要定期解讀百度官方相關(guān)公開視頻的一個重要原因。
每隔一定時間周期,百度搜索資源平臺,都會定期開放相關(guān)課程,我們可以清晰的看出,官方搜索團隊,也在不斷的由淺入深的為大家分享日常建站的相關(guān)內(nèi)容。
雖然,本期內(nèi)容網(wǎng)站抓取建設(shè)更多的在陳述一些基礎(chǔ)性的內(nèi)容,但仍然有很多細節(jié)值得我們關(guān)注。
那么,百度官方網(wǎng)站抓取建設(shè)課程,有哪些值得關(guān)注?
根據(jù)以往針對百度蜘蛛的研究,招商外包網(wǎng),將通過如下內(nèi)容闡述:
①網(wǎng)站URL規(guī)范化
所謂的URL規(guī)范化,通常來講,主要就是指我們常見的一些URL基礎(chǔ)性形態(tài),一般來講,我們通常建議大家選擇偽靜態(tài)的形式,一般可以是.html結(jié)尾。
常見的URL層級理論上越簡單越好,比如:domain/mulu/123*.html
在這個過程中,我們盡量確保URL路徑不要過長,盡量不要超過100個字符為最佳。
同時避免采用不友好的URL形態(tài),比如:中文字符嵌入的形態(tài),如下圖:
當然,這里面需要強調(diào)的就是一個參數(shù)的問題,很多網(wǎng)站經(jīng)常會有一些廣告代碼追蹤,亦或是訪問統(tǒng)計的后綴標識,這對于搜索引擎來講,雖然是相同內(nèi)容,但經(jīng)常會自動添加不同的來路URL地址標識,很容易被識別成重復性內(nèi)容。
官方建議在使用統(tǒng)計數(shù)據(jù)的時候,盡量規(guī)范化標識,適當采用“?”等相關(guān)的形式。
但根據(jù)實戰(zhàn)經(jīng)驗來講,合理的使用“?”同樣會造成大量惡意的理由,比如:
domain/mulu/?123*.html?【URL地址】
因此,我們建議,如果非必須啟用相關(guān)的動態(tài)參數(shù),我們盡量在robots.txt中屏蔽“?”。
②合理發(fā)現(xiàn)鏈路
什么是鏈路?
簡單的理解:所謂的鏈路就是從目標索引頁,所展現(xiàn)的相關(guān)性頁面超鏈接,搜索爬蟲基于這些鏈接,可以更好的,更全面的抓取整站的頁面內(nèi)容。
一般來講:一個網(wǎng)站的索引頁面,主要包括:首頁、列表頁、Tag標簽聚合頁面。
這些類型的頁面,每天都會進行大量的頁面內(nèi)容更新與調(diào)用。
也就是說,隨著不斷的運營,這些頁面就像是一個種子頁面,在固定周期內(nèi),每天特定時間吸引搜索引擎不斷的來訪抓取最新頁面。
而一個良好的索引頁,通常需要具備,定期更新的策略,最新的內(nèi)容與文章,一般建議采用最新時間排序的策略進行展現(xiàn)。
這樣可以輔助搜索引擎更快的發(fā)現(xiàn)新內(nèi)容。
這里面值得強調(diào)的一個細節(jié)就是,我們新發(fā)布的內(nèi)容,最好是實時同步在索引頁面,這里一些需要靜態(tài)手動更新,亦或是采用CDN加速的頁面經(jīng)常會遇到相關(guān)問題。
同時,官方建議,我們盡量不要建立大量的索引頁面,這里我們給到的理解就是:
基于更新頻率的策略,我們只需要保持核心索引頁可以頻繁的保持更新頻率即可,如果大量啟用不同的索引頁面,而沒有進行有效的內(nèi)容展現(xiàn),也是一種抓取資源的浪費。
③訪問友好性
通常來講,所謂的網(wǎng)站訪問友好性,主要是指:
1)頁面的訪問速度,盡量控制在2秒以內(nèi)。個人覺得可以合理啟用百度CDN云加速。
2)確保DNS解析的穩(wěn)定性,一般我們建議大家選擇主流的DNS服務(wù)商。
3)避免頁面產(chǎn)生大量的跳轉(zhuǎn),比如:索引頁展現(xiàn)的鏈接,大量啟用301,302,404類型頁面。
4)避免只用技術(shù)手段,亦或是錯誤的操作策略封禁百度爬蟲。
5)避免錯誤的使用防火墻,導致百度不能友好的抓取目標頁面,特別是在購買一些虛擬主機的時候,需要格外注意。
6)注意網(wǎng)站的負載壓力,比如:高質(zhì)量站點,短期大量更新內(nèi)容,導致同一時間節(jié)點,大量的蜘蛛訪問,造成服務(wù)器加載延遲甚至卡頓的情況。
④提高抓取頻率
我們知道想要試圖提高網(wǎng)站的收錄率,抓取頻率的提升顯得格外重要,通常來講:
新站:搜索引擎更多的是在乎頁面內(nèi)容質(zhì)量度的覆蓋率。
老站:更多的是體現(xiàn)在頁面的更新頻率上。
這里面值得注意的就是:
對于企業(yè)新站而言,搜索引擎會在1-2個月的時間周期中,給予一定的流量傾斜與扶植,因此,在這個過程中,我們需要盡可能的提升內(nèi)容輸出質(zhì)量。
從而獲得較高的質(zhì)量評估,這樣在后期的運營過程中,才能夠獲得更好的展現(xiàn)。
一般新站上線,長期不收錄的原因,主要可能是因為:內(nèi)容質(zhì)量不佳,內(nèi)容增量覆蓋行業(yè)的廣度不夠,為此,我們盡量避免采用偽原創(chuàng)和采集內(nèi)容。
總結(jié):本次百度官方公布的網(wǎng)站抓取建設(shè)內(nèi)容,相對詳盡,基本解決站長日常的常見問題,上述內(nèi)容,我們認為最為值得注意的細節(jié)就是URL的長度不要超過200字符,以及頁面加載速度控制在2秒內(nèi),僅供參考。