歡迎來到山東商祺信息技術有限公司官網!本站主營:

创富网两码中特, 创富网两码中特, 创富网两码中特, 创富网两码中特.

免费精准一肖两码中特:

當前位置: 首頁 >  淄博網站優化 >  淄博網站優化Spider再次抓取更新策略是什么?

淄博網站優化Spider再次抓取更新策略是什么?

创富网两码中特 www.mnqlg.icu 發表日期:2018-12-17 11:16:45文章來源:创富网两码中特文章編輯:淄博網站優化_劉當瀏覽次數:

淄博網站優化Spider把網頁抓取到本地,該網頁被分析索引并參與了排名,并不意味著Spider針對該網 頁的工作已經結束了。現在互聯網網頁內容多是動態變化的,甚至有時網頁會被管理者刪除。 搜索引擎所抓取到的本地頁面,可以看做是對己經抓取并索引過的網頁做了一個鏡像,也就是 說理論上搜索引擎應該保證,本地“鏡像”頁面和對應互聯網上的網頁內容實時一致。但是由 于搜索引擎的Spider資源有限,現階段做不到也沒有必要做到實時監測全部己索引網頁的所 有變化。搜索引擎只需要為Spider設置一個再次抓取和更新頁面的策略,以保證當部分頁面 呈現到用戶面前時,搜索引擎的本地索引和該網頁當時的內容并沒有太大的差異就可以了,這 部分頁面應該包含大部分網民所需要檢索的內容,并且也可以滿足絕大多數搜索用戶的搜索請 求。
如上所述,在有限資源的情況下,搜索引擎首先要保證部分網頁索引的更新,這部分網頁 擁有大部分用戶所需要的內容;也要保證所有索引頁面都有一個更新機制,在該網頁需要相應 的新的內容索引時,Spider要進行再次抓取并更新該網頁索引。站在Spider的角度,一般會根 據以下四個方面來確定對已索引網頁的再次抓取頻率:用戶體驗、歷史更新頻率、網頁類型和 網頁權重。
1、用戶體驗
整個互聯網的網頁數量是巨大的,已被百度抓取并索引的中文網頁應該也是千億級別的了, 但是用戶所需要的信息只有一小部分。當用戶在搜索引擎提交查詢后,不論返回結果有多少, 大部分用戶都會在前三頁找到自己所需要的信息,很少有用戶會瀏覽第四頁或者更靠后的搜索 結果。本著優先更新大部分用戶所需要內容的原則,所有用戶提交查詢結果的前幾頁,都是值 得保證索引及時更新的。所以一般搜索引擎會搜集所有用戶的搜索請求,然后統計所有搜索結 果中用戶可能看到的網頁,繼而進行優先再次抓取和更新。理論上,這些網頁被搜索到的次數 越多,再次被抓取的頻率就會越高。
2.歷史更新頻率
搜索引擎會嘗試發現某一個網頁中內容的更新頻率,因為Spider的再次抓取就是為了發現 己經被索引網頁是否有變化,如果某個網頁持續沒有變化,可能搜索引擎就會降低對其抓取的 頻率,甚至不再對其進行再次抓取。這個策略的實施是建立在搜索引擎己經發現網頁的更新頻 率的基礎上的,所以理論上當Spider發現一個新URL抓取并索引后,會很快進行二次抓取。如 果沒有發現內容變動,就會降低抓取頻率,這樣慢慢地發現網頁的更新頻率,以調整到最佳的 抓取頻率.同時Spider注重的變化應該是網頁的主體內容部分,一般會忽略主體內容周圍的廣 告???、導航??榧巴萍雋唇幽?櫚母鹵潿?。
3.網頁類型
不同的網頁類型有不同的更新頻率。在同一個站點內網站首頁、目錄頁、專題頁和文章頁 的更新頻率肯定是不同的。所以對于同一站點內的網頁,Spider對不同類型的網頁抓取頻率是不 同的。首頁和目錄頁是Spider經常光顧的頁面;根據專題頁面的時效性或者其他特征,Spider 可能會在某一時間段內進行頻繁抓取,時效性過期后就會降低對其的抓取頻率;對于文章頁, Spider很有可能第一次來過之后就不再來了。雖然整個互聯網中網頁很多,但是網頁類型并不多, 每個類型的網頁都會有自己的布局和更新規律,搜索引擎有足夠的能力發現網頁的類型并設置 合理的再次抓取頻率。網頁類型歸類和網頁歷史更新頻率是被綜合使用最多的,一般在同一站 點內同類網頁會有相同的更新頻率,這也會方便Spider對網頁更新頻率的判斷。
4.網頁權重
除了以上再次抓取策略外,網頁權重也是決定抓取頻率的重要因素。用戶體驗策略在一 定程度上也反映了網頁權重的影響。在網頁類型相同、歷史更新頻率也差不多的情況下,肯 定是權重越高的頁面被抓取的頻率越高。比如百度首頁、好123首頁、chinaz站長工具首頁 和普通企業站首頁都可以簡單歸為網站首頁,并且前三個“首頁”長期都不會有什么更新, 普通企業站首頁可能偶爾還會有更新,但是前三個“首頁”的百度快照一般都是最新的,而 普通企業站的首頁快照可能是一周前甚至一個月前的。這就反映出了網頁權重在抓取頻率中 的作用。
在搜索引擎Spider的實際作業中,不會單獨使用某一種再次抓取策略,而是會綜合參 考網頁的用戶體驗、更新頻率、網頁類型和網頁權重。并且對于不同類型的頁面,著重參 考的更新內容主體也是不同的。比如,列表頁只有一篇新的文章進入可能就算更新了;文 章頁主體內容沒有變,主體內容周圍的所有推薦鏈接、廣告、內容都變了,可能也不會算 是有更新。
在網站優化工作中為了提高某一網站的抓取頻率,一般會重點為該頁面的導入鏈接提高權重, 努力加大該頁面的更新頻率。其實在用戶體驗和網頁類型方面也是有工作可做的,用標題和描 述吸引點擊不僅可以提升排名,也能夠間接增加頁面被Spider抓取的頻率;同時對于不同定 位的關鍵詞可以使用不同的網頁類型(列表頁、專題頁、內容頁等),這在設計頁面內容和網 站架構時就應該仔細地考慮,并且網頁類型這部分有很多工作值得做。比如,有不少網站把整 站都做成了列表頁,全站沒有普通意義上的內容頁,內容頁主體內容下方或周圍也有大量和主 題相關的文本內容,一般是類列表形式。不過這種手法有效時間不長,或者損害用戶體驗后會 降低被抓取的頻率。不論怎樣,優秀的網站架構設計應該合理地利用Spider抓取策略的各種 特性。
以上討論的是Spider正常的抓取策略。有抓取并不代表一定有更新,當頁面內容的變化值 得搜索引擎更新索引時才會更新,比如,上面提到的文章頁主體內容不變但是推薦鏈接全變了, 一般搜索引擎也不會浪費資源做無意義的更新。當Spider發現己經索引的頁面突然被刪除,也 就是服務器突然返回404狀態碼時,也會在短時間內增加對該頁面的抓取頻率。有的網站優化人員 就利用這一點增加Spider對自己網站的抓取,并做一些其他的“手腳”,不過這是一個走鋼絲的 小聰明行為,不見得長期有效,不值得冒險使用。
另外,有不少門戶網站習慣對即時新聞先發布一個標題,然后再讓編輯補充內容,甚至還 會修改標題。但是這種網頁一般都是文章頁,不論從用戶體驗、更新頻率、網頁類型和網站權 重哪方面來看都不會得到比較高的抓取頻率,也就造成這些網站不斷在報怨百度不更新如此操 作的新聞網頁。百度搜索官方已經表示希望以后通過百度站長平臺來解決一下這個問題,但是 作為網站優化人員不能只是指望搜索引擎官方做出什么樣的動作。仔細研究Spider的抓取和更新策 略,雖然或許不能將問題解決得那么完美,但是一般都會找到比較適合自己的方法。當然最終 還是期望百度官方盡快推出相應的機制或工具來解決這個問題。
相關新聞

淄博網站優化為什么首選百度搜索引擎排名?

現在說起淄博網站優化關鍵詞排名,為什么都會選擇百度我首選的搜索...

日期:2018-11-06 瀏覽次數:61

淄博網站優化的目的是什么?

直白地說,淄博網站優化的目的是通過在搜索引擎的排名獲得流量。這些...

日期:2018-11-10 瀏覽次數:117

淄博網站優化應該選擇什么樣的服務器?

服務器,也稱伺服器,是提供計算服務的設備。由于服務器需要響應服...

日期:2018-11-12 瀏覽次數:85

淄博網站優化為什么要學習HTML?

HTML( Hyper Text Mark-up Language)即超文本標記語言,是WWW的...

日期:2018-11-13 瀏覽次數:167

淄博網站優化應該怎樣使用CMS?

CMS是 Content Management System的縮寫,意為內容管理系統。HTML...

日期:2018-11-14 瀏覽次數:222

? 新疆时时彩 郜林 河北时时选号技巧 最好pk10计划软件app 刘伯温六肖精选资料 简单的二人扑克牌玩法 重庆时时采彩开奖今天 双色球开奖结果走势图 5码倍投方案 现金龙虎平台 天天pk10免费计划软件 一分快3开奖计划网 老时时彩五星走势图 11选5任二稳赚计划 非凡炸金花真人提现版 山东时时官网