濟南關鍵詞優化:搜索引擎蜘蛛抓取頁面過程圖解

SEO知識 戰車網 來源:seowlyx.co 131瀏覽

學習seo的人經常在網上看到一句話:搜索引擎蜘蛛跟瀏覽器差不多,都是抓取頁面。那么到底哪些一樣哪些不一樣?Ethan就通過瀏覽器幫助大家理解搜索引擎蜘蛛怎樣抓取頁面。

首先看一張圖,是用firebug(firefox瀏覽器的一個著名插件)記錄下來的瀏覽器抓取我網站的情況。

針對圖中標識,Ethan解釋如下。

1.http協議開始,HTTP協議是典型的請求/響應模式,客戶端請求服務器,然后客戶端和服務器建立臨時通道,然后服務器返回響應。這里瀏覽器是一種客戶端程序,搜索引擎蜘蛛也是一種客戶端程序??蛻舳讼蚍掌靼l送請求行,然后是請求頭信息。圖中左上角有“GET www.***.com”,反映了請求行的內容,真正的請求行是下面這行,firebug沒有明示:

“GET / HTTP/1.1”

這行的格式是:

請求方法(get、post等)+一個空格+請求的URL(這里“/”表示首頁)+一個空格+http協議版本(現在通常是HTTP/1.1,就是http協議1.1版)

記住這個格式,我們在服務器日志里還會看到這種格式的數據。

請求行后面緊跟著請求頭信息,其中第一行是host字段,指明了服務器是www.***.com,這是個域名,通過DNS域名解析,變成ip地址,也就是服務器的物理地址。

2.ip地址,后面冒號加80,表明訪問的是服務器的80端口。服務器一直處于待命狀態,偵聽80端口,一旦發現有符合HTTP協議的頭信息發過來,就和客戶端建立一個臨時通道,然后進行內部處理,并把結果通過臨時通道返回給客戶端。在這個處理的同時,服務器還可以接受其它HTTP請求。

3.客戶端開始接收響應信息,最先過來的是狀態行,真正的狀態行是下面這行,firebug沒有明示:

“HTTP/1.1 200 OK”

這里的200就是狀態碼,表示網頁順利打開。

4.然后客戶端收到響應頭信息。

5.最后客戶端收到響應主體,也就是html代碼。

6.注意這里瀏覽器和搜索引擎蜘蛛不同,瀏覽器會對html代碼進行處理,呈現出我們看得懂的網頁;搜索引擎蜘蛛則只負責抓取,把html代碼存在數據庫里,自己快速去抓取下一個網頁。搜索引擎在各地都有蜘蛛服務器,每個服務器同時放出很多蜘蛛,日夜不停地抓取網頁。

7.注意響應頭信息里有一行gzip,表示html代碼經過了gzip壓縮。不過沒有關系,瀏覽器和搜索引擎蜘蛛都可以解壓縮gzip文件。

8.html代碼的大小,如果不壓縮,遠不止6k。搜索引擎對網頁文件大小有個上限,一種說法是128k(未壓縮),超過128k的內容不再抓取。

9.注意User-Agent,正是請求頭信息里的這個字段,告訴服務器抓取網頁的是瀏覽器還是搜索引擎蜘蛛。有的服務器為了不讓百度蜘蛛抓取,會封禁百度蜘蛛的User-Agent,參見百度站長俱樂部發布的百度Spider User-Agent字段更新通知。

本文為www.seowlyx.com的站長梁波(Ethan)原創,轉載請注明,謝謝!

轉載請注明:戰車網 » 濟南關鍵詞優化:搜索引擎蜘蛛抓取頁面過程圖解

猜你喜歡

加拿大西部快樂8內幕群:SEO高手:必須面臨的5個問題!

第三季度。棉價在第三季度見底后開始震蕩反彈,重心不斷提高,在次年第一季度達到高點后逐步回落,第二季度回落幅度最大,并在第三季度達到最低點。 通過上面2道題可以發現,定義判斷需要大量的學科知識積累,當你儲備的知識越多,做題就越容易??荚囶l率較高的學科知...

搜索排名:站長分享:成功的網站優化會有哪些表現

據不完全統計,在中國網民的數量就有著將近5億人口的龐大數量,由此可以看到網絡市場的發展速度,于是很多人都開始往網絡市場去靠。很多公司企業,甚至個人店鋪都紛紛去做網站,想以此來打開網絡營銷大門,要想打開這個大門,做好了網站才是第一步,關鍵的還要去把網站...

三明seo:SEO團隊如何搭建:崗位設置以及工作職能分配

其實很多時候SEO都是一個思維策略的過程,但是很多SEOer朋友做的都是總是停留在SEO的執行。假如有一天,公司叫你SEO執行去搭建一個團 隊,估計你可能會沒有底氣,或者是很迷茫不知道該如何設置崗位,并對SEO工作職能具體的進行分配。今天筆者就對SE...

?
股票用什么玩法能赚钱