在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 教程/ 產(chǎn)品經(jīng)理/ 搜索引擎工作過程與 seo
搜索引擎的排名原理
網(wǎng)站分析
大規(guī)模網(wǎng)站群 SEO 優(yōu)化方案淺析
404 頁面設(shè)置方法
史上最全軟文標題寫作套路
網(wǎng)址優(yōu)化
移動優(yōu)化指南
如何培養(yǎng) SEO 思維
SEO 優(yōu)化步驟
網(wǎng)站降權(quán)
外鏈優(yōu)化策略
搜索引擎工作過程與 seo
SEO 優(yōu)化基本要點
面包屑導(dǎo)航
SEO 發(fā)展史
網(wǎng)站導(dǎo)航優(yōu)化
SEO 常見現(xiàn)象-快照回檔-沙盒等
百度綠蘿算法
反向鏈接
新手遇到這些快照難題 該如何解決?
網(wǎng)站內(nèi)鏈優(yōu)化
SEO 排名影響因素
網(wǎng)站日志
什么是 seo
移動站點適配
網(wǎng)站結(jié)構(gòu)優(yōu)化
SEO 鏈接深度的作用
搜索引擎高級命令
站內(nèi)優(yōu)化注意事項
SEO 優(yōu)化代碼
http 狀態(tài)代碼
Sitemap 介紹
SEO 常見術(shù)語
詳談高性價比的推廣方法有哪些
對百度權(quán)重的幾點認知
百度知心搜索
URL 如何優(yōu)化
內(nèi)容優(yōu)化
SEO 分類
關(guān)鍵詞的選擇
百度 Site App
如何加快百度對新站點的收錄,以及如何快速提示新站點排名?
網(wǎng)站圖片優(yōu)化
移動優(yōu)化標準
SEO 鏈接深度建立
網(wǎng)站優(yōu)化流程
站內(nèi)優(yōu)化五個方面
網(wǎng)站頁面優(yōu)化
友情鏈接
邏輯優(yōu)化時代,SEO 的優(yōu)化公式
百度石榴算法
站內(nèi)優(yōu)化技巧
seo 常用工具
搜索引擎核心算法
開放適配工具幫助
網(wǎng)站死鏈解決
網(wǎng)站被懲罰

搜索引擎工作過程與 seo

搜索引擎的工作的過程非常復(fù)雜,而簡單的講搜索引擎的工作過程大體可以分成三個階段。

  • 爬行和抓取:搜索引擎蜘蛛通過跟蹤鏈接訪問頁面,獲取頁面 HTML 代碼存入數(shù)據(jù)庫。

  • 預(yù)處理:搜索贏球?qū)ψト淼捻撁鏀?shù)據(jù)文字進行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用。

  • 排名:用戶輸入關(guān)鍵字后,排名調(diào)用索引庫數(shù)據(jù),計算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。

爬行和抓取

爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集任務(wù)。

蜘蛛

搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也稱為機器人(bot)。

蜘蛛代理名稱:

跟蹤鏈接

為了抓取網(wǎng)上盡量多的頁面,搜索引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,這也就是搜索引擎蜘蛛這個名稱的由來。最簡單的爬行遍歷策略分為兩種,一是深度優(yōu)先,二是廣度優(yōu)先。

深度優(yōu)先搜索

深度優(yōu)先搜索就是在搜索樹的每一層始終先只擴展一個子節(jié)點,不斷地向縱深前進直到不能再前進(到達葉子節(jié)點或受到深度限制)時,才從當前節(jié)點返回到上一級節(jié)點,沿另一方向又繼續(xù)前進。這種方法的搜索樹是從樹根開始一枝一枝逐漸形成的。

深度優(yōu)先搜索亦稱為縱向搜索。由于一個有解的問題樹可能含有無窮分枝,深度優(yōu)先搜索如果誤入無窮分枝(即深度無限),則不可能找到目標節(jié)點。所以,深度優(yōu)先搜索策略是不完備的。另外,應(yīng)用此策略得到的解不一定是最佳解(最短路徑)。   

廣度優(yōu)先搜索

在深度優(yōu)先搜索算法中,是深度越大的結(jié)點越先得到擴展。如果在搜索中把算法改為按結(jié)點的層次進行搜索, 本層的結(jié)點沒有搜索處理完時,不能對下層結(jié)點進行處理,即深度越小的結(jié)點越先得到擴展,也就是說先產(chǎn)生 的結(jié)點先得以擴展處理,這種搜索算法稱為廣度優(yōu)先搜索法。

在深度優(yōu)先搜索算法中,是深度越大的結(jié)點越先得到擴展。如果在搜索中把算法改為按結(jié)點的層次進行搜索, 本層的結(jié)點沒有搜索處理完時,不能對下層結(jié)點進行處理,即深度越小的結(jié)點越先得到擴展,也就是說先產(chǎn)生 的結(jié)點先得以擴展處理,這種搜索算法稱為廣度優(yōu)先搜索法。   

吸引蜘蛛

哪些頁面被認為比較重要呢?有幾方面影響因素:

  • 網(wǎng)站和頁面權(quán)重。質(zhì)量高、資格老的網(wǎng)站被認為權(quán)重比較高,這種網(wǎng)站上的頁面被爬行的深度也會比較高,所以會有更多內(nèi)頁被收錄。
  • 頁面更新度。蜘蛛每次爬行都會把頁面數(shù)據(jù)存儲起來。如果第二次爬行發(fā)現(xiàn)頁面與第一次收錄的完全一樣,說明頁面沒有更新,蜘蛛也就沒有必要經(jīng)常抓取。如果頁面內(nèi)容經(jīng)常更新,蜘蛛就會更加頻繁地訪問這種頁面,頁面上出現(xiàn)的新鏈接,也自然會被蜘蛛更快跟蹤,抓取新頁面。
  • 導(dǎo)入鏈接。無論是外部鏈接還是同一個網(wǎng)站的內(nèi)部鏈接,要被蜘蛛抓取就必須有導(dǎo)入鏈接進入頁面,否則蜘蛛根本沒有機會知道頁面的存在。高質(zhì)量的導(dǎo)入鏈接也經(jīng)常使頁面上的導(dǎo)出鏈接被爬行深度增加。一般來說網(wǎng)站上權(quán)重最高的是首頁,大部分外部鏈接是指向首頁,蜘蛛訪問最頻繁的也是首頁。離首頁點擊距離越近,頁面權(quán)重越高,被蜘蛛爬行的機會也越大。   

    地址庫

    為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面。地址庫中的 uRL 有幾個來源:

(1)人工錄入的種子網(wǎng)站。 (2)蜘蛛抓取頁面后,從 HTML 中解析出新的鏈接 uRL,與地址庫中的數(shù)據(jù)進行對比,如果是地址庫中沒有的網(wǎng)址,就存入待訪問地址庫。 (3)站長通過搜索引擎網(wǎng)頁提交表格提交進來的網(wǎng)址。

蜘蛛按重要性從待訪問地址庫中提取 uRL,訪問并抓取頁面,然后把這個 uRL 從待訪問地址庫中刪除,放進已訪問地址庫中。

大部分主流搜索引擎都提供一個表格,讓站長提交網(wǎng)址。不過這些提交來的網(wǎng)址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的??梢哉f提交頁面基本 t 是毫無用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁面。

文件存儲搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的 HTML 是完全一樣的。每個 uRI,都有一個獨特的文件編號。

爬行時的復(fù)制內(nèi)容檢測 檢測并刪除復(fù)制內(nèi)容通常是在下面介紹的預(yù)處理過程中進行的,但現(xiàn)在的蜘蛛在爬行和抓取文件時也會進行定程度的復(fù)制內(nèi)容檢測。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時,很可能不再繼續(xù)爬行。這也就是有的站長在日志文件中發(fā)現(xiàn)了蜘蛛,但頁面從來沒有被真正收錄過的原因。

預(yù)處理

在一些 SEO 材料中,“預(yù)處理”也被簡稱為“索引”,因為索引是預(yù)處理最主要的步驟。

搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r對這么多頁面分析相關(guān)性,計算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。因此抓取來的頁面必須經(jīng)過預(yù)處理,為最后的查詢排名做好準備。

和爬行抓取一樣,預(yù)處理也是在后臺提前完成的,用戶搜索時感覺不到這個過程。

提取文字

現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取到的頁面中的 HTML 代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的 HTML 格式標簽、 JavaScript 程序等無法用于排名的內(nèi)容。搜索引擎預(yù)處理首先要做的就是從 HTML 文件中去除標簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi) 容。

今天愚人節(jié)哈

除去 HTML 代碼后,剩下的用于排名的文字只是這一行:

今天愚人節(jié)哈

除了可見文字,搜索引擎也會提取出一些特殊的包含文字信息的代碼,如 Meta 標簽中的文字、圖片替代文字、Flash 文件的替代文字、鏈接錨文字等。

中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲和處理頁面及用戶搜索都是以詞為基礎(chǔ)的。英文等語言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子 劃分為單詞的集合。而中文詞與詞之間沒有任何分隔符,一個句子中的所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個字組成一個詞,哪些字本身就是一 個詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個詞。

中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統(tǒng)計。

基于詞典匹配的方法是指,將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。

按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長度優(yōu)先級的不同,又可以分為最大匹配和最小匹配。將掃描方向和長度優(yōu)先混合,又可以產(chǎn)生正向最大匹配、逆向最大匹配等不同方法。

詞典匹配方法計算簡單,其準確度在很大程度上取決于詞典的完整性和更新情況。

基于統(tǒng)計的分詞方法指的是分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,幾個字相鄰出現(xiàn)越多,就越可能形成一個單詞?;诮y(tǒng)計的方法的優(yōu)勢是對新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧義。

基于詞典匹配和基于統(tǒng)計的分詞方法各有優(yōu)劣,實際使用中的分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識別生詞、新詞,消除歧義。

中文分詞的準確性往往影響搜索引擎排名的相關(guān)性。比如在百度搜索“搜索引擎優(yōu)化”,從快照中可以看到,百度把“搜索引擎優(yōu)化”這六個字當成一個詞。

而在 Google 搜索同樣的詞,快照顯示 Google 將其分切為“搜索引擎”和“優(yōu)化”兩個詞。顯然百度切分得更為合理,搜索引擎優(yōu)化是一個完整的概念。Google 分詞時傾向于更為細碎。

這種分詞上的不同很可能是一些關(guān)鍵詞排名在不同搜索引擎有不同表現(xiàn)的原因之一。比如百度更喜歡將搜索詞完整匹配地出現(xiàn)在頁面上,也就是說搜索“夠戲博客” 時,這四個字連續(xù)完整出現(xiàn)更容易在百度獲得好的排名。Google 就與此不同,不太要求完整匹配。一些頁面出現(xiàn)“夠戲”和“博客”兩個詞,但不必完整匹配 地出現(xiàn),“夠戲”出現(xiàn)在前面,“博客”出現(xiàn)在頁面的其他地方,這樣的頁面在 Google 搜索“夠戲博客”時,也可以獲得不錯的排名。

搜索引擎對頁面的分詞取決于詞庫的規(guī)模、準確性和分詞算法的好壞,而不是取決于頁面本身如何,所以 SEO 人員對分詞所能做的很少。唯一能做的是在頁面上用某種形 式提示搜索引擎,某幾個字應(yīng)該被當做一個詞處理,尤其是可能產(chǎn)生歧義的時候,比如在頁面標題、h1 標簽及黑體中出現(xiàn)關(guān)鍵詞。如果頁面是關(guān)于“和服”的內(nèi) 容,那么可以把“和服”這兩個字特意標為黑體。如果頁面是關(guān)于“化妝和服裝”,可以把“服裝”兩個字標為黑體。這樣,搜索引擎對頁面進行分析時就知道標為 黑體的應(yīng)該是一個詞。

去停止詞

無論是英文還是中文,頁面內(nèi)容中都會有一些出現(xiàn)頻率很 高,卻對內(nèi)容沒有任何影響的詞,如“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞,“從而”、“以”、“卻”之類的副詞或介詞。 這些詞被稱為停止詞,因為它們對頁面的主要意思沒什么影響。英文中的常見停止詞有 the,a,an,to,of 等。

搜索引擎在索引頁面之前會去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無謂的計算量。

消除噪聲

絕大部分頁面上還有一部分內(nèi)容對頁面主題也沒有什么貢獻,比如版權(quán)聲明文字、導(dǎo)航條、廣告等。以常見的博客導(dǎo)航為例,幾乎每個博客頁面上都會出現(xiàn)文章分類、 歷史存檔等導(dǎo)航內(nèi)容,但是這些頁面本身與“分類”、“歷史”這些詞都沒有任何關(guān)系。用戶搜索“歷史”、“分類”這些關(guān)鍵詞時僅僅因為頁面上有這些詞出現(xiàn)而 返回博客帖子是毫無意義的,完全不相關(guān)。所以這些區(qū)塊都屬于噪聲,對頁面主題只能起到分散作用。

搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。消噪的基本方法是根據(jù) HTML 標簽對頁面分塊,區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主體內(nèi)容。

去重

搜索引擎還需要對頁面進行去重處理。

同 一篇文章經(jīng)常會重復(fù)出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時,如果在前兩頁看到的都是來自不同網(wǎng)站的同一 篇文章,用戶體驗就太差了,雖然都是內(nèi)容相關(guān)的。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復(fù)內(nèi)容,這個過程就稱為“去 重”。

去重的基本方法是對頁面特征關(guān)鍵詞計算指紋,也就是說從頁面主體內(nèi)容中選取最有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率最高的關(guān)鍵 詞),然后計算這些關(guān)鍵詞的數(shù)字指紋。這里的關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。實驗表明,通常選取 10 個特征關(guān)鍵詞就可以達到比較高的計算準確 性,再選取更多詞對去重準確性提高的貢獻也就不大了。

典型的指紋計算方法如 MD5 算法(信息摘要算法第五版)。這類指紋算法的特點是,輸入(特征關(guān)鍵詞)有任何微小的變化,都會導(dǎo)致計算出的指紋有很大差距。

了解了搜索引擎的去重算法,SEO 人員就應(yīng)該知道簡單地增加“的”、“地”、“得”、調(diào)換段落順序這種所謂偽原創(chuàng),并不能逃過搜索引擎的去重算法,因為這樣 的操作無法改變文章的特征關(guān)鍵詞。而且搜索引擎的去重算法很可能不止于頁面級別,而是進行到段落級別,混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲 變成原創(chuàng)。

正向索引

正向索引也可以簡稱為索引。

經(jīng)過文字提取、分詞、 消噪、去重后,搜索引擎得到的就是獨特的、能反映頁面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來搜索引擎索引程序就可以提取關(guān)鍵詞,按照分詞程序劃分好的詞, 把頁面轉(zhuǎn)換為一個關(guān)鍵詞組成的集合,同時記錄每一個關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標題標簽、黑體、H 標簽、錨文字等)、位置(如頁 面第一段文字等)。這樣,每一個頁面都可以記錄為一串關(guān)鍵詞集合,其中每個關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。

搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵詞形成詞表結(jié)構(gòu)存儲進索引庫。簡化的索引詞表形式如表 2-1 所示。

每個文件都對應(yīng)一個文件 ID,文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實際上在搜索引擎索引庫中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞 ID.這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。

倒排索引

正向索引還不能直接用于排名。假設(shè)用戶搜索關(guān)鍵詞 2,如果只存在正向索引,排名程序需要掃描所有索引庫中的文件,找出包含關(guān)鍵詞 2 的文件,再進行相關(guān)性計算。這樣的計算量無法滿足實時返回排名結(jié)果的要求。

所以搜索引擎會將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引,把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射,如表 2-2 所示。

在倒排索引中關(guān)鍵詞是主鍵,每個關(guān)鍵詞都對應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個關(guān)鍵詞。這樣當用戶搜索某個關(guān)鍵詞時,排序程序在倒排索引中定位到這個關(guān)鍵詞,就可以馬上找出所有包含這個關(guān)鍵詞的文件。

鏈接關(guān)系計算

鏈接關(guān)系計算也是預(yù)處理中很重要的一部分?,F(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁之間的鏈接流動信息。搜索引擎在抓取頁面內(nèi)容后,必須事前計算出:頁 面上有哪些鏈接指向哪些其他頁面,每個頁面有哪些導(dǎo)入鏈接,鏈接使用了什么錨文字,這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重。

Google PR 值就是這種鏈接關(guān)系的最主要體現(xiàn)之一。其他搜索引擎也都進行類似計算,雖然它們并不稱為 PR.

由于頁面和鏈接數(shù)量巨大,網(wǎng)上的鏈接關(guān)系又時時處在更新中,因此鏈接關(guān)系及 PR 的計算要耗費很長時間。關(guān)于 PR 和鏈接分析,后面還有專門的章節(jié)介紹。

特殊文件處理

除 了 HTML 文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我們在搜索結(jié)果 中也經(jīng)常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash 這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。

雖然搜索引擎在識別圖片及從 Flash 中提取文字內(nèi)容方面有些進步,不過距離直接靠讀取圖片、視頻、Flash 內(nèi)容返回結(jié)果的目標還很遠。對圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容,詳細情況可以參考后面的整合搜索部分。

排名

經(jīng)過搜索引擎蜘蛛抓取的界面,搜索引擎程序 計算得到倒排索引后,收索引擎就準備好可以隨時處理用戶搜索了。用戶在搜索框填入關(guān)鍵字后,排名程序調(diào)用索引庫數(shù)據(jù),計算排名顯示給客戶,排名過程是與客戶直接互動的。