用戶在搜索引擎中的行為主要包括搜索及點擊。搜索是用戶獲取信息的過程,點擊是用戶得到需要信息后的表現(xiàn)。
用戶的搜索及點擊行為中蘊含著非常豐富、重要的信息。例如,在用戶搜索行為中包含了“提交的關(guān)鍵字,,、。提交時間”、“用戶IP地址”等信息;而在點擊行為中則包含了“每個結(jié)果的點擊次數(shù)”等信息。
搜索引擎通過對用戶行為的分析可以進(jìn)一步發(fā)掘用戶的需求,提高搜索結(jié)果的精準(zhǔn)度。例如,從用戶的搜索行為中,搜索引擎還可以發(fā)現(xiàn)新詞匯;而從用戶對搜索結(jié)果的點擊行為中,可以分析出用戶對每個搜索結(jié)果的偏好等。
·搜索
搜索是用戶獲取信息的途徑,是搜索引擎最基本的功能。搜索引擎可以在得知某.關(guān)鍵字被搜索的次數(shù),通過對關(guān)鍵字被搜索的次數(shù)的分析,可以發(fā)現(xiàn)新詞匯及進(jìn)一步了解用戶的搜索習(xí)慣。
由于語言是不斷發(fā)展的,隨著時間的推移會產(chǎn)生更多的新詞匯。特別是在互聯(lián)網(wǎng)環(huán)境中,某個熱點的事件也有可能成為一個新的詞語,例如“艷照門”等。
對搜索引擎而言,新生詞匯主要是指那些目前搜索引擎詞典系統(tǒng)里不存在、但是又被頻繁搜索的關(guān)鍵字。如果某一關(guān)鍵字在搜索引擎詞典系統(tǒng)里不存在,則切詞時就不會產(chǎn)生該關(guān)鍵字'這樣用戶在查詢該關(guān)鍵字時就返回不了相關(guān)的信息,也就不能滿足用戶的需求。因此,搜索引擎對新詞匯的學(xué)習(xí)能力從一定程度上反映了搜索引擎對語言的理解能力,是衡量搜索引擎好壞的重要指標(biāo)之一。
結(jié)合用戶搜索習(xí)慣與頁面內(nèi)容發(fā)掘新關(guān)鍵字是搜索引擎學(xué)習(xí)新詞匯的主要方式之一。
(1)對用戶查詢?nèi)罩具M(jìn)行分析,篩選出日志中查詢相對頻繁的詞匯;
(2)如果某個查詢相對頻繁的關(guān)鍵字不存在于詞典系統(tǒng)中,就把這個關(guān)鍵字與部分頁面的內(nèi)容進(jìn)行匹配;如果命中,則表明該關(guān)鍵字是存在的,加入詞典系統(tǒng);否則,對下一個查詢頻繁詞
語進(jìn)行匹配。
●點擊
點擊是用戶找到所需信息后的表現(xiàn),反映了用戶對信息的關(guān)注。因此,用戶對鏈接的點擊也是衡量頁面相關(guān)性的因素之一,是衡量頁面相關(guān)性的一個重要補充。
在同一個關(guān)鍵字的搜索結(jié)果列表中,不同的用戶會有不同的選擇。但是,如果某一個結(jié)果的點擊次數(shù)明顯多于其他結(jié)果,則從一定程度上反映了該頁面是大部分用戶所需要的(特別是當(dāng)該
鏈接處在比較靠后的位置時)。
眾所周知,搜索結(jié)果中越靠前的鏈接得到點擊的幾率就會越高。按照這樣的邏輯,那么在排在第二、第三甚至第四的頁面被點擊的機會就會變得越來越小,但這并不代表這些頁面就不比排在前而的頁面重要,只是在目前的排序結(jié)果中,用戶還沒機會發(fā)現(xiàn)它們而已。所以,對于不同位置上鏈接的點擊,搜索引擎會對其權(quán)重值進(jìn)行相應(yīng)的補償。假設(shè)排在第一位的結(jié)果每被點擊一次會產(chǎn)生1分的補償,而排名在100名的結(jié)果被點擊一次則會產(chǎn)生10分甚至更多的補償。
3緩存機制
為了能在極短的時間內(nèi)響應(yīng)用戶的查詢請求,搜索引擎除了在用戶提交查詢信息前就生成關(guān)鍵字對應(yīng)的頁面排序列表以外,還需要為那些查詢最頻繁的關(guān)鍵字對應(yīng)的頁面排序列表建立緩存機制。
經(jīng)過統(tǒng)計,搜索引擎發(fā)現(xiàn)關(guān)鍵字查詢的集中現(xiàn)象非常明顯。查詢次數(shù)最多的前20 010的關(guān)鍵字大約占了總查詢次數(shù)的80a/o(就這是著名的80/20法則)。因此,只要我們對這20左右的關(guān)鍵字建立緩存就可以滿足80u/o的查詢需求。
由于用戶查詢時返回的信息主要是與關(guān)鍵字相關(guān)的頁面排序列表,因此關(guān)鍵字緩存機制的建立主要是針對與關(guān)鍵字相關(guān)的頁面排序列表。在對常用關(guān)鍵字的頁面排序列表建立緩存后,搜索引擎就可以把緩存中的信息返回給用戶,這樣速度就會非??欤簿湍軡M足絕大部分用戶的需求。
由于互聯(lián)網(wǎng)中的信息是時刻都在增長的,如果搜索引擎每次都向用戶返回同樣的信息,則不但用戶得不到更高質(zhì)量的信息,其他網(wǎng)站也不能向用戶展示最新的高質(zhì)量信息,從而造成信息滯后。因此,搜索引擎還會對緩存中的內(nèi)容進(jìn)行定期更新。
本文由上海專業(yè)網(wǎng)站建設(shè)公司藝覺網(wǎng)絡(luò)(www.zhongxin999.cn www.mywebseo.net),轉(zhuǎn)載請注明。