F-IDF(詞頻-逆文檔頻率)算法是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。該算法在數(shù)據(jù)挖掘、文本處理和信息檢索等領(lǐng)域得到了廣泛的應(yīng)用,如從一篇文章中找到它的關(guān)鍵詞。
TFIDF的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。TF-IDF實(shí)際上就是
TF*IDF,其中 TF(Term Frequency),表示詞條在文章Document 中出現(xiàn)的頻率;IDF(Inverse Document
Frequency)。
其主要思想就是,如果包含某個(gè)詞
Word的文檔越少,則這個(gè)詞的區(qū)分度就越大,也就是 IDF 越大。對(duì)于如何獲取一篇文章的關(guān)鍵詞,我們可以計(jì)算這邊文章出現(xiàn)的所有名詞的
TF-IDF,TF-IDF越大,則說(shuō)明這個(gè)名詞對(duì)這篇文章的區(qū)分度就越高,取 TF-IDF 值較大的幾個(gè)詞,就可以當(dāng)做這篇文章的關(guān)鍵詞。
PageRank通過(guò)網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來(lái)確定一個(gè)頁(yè)面的等級(jí)。Google把從A頁(yè)面到B頁(yè)面的鏈接解釋為A頁(yè)面給B頁(yè)面投票,Google根據(jù)投票來(lái)源(甚至來(lái)源的來(lái)源,即鏈接到A頁(yè)面的頁(yè)面)和投票目標(biāo)的等級(jí)來(lái)決定新的等級(jí)。簡(jiǎn)單的說(shuō),一個(gè)高等級(jí)的頁(yè)面可以使其他低等級(jí)頁(yè)面的等級(jí)提升。
基于PageRank算法衍生出來(lái)的外鏈時(shí)代,那時(shí)候多瀏覽器多窗口同時(shí)運(yùn)行,CtrlC加CtrlV無(wú)限循環(huán),我們被親切地稱為CV工程師;而后黑馬博客群發(fā)、蟲蟲營(yíng)銷助手,又如劍客手中的劍攝取著搜索引擎這個(gè)大流量池;當(dāng)然還有大量的各式各樣友情鏈接交換手法以及鏈輪手法。
以是我們,上海網(wǎng)站建設(shè),公司整理關(guān)于科技的消息,我們提供百度優(yōu)化,SEO優(yōu)化,網(wǎng)站建設(shè),關(guān)于這些方面的問(wèn)題,歡迎咨詢我們。
本文由上海藝覺(jué)網(wǎng)絡(luò)科技有限公司(http://www.zhongxin999.cn)原創(chuàng)編輯轉(zhuǎn)載請(qǐng)注明
網(wǎng)絡(luò)營(yíng)銷專題
SEO每日流量如何做上去
來(lái)源:
上海網(wǎng)站建設(shè)
發(fā)布日期:
2018-08-21 14:12
點(diǎn)擊量:
3397
相關(guān)新聞
- 關(guān)鍵詞是領(lǐng)導(dǎo)網(wǎng)站流量提升的關(guān)鍵 2013-12-10
- 網(wǎng)絡(luò)營(yíng)銷基本原則 2011-11-02
- 上海做網(wǎng)站優(yōu)化公司的關(guān)于網(wǎng)站優(yōu)化的基本經(jīng)驗(yàn)總結(jié) 2013-05-23
- 電商網(wǎng)站建設(shè)的URL規(guī)范與技巧討論 2014-03-04
- 移動(dòng)端網(wǎng)站建設(shè)更要注意用戶體驗(yàn) 2015-11-20
- 結(jié)構(gòu)布局完成后充實(shí)網(wǎng)站的內(nèi)容要注意的一些細(xì)節(jié) 2015-10-28
- SEO每日流量如何做上去 2018-08-21