發(fā)布時間:2022-8-30 分類: 電商動態(tài)
很久以前,我擔心引入TF-IDF。大多數解釋都是基于概念。很多人將TF-IDF稱為“算法”。我閱讀了很多文章,甚至在我自己的網站上。用過的。鑒于許多朋友說涉及的公式太多,這一點并不容易理解。本文使用簡單的示例來解釋我對TF-IDF的一些見解,而不是討論復雜的公式。我希望我能幫到你!
首先,TF詞頻的概念與SEO建議
TF指的是單詞的頻率,查詢關鍵字在文檔中出現(xiàn)的次數。相關文件介紹如下。假設查詢關鍵字出現(xiàn)在同一文檔中的頻率越高,關鍵字越重要,文檔含義越有代表性,文章主題越接近關鍵字的含義,那么如何做SEO使用這個知識點?
假設有一篇文章標題為:“SEO服務外包”,字面上,文章主要是基于SEO服務,“外包”是一種延伸。假設SEO服務在文章內容中出現(xiàn)20次,服務出現(xiàn)25次,外包出現(xiàn)10次。根據TF詞頻的規(guī)則,SEO服務是文章的主題,這是很好理解的。
實際上,有時在撰寫文章時,如果含義明確,則省略該主題。例如,SEO服務外包價格,SEO服務外包流程,SEO服務外包公司介紹,將縮寫為:外包價格,外包流程,外包公司介紹。這將導致外包比服務更頻繁出現(xiàn),TF字頻率將外包視為主題和錯誤的判斷。
由于這種情況,在進行SEO關鍵詞布局時,應該考慮主關鍵詞的出現(xiàn)頻率大于副詞。當然,搜索引擎判斷網頁主題有很多維度。這里,它只是從TF字頻率的角度來看。個人認為這會縮短搜索引擎判斷網頁主題的時間,這對SEO有利。
第二、如何快速理解“IDF逆文檔頻率”
如果查看文檔,這個概念有點難以理解。在我理解之前,我最初幾次了解百度百科全書。這里沒有提到復雜的公式。與TF結合使用,TF-IDF表示文章中關鍵字的出現(xiàn)次數更多,關鍵字文檔包含在搜索引擎數據庫中。數字越少,關鍵字代表此頁面的主題越多。
作為一個例子,假設有一篇文章有??兩個關鍵詞:“SEO優(yōu)化”和“SEO服務”。在文章中,這兩個關鍵詞出現(xiàn)了20次,但在百度的數據庫中包含了1000萬個SEO優(yōu)化文檔和500萬個包含SEO服務的文檔。 SEO服務越多代表本文的含義。或者搜索引擎數據庫中包含關鍵字的文檔數量相同,文章中出現(xiàn)的關鍵字越多,頁面主題的代表性就越高。
從SEO的角度來看,IDF的價值是客觀的。你不必深入。只需了解不同關鍵字之間的文檔數量即可。以百度為例。搜索任何關鍵字,搜索框下方都會有一個:“百度找到關于XXX“圈子”的相關結果,里面的值可以作為文件數量的參考。每個搜索引擎包含關鍵字的文檔數量可能不同,但總體相對比例值應該相似。隨著時間的推移,文件的數量將繼續(xù)變化。
關于TF-IDF相似度計算規(guī)則的解釋,在這里分享,個人無知,并且歡迎做出不足之處。本文來自[Optical Valley SEO Services:http://www.guangguseo.com/],專注于SEO網站優(yōu)化服務,喜歡探索搜索引擎算法,歡迎與我交流和學習。轉載以表明來源,謝謝!
周一周五 8:30 - 18:00