根據文章對tag標簽的不同匹配程度,分成了下圖中四個階梯,排序的優先順序從上到下,具體排序規則下面說詳細說明。
第一階梯的文章屬于tag詞高度精準匹配的文章,最優先排列。比如tag詞是“SEO算法”,文章標題如果完整出現“農村土地流轉”這個詞才算完整包含,下列文章標題屬于這種情況:
多個文章標題都能完整包含tag標簽詞則按照文章發布時間的先后順序排列,先排列最新發布的。第一階梯的文章調用不限制數量,符合條件的全部展現出來。
第二階梯的文章屬于tag詞精準匹配的文章,僅排列在第一階梯后面。比如tag詞是“SEO算法”,分詞后得到“SEO”“算法”;兩個詞,文章標題如果這兩個詞都有出現才算分詞后能全包含,下列文章屬于這類情況:
多個文章標題都能tag標簽分詞后完整包含則按照文章發布時間的先后順序排列,先排列最新發布的。第二階梯的文章調用不限制數量,符合條件的全部展現出來。
第三階梯文章屬于廣泛匹配的文章,排列比較靠后。比如tag詞是“農村土地流轉”,分詞后得到“農村”“土地”“流轉”三個詞,文章標題中只出現這三個詞中的兩個或者一個的情況。下列文章屬于這類情況:
如果存在多個文章屬于第三階梯這類情況,則采用TF-IDF算法,根據每個文章標題對應的TF-IDF值排序,從大到小排列。這樣更把更相關的文章排列在前面。
TF-IDF算法公式:把tag詞分詞后在標題中出現的每個詞TF*IDF值求和。
TF=該詞在目前文章標題中出現的次數/標題總詞數
IDF=log(土流網文章總數/標題中包含這個詞的文章數)
例子:對于“農村土地流轉”這個tag詞,“2019年湖南農村土地現狀分析”和“全國各地土地流轉形勢簡介”兩個文章的TF*IDF值分別是多少?哪個文章排前面?
對于2017年湖南農村土地現狀分析這個文章:
“農村”這個詞,TF*IDF=1/7 * log(50000/9760)=0.143*1.63=0.233
“農村”這個詞在上述標題中只出現1次,標題分詞后一共7個詞語,假設網站一共50000個文章,標題出現了“農村”的文章有9760篇。
“土地”這個詞,TF*IDF=1/7 * log(50000/19180)=0.143*0.955=0.137
2017年湖南農村土地現狀分析TF*IDF值為:0.233+0.137=0.37
對于全國各地土地流轉形勢簡介這個文章:
“土地”這個詞,TF*IDF=1/6 * log(50000/19180)=0.143*0.955=0.159
“流轉”這個詞,TF*IDF=1/6 * log(50000/7100)=0.143*1.952=0.279
全國各地土地流轉形勢簡介TF*IDF值為:0.159+0.279=0.438
顯然這個文章的TF-IDF值大于上面那個文章,這個文章排前面。
程序在計算第三階梯文章的TF-IDF
Tf-idf相關介紹:baike.baidu.com/link?url=9jWqcxIe110pMpJN0LW0r2T1YgSSWCxOQFMOWGzi_u4SUl5ChaTAs3Tbk0OPi_4va-fizgtNCx3A-KMb31ihRa
第四階梯文章屬于最廣泛匹配的文章,排列在最后面。這類文章基本是主題和tag詞不相關,但是正文中有部分相關內容。
存在多個文章屬于這類情況,則按照tag詞完整出現的次數排序,出現次數最多的排列在前面,次數相同則按照發布時間的先后順序排列,最新發布的排前面。第四階梯的文章調用不限制數量,符合條件的全部展現出來。
5、注意事項
考慮到程序計算速度的問題,所有標簽詳情頁可以緩存一天,可以考慮夜間計算每個標簽的調用結果進行緩存。
標簽調用文章總數最多不超過400篇,每頁展現20條,也就是最多20頁。
以上就是在考慮做TAG聚合頁面的時候,所要考慮的頁面調用規則,合理的規則可以大大提高文章相關性和關鍵詞密度,以達到網站權重的提升,獲得頁面排名。