我們先來看一下搜索引擎的工作原理。在搜索引擎原理中,搜索引擎工作流程大致有三點:數據采集、數據預處理、查詢服務,今天成都seo在這里和大家分享一下數據預處理,值得注意的是,在我們所述的“數據預處理”就是主要包含四個方面:關鍵詞提取,“鏡像網頁”以及“轉載網頁”的消除,鏈接分析和網頁重要程度的計算。
一、關鍵詞提取
首先要先會提取關鍵詞。在每一章網頁,包含了大量的和主題內容無關的內容,關鍵詞提取的任務,就是要提取出網頁源文件的內容部分所含的關鍵詞。提取的方法:根據百度分詞技術,將內容切成多個詞組成的數組,再取出“在”“的”等無意義的詞組,確定最終的關鍵詞。
二、鏈接分析
1)鏈接分析中有提到兩個概念,詞頻(TF):該關鍵詞在關鍵詞提取之后的關鍵詞集合中的出現頻率
2)文件頻率(DF):該關鍵詞在所有文件中的出現頻率,在所有文件中,該關鍵詞在多少文件中出現
3)搜索引擎可以通過HTML文本標簽,來確定關鍵詞的重要性
我們認為搜索引擎的數據預處理大致可以從以上幾方面來進行。