网友真实露脸自拍10p,成人国产精品秘?久久久按摩,国产精品久久久久久无码不卡,成人免费区一区二区三区

幫助

搜索引擎的數據預處理

2018-12-18 08:34 技術文檔

我們先來看一下搜索引擎的工作原理。在搜索引擎原理中,搜索引擎工作流程大致有三點:數據采集、數據預處理、查詢服務,今天成都seo在這里和大家分享一下數據預處理,值得注意的是,在我們所述的“數據預處理”就是主要包含四個方面:關鍵詞提取,“鏡像網頁”以及“轉載網頁”的消除,鏈接分析和網頁重要程度的計算。

一、關鍵詞提取

首先要先會提取關鍵詞。在每一章網頁,包含了大量的和主題內容無關的內容,關鍵詞提取的任務,就是要提取出網頁源文件的內容部分所含的關鍵詞。提取的方法:根據百度分詞技術,將內容切成多個詞組成的數組,再取出“在”“的”等無意義的詞組,確定最終的關鍵詞。

二、鏈接分析

1)鏈接分析中有提到兩個概念,詞頻(TF):該關鍵詞在關鍵詞提取之后的關鍵詞集合中的出現頻率

2)文件頻率(DF):該關鍵詞在所有文件中的出現頻率,在所有文件中,該關鍵詞在多少文件中出現

3)搜索引擎可以通過HTML文本標簽,來確定關鍵詞的重要性

我們認為搜索引擎的數據預處理大致可以從以上幾方面來進行。


相關推薦

QQ在線咨詢
AI智能客服 ×