日本a在线播放_激情吻胸吃奶免费视频在线观看_天堂资源网在线www中文_美女扒开尿口给男人桶动态图_国产农村三片免费网站_日韩欧美国产综合字幕_玖玖香蕉视频_国产成人拍拍拍高潮尖叫教_婷婷开心五月四房播播人_精选一区二区

0531-68961579

濟(jì)南網(wǎng)站優(yōu)化:深度剖析SEO搜索引擎工作原理

來源:嘉晟科技 發(fā)表于:2017-04-13 15:39:10
搜索引擎工作原理一共包括三個過程:網(wǎng)頁搜索,預(yù)處理信息,建立索引。
 
細(xì)化分為:爬行—抓取—處理抓取信息—建立索引—呈現(xiàn)排名
 
一:爬行
 
爬行的目的:建立待抓取列表
 
谷歌爬蟲:ddos 百度爬蟲:spider
 
1、發(fā)現(xiàn):
 
新的網(wǎng)站
 
被動等待:設(shè)置好Robots.txt文件,放在服務(wù)器等待爬蟲自己過來爬取。(谷歌幾周,百度一個月至幾個月不等。)
 
主動引爬蟲:寫帶有鏈接的軟文花錢放在高質(zhì)量高權(quán)重的網(wǎng)站中、利用權(quán)重高的博客、在質(zhì)量高的論壇里發(fā)外鏈。
  
新的內(nèi)容
 
能放首頁放首頁,否則盡量爭取放在頂級欄目(總結(jié):爭取權(quán)重高的位置放)
 
Banner圖片不如幻燈片,幻燈片不如文字。(總結(jié):文字優(yōu)先,圖片寫alt屬性)2、爬蟲分析:
 
查看:網(wǎng)站日志分析。Log文件里可查看站長工具:查看抓取頻次。太高時會造成服務(wù)器崩潰問題及解決:網(wǎng)站訪問突然為
 
先site下網(wǎng)站收錄看看有沒有被懲罰
 
分析日志爬蟲,記錄IP(蜘蛛、用戶)
 
統(tǒng)計代碼出現(xiàn)問題
 
3、爬行策略:
 
深度優(yōu)先:一層欄目走到底(1百萬-1千萬個頁面)廣度優(yōu)先:同行欄目分別收集(1百萬個頁面)混合:兩者的混合使用(5千萬-1億個頁面)
 
4、爬蟲抓取障礙:
 
txt文件設(shè)置錯誤服務(wù)器本身的問題(動態(tài)IP頻繁出現(xiàn)、服務(wù)器不穩(wěn)定)URL超長,搜索引擎爬蟲懶得直接不抓。爬蟲陷阱
 
二:抓取
 
網(wǎng)頁本身需符合W3C標(biāo)準(zhǔn)
 
頁頭信息:狀態(tài)碼:200(正常訪問)、404(死鏈)、301(永久性重定向)、302(臨時重定向慎用)、403(禁止訪問)、5xx(數(shù)據(jù)庫的問題)編碼:建議使用utf-8. gb2312在國外打開是亂碼TDK關(guān)鍵詞:Title:盡量靠前,我們想讓爬蟲進(jìn)入到某個頁面就看到我們的主旨內(nèi)容。
 
長度:33個漢字 文章的話25個漢字足矣 英文兩個字符算一個字
 
位置:關(guān)鍵詞位置前置
 
次數(shù):不要過于重復(fù)太多(欄目可強(qiáng)調(diào)關(guān)鍵詞,最重要的放前面)
 
可讀性:考慮到用戶體驗
 
原創(chuàng)性:蜘蛛喜歡新鮮的東西
 
Keyword: 首頁5-7個、一級欄目5-6個、二級欄目4-5個、列表頁3-4個、專題2-3個。Deion: (欄目必須圍繞關(guān)鍵詞寫)
 
作用:提高點擊率
 
密度:3-8%
 
長度:80個漢字
 
原創(chuàng)性:有利于收錄
 
可讀性:用戶體驗考慮
 
號召行動:活動、促銷一類的頁面
 
3、公共部分:
 
搜索引擎不會抓取重復(fù)部分(爬蟲比較喜歡新鮮原創(chuàng)性的東西,重復(fù)出現(xiàn)的內(nèi)容不利于抓取)
 
4、導(dǎo)航:主導(dǎo)航、次導(dǎo)航、左導(dǎo)航、SEO導(dǎo)航(標(biāo)簽)、面包屑導(dǎo)航(不要用JS實現(xiàn))、
 
5、廣告:
 
Banner圖片不如幻燈片,幻燈片不如文字(總結(jié):文字優(yōu)先,圖片寫alt屬性)。文字有利于爬蟲抓取。
 
6、正文:
 
關(guān)鍵詞:次數(shù)合適、密度適中3-8%、位置靠前(金花站長工具可以查出來)

標(biāo)簽:唯一性,整個頁面第一重要。含關(guān)鍵詞,關(guān)鍵詞盡量靠前

標(biāo)簽:不唯一性,第二重要性。

中可加其它的屬性屬性:只能用于,意在告訴蜘蛛圖片的解釋

 
三:處理抓取結(jié)果(預(yù)處理)
 
爬蟲抓取后壓縮成數(shù)據(jù)包返回數(shù)據(jù)庫
 
相關(guān)性:因為百度算法語境分析+語義分析的原因,所以網(wǎng)站不要出現(xiàn)不相關(guān)的內(nèi)容出現(xiàn),否則搜索引擎也會撇掉的權(quán)威性:各種評獎、網(wǎng)絡(luò)評比、申請百度客服增加信任度。
 
注:不權(quán)威造成的影響:同一篇文章,由于信任度高低,有可能自己被轉(zhuǎn)載發(fā)布的文章自己的反倒在別人網(wǎng)站后面。
 
去重:一個鏈接不能有多個頁面、同一個關(guān)鍵詞不能指向不同鏈接、同一頁面下不要出現(xiàn)不同鏈接相同關(guān)鍵詞、
 
四:建立索引
 
搜索引擎的索引是反向建立的
 
首頁 URL 76分
 
一級欄目 URL 80分
 
二級欄目 URL 96分
 
專題頁 URL 70分
 
產(chǎn)品 URL 68分
 
百度分詞:從前往后、從后往前、統(tǒng)計學(xué)、
 
第三步處理抓取結(jié)果的時候說到爬蟲把抓取的內(nèi)容壓縮成數(shù)據(jù)包返回數(shù)據(jù)庫。這時搜索引擎的索引庫建成。當(dāng)用戶搜某個詞(長尾詞或短尾詞)的時候搜索引擎會根據(jù)百度分詞規(guī)律首先展現(xiàn)搜索詞與索引庫里完全一致的詞。