google并不是第一家搜索引擎公司,但后來(lái)卻成為龍頭行業(yè),這其中pagerank算法發(fā)揮著重要的作用。pagerank是google創(chuàng)始人之一larry page發(fā)明的,今天我們就來(lái)一起瞻仰下大神的創(chuàng)作。
互聯(lián)網(wǎng)上的每一個(gè)網(wǎng)頁(yè)都可以看作一個(gè)頂點(diǎn),每一個(gè)頂點(diǎn)都有出度和入度。出度是指從這個(gè)網(wǎng)頁(yè)能鏈接到的其他網(wǎng)頁(yè)的數(shù)目,入度是指能鏈接到這個(gè)網(wǎng)頁(yè)的其他網(wǎng)頁(yè)的數(shù)目。
這樣整個(gè)互聯(lián)網(wǎng)中的所有網(wǎng)頁(yè)的鏈接關(guān)系可以看成具有大量網(wǎng)頁(yè)結(jié)點(diǎn)的有向圖。一個(gè)網(wǎng)頁(yè)很重要最直觀的感受就是有許多的網(wǎng)頁(yè)鏈接到它,即它的入度大,并且重要性越高的網(wǎng)頁(yè)鏈接它更能說(shuō)明它越重要。
基于以上思想,我們首先量化網(wǎng)頁(yè)的重要性,用pr值表示重要性,一個(gè)網(wǎng)頁(yè)的pr值越大表明這個(gè)網(wǎng)頁(yè)越重要。
pagerank的簡(jiǎn)化模型
一個(gè)網(wǎng)頁(yè)的pr值在一定程序上取決于它的入度,也和鏈接到它的網(wǎng)頁(yè)本身的pr值有關(guān),基于這個(gè)思想,計(jì)算任意一個(gè)網(wǎng)頁(yè)的pr值的公式如下。
其中bu是所有鏈接到u網(wǎng)頁(yè)的網(wǎng)頁(yè)集合,網(wǎng)頁(yè)v屬于集合bu,l(v)是網(wǎng)頁(yè)v的出度。下面我們就用下圖的網(wǎng)頁(yè)鏈接關(guān)系舉例。
假定a、b、c、d網(wǎng)頁(yè)的初始pr值都為0.25,根據(jù)上面的計(jì)算公式,我們有如下的計(jì)算過(guò)程。
經(jīng)過(guò)多次的迭代計(jì)算后,pr值逐漸穩(wěn)定,即可認(rèn)為pr值收斂。從計(jì)算結(jié)果看出,b、d的pr值較高,這表明b、d的重要程度高,這也符合我們對(duì)圖的直觀感受。
但真實(shí)的網(wǎng)頁(yè)鏈接關(guān)系復(fù)雜,這種簡(jiǎn)化的模型會(huì)面臨以下兩個(gè)問(wèn)題。
1.排名泄漏
如果有向圖中有一個(gè)頂點(diǎn)的出度為0,即這個(gè)網(wǎng)頁(yè)沒(méi)有鏈接到其他的網(wǎng)頁(yè),則會(huì)出現(xiàn)排名泄漏問(wèn)題。以下圖為例,a頂點(diǎn)的出度為0。
以此圖的迭代計(jì)算過(guò)程如下。
出現(xiàn)這種問(wèn)題的原因可以理解為a網(wǎng)頁(yè)對(duì)整個(gè)網(wǎng)頁(yè)沒(méi)有pr值的貢獻(xiàn),因?yàn)樗某龆葹?,相反它還吸收其它網(wǎng)頁(yè)對(duì)它pr值的貢獻(xiàn),導(dǎo)致整個(gè)網(wǎng)頁(yè)的pr值越來(lái)越小。
2.排名下沉
如果有向圖中有一個(gè)頂點(diǎn)的入度為0,即沒(méi)有其他網(wǎng)頁(yè)鏈接到這個(gè)網(wǎng)頁(yè),則會(huì)出現(xiàn)排名下沉問(wèn)題。以下圖為例,a頂點(diǎn)的入度為0。
因?yàn)閍的入度為0,則在第一次迭代的時(shí)候a的pr值就為0,以后都為0。
為了解決簡(jiǎn)化模型出現(xiàn)的以上兩個(gè)問(wèn)題,pagerank的隨機(jī)瀏覽模型應(yīng)運(yùn)而生。
pagerank的隨機(jī)瀏覽模型
隨機(jī)瀏覽模型是符合用戶上網(wǎng)行為的一種模型。用戶隨機(jī)打開(kāi)一個(gè)網(wǎng)頁(yè)后,要么點(diǎn)擊這個(gè)網(wǎng)頁(yè)上的鏈接繼續(xù)網(wǎng)頁(yè)的瀏覽,要么隨機(jī)轉(zhuǎn)到另外的一個(gè)網(wǎng)頁(yè)重新開(kāi)始新一輪的瀏覽。
為此隨機(jī)瀏覽模型引入了一個(gè)阻尼系數(shù)d來(lái)表示用戶點(diǎn)擊此網(wǎng)頁(yè)上的鏈接繼續(xù)瀏覽的概率,則1-d就是用戶重新進(jìn)行新一輪的瀏覽的概率。引入阻尼系數(shù)d的計(jì)算公式如下。
其中n為整個(gè)網(wǎng)頁(yè)的數(shù)目。
引入阻尼系數(shù)的效果為:在原有的有向圖中添加了一個(gè)全鏈接的瀏覽關(guān)系,這樣就完全解決了簡(jiǎn)化模型中出現(xiàn)的排名泄漏和排名下沉的問(wèn)題。如下圖所示。
其中虛線就是隨機(jī)瀏覽模型添加的全鏈接關(guān)系。
美國(guó)液化天然氣出口可能會(huì)得到提振
從中國(guó)買(mǎi)東西怎么郵寄到英國(guó)?
國(guó)內(nèi)報(bào)關(guān)和國(guó)外清關(guān)有關(guān)系么?
瑞士空運(yùn)機(jī)場(chǎng)有哪些?
深圳到美國(guó)紐約海運(yùn)價(jià)格
谷歌網(wǎng)頁(yè)排名算法(內(nèi)附PageRank的簡(jiǎn)化模型)
佛山到尼日利亞海運(yùn)(南莊鎮(zhèn))
國(guó)際海運(yùn)正本提單丟失風(fēng)險(xiǎn)大(外貿(mào)人請(qǐng)注意避免單據(jù)遺失風(fēng)險(xiǎn))
在危險(xiǎn)的邊緣瘋狂試探?海關(guān)強(qiáng)力打擊危險(xiǎn)品瞞報(bào)、謊報(bào)!
寵物商機(jī)有哪些(進(jìn)軍寵物市場(chǎng)的跨境電商賣(mài)家看過(guò)來(lái))
澳洲含有紐扣電池的消費(fèi)類(lèi)(家用)產(chǎn)品標(biāo)準(zhǔn)UL4200A
進(jìn)入回收市場(chǎng)的船只數(shù)量開(kāi)始增加
大零售轉(zhuǎn)型戰(zhàn)略具體措施(大零售轉(zhuǎn)型表現(xiàn)出什么)
有哪些快遞可以寄到日本?
天天物流人工服務(wù)電話 天天發(fā)物流單號(hào)查詢
中國(guó)郵政包裹可以寄到柬埔寨金邊嗎,柬埔寨快遞可以寄到中國(guó)嗎
人民幣對(duì)美元匯率波動(dòng)的原因是什么?(匯率暴跌創(chuàng)2022年12月以來(lái)新低)
東莞發(fā)歐洲FBA頭程注意事項(xiàng),廣東fba頭程日本專(zhuān)線價(jià)錢(qián)
東莞到匈牙利布達(dá)佩斯快遞費(fèi)(東莞到黎巴嫩快遞)(東莞到黎巴嫩快遞)
江蘇出口制氧機(jī)報(bào)關(guān)到印度的費(fèi)用