摘 要:針對(duì)綜合集成研討環(huán)境中的專家權(quán)威度評(píng)價(jià)問題,提出了一種基于SemRank的專家權(quán)威度計(jì)算方法。該方法既考慮專家之間的交互結(jié)構(gòu),又考慮專家發(fā)言內(nèi)容之間的語(yǔ)義關(guān)聯(lián)。由于專家之間的交互具有動(dòng)態(tài)復(fù)雜性,在計(jì)算語(yǔ)義關(guān)聯(lián)時(shí),引入了時(shí)間衰減函數(shù),反映時(shí)間這一要素的影響。實(shí)驗(yàn)結(jié)果表明,提出的專家權(quán)威度計(jì)算方法合理有效;在綜合集成研討環(huán)境中,對(duì)促進(jìn)專家良性互動(dòng)和激發(fā)專家思維具有一定的作用。
關(guān)鍵詞:基于cyberspace的綜合集成研討廳;群體交互;SemRank;開放的復(fù)雜巨系統(tǒng)
Expert authority estimating method based on SemRank in CWME
WANG Ai, LI Yao-dong, LI Wei-jie
(Key Laboratory of Complex Systems & Intelligence Science, Institute of Automation, Chinese Academy of Sciences, Beijing100190, China)
Abstract:To solve the problem of measuring experts’ authority in CWME,this paper proposed a method for estimating expert authority based on SemRank.This method not only considered the interactive structure between experts, but also took into account semantic relation between the experts’ speeches.As the interaction between experts possessed dynamic complexity,introduced the time decay function to estimating semantic relation. Experimental result shows that the proposed method is feasible and effective. It lays a good foundation for experts to interact and inspire in CWME.
Key words:cyberspace for workshop of metasynthetic engineering(CWME); collective interaction; SemRank; open complex giant systems
0 引言
1990年錢學(xué)森等人`1`提出開放的復(fù)雜巨系統(tǒng)的概念,以及處理這類系統(tǒng)的方法論——從定性到定量的綜合集成方法。綜合集成法就其實(shí)質(zhì)而言是將專家群體(各種有關(guān)的專家)、數(shù)據(jù)和各種信息與計(jì)算機(jī)技術(shù)有機(jī)地結(jié)合起來(lái),把各種學(xué)科的科學(xué)理論和人的經(jīng)驗(yàn)知識(shí)結(jié)合起來(lái),三者構(gòu)成一個(gè)系統(tǒng)。這個(gè)方法的成功關(guān)鍵在于充分發(fā)揮了系統(tǒng)的整體優(yōu)勢(shì)和綜合優(yōu)勢(shì)。1992年3月,錢學(xué)森進(jìn)一步提出了人機(jī)結(jié)合,從定性到定量的綜合集成研討廳(HWME)體系的思想`2`。這個(gè)研討廳的構(gòu)思是把人集成于系統(tǒng)之中,采用人機(jī)結(jié)合、以人為主的技術(shù)路線,充分發(fā)揮人的作用,使研討的集體在討論問題時(shí)互相啟發(fā),互相激活,使集體創(chuàng)見遠(yuǎn)遠(yuǎn)勝過個(gè)人的智慧`3`。
隨著Internet和各種通信網(wǎng)絡(luò)的迅速普及,cyberspace(電子空間和數(shù)字空間)成為一個(gè)重要的概念,它使參與者跨越時(shí)間和地域的限制,隨時(shí)隨地就所關(guān)心的問題進(jìn)行研究、交流和探討,并可隨時(shí)利用網(wǎng)絡(luò)上的大量資源。信息技術(shù)的這個(gè)發(fā)展,為綜合集成研討廳的實(shí)現(xiàn)提供了一種新的、可能的形式,即基于cyberspace的綜合集成研討廳(CWME)`4`。通過多年的探索與實(shí)踐,已經(jīng)成功建立了幾個(gè)典型的CWME系統(tǒng)`5,6`。
在CWME體系中,專家群體是最具有能動(dòng)性的成員,各專家以研討的方式暢所欲言,充分表達(dá)自己的觀點(diǎn),隨時(shí)進(jìn)行質(zhì)詢和辯論,以促進(jìn)對(duì)復(fù)雜問題認(rèn)識(shí)的提高。但是在研討過程中,每個(gè)專家對(duì)同一復(fù)雜問題的認(rèn)識(shí)和判斷都不盡相同,且參與者個(gè)人的行為和判斷會(huì)不同程度地影響周圍每個(gè)人的思維判斷,使得專家群體中的交互關(guān)系存在著微妙的隨時(shí)間變化的動(dòng)態(tài)復(fù)雜性。因此,在綜合集成研討廳體系中,如何衡量專家意見的合理性,計(jì)算在研討過程中涌現(xiàn)出來(lái)的專家權(quán)威度,刻畫專家群體之間的交互關(guān)系和結(jié)構(gòu),從而促進(jìn)研討流暢、高效地進(jìn)行,是研討廳體系實(shí)踐和應(yīng)用過程中的一個(gè)重要問題。
文獻(xiàn)`7`提出一種對(duì)發(fā)言觀點(diǎn)進(jìn)行權(quán)威度計(jì)算的方法。該方法借鑒萬(wàn)維網(wǎng)網(wǎng)頁(yè)的鏈接概念,根據(jù)發(fā)言之間的響應(yīng)關(guān)系建立廣義專家群體的有向鏈接結(jié)構(gòu)。該結(jié)構(gòu)采用有向?qū)傩詧D表示,專家的每條發(fā)言作為一個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有兩個(gè)屬性,即見解質(zhì)量屬性和見解評(píng)價(jià)屬性。專家發(fā)言之間的響應(yīng)關(guān)系作為有向邊(鏈接)。根據(jù)發(fā)言響應(yīng)和被響應(yīng)的情況計(jì)算每條發(fā)言的權(quán)威度,發(fā)言被響應(yīng)的次數(shù)越多,該條發(fā)言的權(quán)威度越高;權(quán)威度較高的發(fā)言所響應(yīng)的發(fā)言,其權(quán)威度也較高,反之權(quán)威度越小。文獻(xiàn)`8`提出了基于即時(shí)發(fā)言評(píng)價(jià)的專家權(quán)威度計(jì)算方法。在研討過程中,各位專家在主持人的引導(dǎo)下按照一定的評(píng)價(jià)指標(biāo)即時(shí)對(duì)發(fā)言進(jìn)行評(píng)價(jià),所采用的評(píng)價(jià)指標(biāo)是相關(guān)度、可信度、合理度以及啟發(fā)度。在研討過程中,一個(gè)專家的權(quán)威度主要是由其發(fā)言效率和評(píng)價(jià)效率決定的。因此,基于即時(shí)發(fā)言評(píng)價(jià)的專家權(quán)威度計(jì)算方法的基本思想是通過計(jì)算專家的發(fā)言效率和評(píng)價(jià)效率,并對(duì)兩者進(jìn)行適當(dāng)加權(quán),進(jìn)而得出專家的總體權(quán)威度。
上述方法盡管可以計(jì)算專家某條發(fā)言的權(quán)威度,但是并沒有從語(yǔ)義的角度考慮專家的發(fā)言內(nèi)容之間的關(guān)系,同時(shí)也沒有考慮專家群體交互的動(dòng)態(tài)復(fù)雜性?;诖?本文提出了基于Semantic-PageRank(SemRank)的專家權(quán)威度計(jì)算方法。該方法既考慮專家之間的交互結(jié)構(gòu),又考慮專家發(fā)言內(nèi)容之間的語(yǔ)義關(guān)聯(lián);在計(jì)算語(yǔ)義關(guān)聯(lián)時(shí),該方法還引入了時(shí)間要素這一概念來(lái)體現(xiàn)專家交互的動(dòng)態(tài)復(fù)雜性。實(shí)驗(yàn)結(jié)果表明,本文提出的專家權(quán)威度計(jì)算方法合理、有效,可以為與會(huì)專家在綜合集成研討環(huán)境中進(jìn)行良性互動(dòng)提供一定的參考意義。
1 PageRank算法
本文提出的SemRank算法是在PageRank的基礎(chǔ)發(fā)展得到的,“PageRank”技術(shù)`9`最早由斯坦福大學(xué)的“Google”研究小組提出??梢杂靡环N“隨機(jī)沖浪”模型作為“PageRank”的理論基礎(chǔ),該模型描述網(wǎng)絡(luò)用戶對(duì)網(wǎng)頁(yè)的訪問行為。假設(shè)如下:
a)用戶隨機(jī)地選擇一個(gè)網(wǎng)頁(yè)作為上網(wǎng)的起始網(wǎng)頁(yè);
b)看完這個(gè)網(wǎng)頁(yè)后,從該網(wǎng)頁(yè)所含的超鏈接中隨機(jī)地選擇一個(gè)頁(yè)面繼續(xù)進(jìn)行瀏覽;
c)沿著超鏈接前進(jìn)了一定數(shù)目的網(wǎng)頁(yè)后,用戶對(duì)這個(gè)主題感到厭煩,重新隨機(jī)選擇一個(gè)網(wǎng)頁(yè)進(jìn)行瀏覽,如此反復(fù)。
根據(jù)上述的用戶行為模型,PageRank的基本思想就是引入一個(gè)網(wǎng)頁(yè)的權(quán)威值的概念,其網(wǎng)頁(yè)的權(quán)威值與網(wǎng)頁(yè)的內(nèi)容無(wú)關(guān),權(quán)威值計(jì)算是根據(jù)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)圖。網(wǎng)頁(yè)p的權(quán)威值取決于兩個(gè)要素:a)有多少網(wǎng)頁(yè)引用了它(網(wǎng)頁(yè)p);b)引用網(wǎng)頁(yè)p的這些網(wǎng)頁(yè)的權(quán)威值。因此這是一個(gè)循環(huán)迭代的過程`10`。計(jì)算公式如下:
x?p=dN+(1-d)?q∈pa`p`x?qh?q(1)
其中:d∈(0,1)是阻尼因子;h?q是節(jié)點(diǎn)q的出度,就是q有多少個(gè)超鏈接外鏈;pa`p`是指向p的網(wǎng)頁(yè)集合;N是指網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中節(jié)點(diǎn)數(shù),即網(wǎng)頁(yè)的數(shù)量。
2 基于SemRank的專家權(quán)威度計(jì)算方法
綜合集成研討廳體系的鏈接結(jié)構(gòu)是通過專家群體的有效互動(dòng)建立起來(lái)的。在互動(dòng)過程中,專家對(duì)以前的發(fā)言進(jìn)行評(píng)論,同時(shí)發(fā)表自己對(duì)問題的見解,通過這種響應(yīng)建立起個(gè)體之間響應(yīng)關(guān)系,進(jìn)而可建立專家群體的有向鏈接結(jié)構(gòu)。鏈接結(jié)構(gòu)中,專家每次的發(fā)言為一個(gè)節(jié)點(diǎn),專家發(fā)言的響應(yīng)或者被響應(yīng)關(guān)系為有向邊,從而使得這種鏈接結(jié)構(gòu)可用有向?qū)傩詧D表示。這與PageRank中描述WWW的有向?qū)傩杂邢嗨浦?WWW中的網(wǎng)頁(yè)對(duì)應(yīng)一個(gè)節(jié)點(diǎn),WWW中網(wǎng)頁(yè)的鏈接關(guān)系對(duì)應(yīng)圖中的邊。文獻(xiàn)`7`采用的就是這個(gè)思路計(jì)算專家發(fā)言的權(quán)威度。
在實(shí)踐過程中,運(yùn)用上述方法卻經(jīng)常遇到兩個(gè)問題:a)雖然某條發(fā)言A在長(zhǎng)時(shí)間內(nèi)得到較多的響應(yīng),但此時(shí)發(fā)言的主題已經(jīng)發(fā)生了一定程度的改變,此時(shí)A的權(quán)威度理應(yīng)下降,但是由于PageRank算法本身不考慮發(fā)言內(nèi)容的語(yǔ)義相似度,導(dǎo)致計(jì)算出來(lái)的A的權(quán)威度偏高;b)越早的發(fā)言,權(quán)威度容易越高,這是因?yàn)檩^早的發(fā)言容易得到相對(duì)較多的響應(yīng),或者說(shuō)最近的發(fā)言經(jīng)常尚未得到充分的響應(yīng),此時(shí)按照PageRank計(jì)算的權(quán)威度會(huì)偏離真實(shí)的權(quán)威度情況。
針對(duì)這兩個(gè)常見問題,在PageRank算法的基礎(chǔ)上,本文提出SemRank方法。該方法的優(yōu)勢(shì)在于:a)引入發(fā)言內(nèi)容的語(yǔ)義相似度計(jì)算方法,在衡量某條發(fā)言的權(quán)威度時(shí),不僅考慮它得到了多少響應(yīng),同時(shí)考慮它與所響應(yīng)的發(fā)言之間的語(yǔ)義聯(lián)系;b)引入時(shí)間衰減函數(shù),對(duì)較近的響應(yīng)賦予較大的權(quán)重,削弱某些早期發(fā)言過于長(zhǎng)久的影響。
SemRank算法同樣根據(jù)有向?qū)傩詧D來(lái)計(jì)算每條發(fā)言的權(quán)威度,然后對(duì)每個(gè)專家的所有發(fā)言的權(quán)威值求均值,獲得該專家的總體權(quán)威度。
2.1 發(fā)言內(nèi)容的動(dòng)態(tài)相似度計(jì)算
首先考慮專家發(fā)言之間的語(yǔ)義關(guān)聯(lián),把研討中的每條發(fā)言表示成tf-idf向量形式,采用余弦相似度計(jì)算語(yǔ)義關(guān)聯(lián)程度,計(jì)算公式如下:
sim(u,v)=?ω∈u,vtf?u(ω)tf?v(ω)idf(ω)?2
?ω∈u(tf?u(ω)idf(ω))?2
?ω∈v(tf?v(ω)idf(ω))?2
(2)
其中:tf?u(ω)和tf?v(ω)分別表示詞ω在發(fā)言u(píng)和v中的詞頻;idf(ω)表示逆文本頻率,計(jì)算公式為
idf(ω)=log (N/n?ω)(3)
其中:n?ω是表示有多少條發(fā)言包含詞ω,N為總的發(fā)言數(shù)。
式(2)只考慮了專家發(fā)言之間的靜態(tài)關(guān)系。實(shí)際上這種關(guān)系應(yīng)該是與時(shí)間相關(guān)的:兩條發(fā)言之間的時(shí)間間隔越長(zhǎng),語(yǔ)義之間的相似度就越低,反之則越高。因此本文考慮時(shí)間衰減要素,引入時(shí)間衰減函數(shù)(這里考慮的時(shí)間信息是專家的每條發(fā)言在整個(gè)研討過程中的相對(duì)位置,而不是每條發(fā)言在研討過程中出現(xiàn)的絕對(duì)時(shí)間),得到如下的動(dòng)態(tài)相似度計(jì)算公式:
s?i(u,v,T)=sim(u,v)×f?i(u,v,T);i=1,2(4)
其中:f?i(u,v,T)為發(fā)言u(píng)與v之間的時(shí)間衰減函數(shù)。這里采用兩種形式:
a)f?1(u,v,T)=1-|k-i-1|/N。其中:發(fā)言u(píng)為研討中第k個(gè)發(fā)言,發(fā)言v為研討中第i個(gè)發(fā)言。
b)f?2(u,v,T)=1/|k-i|。其中:發(fā)言u(píng)為研討中第k個(gè)發(fā)言,發(fā)言v為研討中第i個(gè)發(fā)言。
2.2 專家權(quán)威度計(jì)算
基于SemRank的專家權(quán)威度計(jì)算的算法實(shí)現(xiàn)過程如下:
初始值:向量P?0=(p?0(1),p?0(2),…,p?0(N)),其中p?0(u)=1/N(u=1,2,…,N)。?
輸入:error ε。
輸出: 向量P=(p(1),p(2),…,P(N))。
t=0
repeat
t=t+1
根據(jù)式(6)計(jì)算P?t(u)(u=1,2,…,N)
δ=‖P?t-Pt-1‖
until δ<ε
returnP?t
在考慮了發(fā)言
以上是關(guān)于基于SemRank的CWME專家權(quán)威度計(jì)算方法研討已公布的相關(guān)信息,請(qǐng)自考生們認(rèn)真查看,如果你想獲取最新的江蘇自考新聞或者江蘇自考問題答疑,可以掃描江蘇自考網(wǎng)公眾號(hào)二維碼,我們會(huì)最第一時(shí)間內(nèi)為你解答。
?自考有疑惑或想進(jìn)學(xué)習(xí)群,請(qǐng)聯(lián)系江蘇自考網(wǎng)客服