660
shares
聚米幫你連接全球客戶
服務(wù)熱線:400-8817-968
發(fā)布于:2019-11-27
Google的最新算法更新BERT可以幫助Google更好地理解自然語(yǔ)言,尤其是在語(yǔ)音搜索中上起到非常大的作用。
BERT將影響大約10%的查詢。這也將影響自然排名和精選內(nèi)容結(jié)果,為用戶帶來(lái)更好的更精準(zhǔn)的信息。所以這是不小的改變!
但是您是否知道BERT不僅是任何算法更新,還是研究論文和機(jī)器學(xué)習(xí)自然語(yǔ)言處理框架?
實(shí)際上,在實(shí)施該產(chǎn)品的前一年,BERT引起了產(chǎn)品搜索活動(dòng)的狂熱風(fēng)暴。
之前有專家解釋了Google的BERT到底是什么,它如何工作,如何影響搜索以及是否可以嘗試為其優(yōu)化內(nèi)容。
搜索中的BERT是什么?
BERT代表變壓器的雙向編碼器表示,實(shí)際上有很多東西。
它被廣泛稱為Google搜索算法成分/ tool / framework(稱為Google BERT),旨在幫助Search更好地理解Search中單詞的細(xì)微差別和上下文,并使這些查詢與有用的結(jié)果更好地匹配。
此外,BERT是Google生成的自然語(yǔ)言處理NLP框架,然后將其開(kāi)源,因此整個(gè)自然語(yǔ)言處理研究領(lǐng)域?qū)嶋H上可以更好地從整體上理解自然語(yǔ)言。
您可能會(huì)發(fā)現(xiàn),在線上大多數(shù)BERT提及都與Google BERT更新無(wú)關(guān)。
其他研究人員正在發(fā)表許多有關(guān)BERT的實(shí)際論文,這些論文并未使用您認(rèn)為Google BERT算法更新時(shí)會(huì)使用的東西。
BERT極大地促進(jìn)了自然語(yǔ)言對(duì)NLU的理解,而Google轉(zhuǎn)向開(kāi)源BERT的舉動(dòng)可能永遠(yuǎn)改變了自然語(yǔ)言的處理方式。
機(jī)器學(xué)習(xí)的ML和NLP社區(qū)對(duì)BERT感到非常興奮,因?yàn)樗枰ㄙM(fèi)大量的精力來(lái)進(jìn)行自然語(yǔ)言的研究。它已經(jīng)對(duì)很多單詞進(jìn)行了預(yù)訓(xùn)練,整個(gè)英語(yǔ)維基百科中有25億個(gè)單詞。
Vanilla BERT為機(jī)器學(xué)習(xí)和自然語(yǔ)言多樣化任務(wù)中的神經(jīng)網(wǎng)絡(luò)提供了預(yù)先訓(xùn)練的起點(diǎn)層。
雖然BERT已在Wikipedia上進(jìn)行了預(yù)培訓(xùn),但已對(duì)問(wèn)題和答案數(shù)據(jù)集進(jìn)行了微調(diào)。
可以微調(diào)的那些問(wèn)答數(shù)據(jù)集之一稱為MS MARCO:由Microsoft構(gòu)建和開(kāi)放源代碼的人類生成的機(jī)讀理解數(shù)據(jù)集。
研究人員還與SQuAD(斯坦福問(wèn)題解答數(shù)據(jù)集)就自然語(yǔ)言理解展開(kāi)競(jìng)爭(zhēng)。BERT現(xiàn)在甚至超過(guò)了SQuAD上的人類推理基準(zhǔn)。
許多主要的AI公司也在構(gòu)建BERT版本:
(1)Microsoft通過(guò)MT-DNN(多任務(wù)深度神經(jīng)網(wǎng)絡(luò))擴(kuò)展了BERT 。
(2)來(lái)自Facebook的RoBERTa。
(3)之所以創(chuàng)建SuperGLUE Benchmark是因?yàn)樵嫉腉LUE Benchmark變得太容易了。
BERT可以解決哪些問(wèn)題?
我們?nèi)祟惡苋菀桌斫饽承┦虑?,包括搜索引擎在?nèi),機(jī)器根本無(wú)法真正理解。
(1)言語(yǔ)問(wèn)題
單詞的問(wèn)題在于它們無(wú)處不在。越來(lái)越多的內(nèi)容在那里
單詞是有問(wèn)題的,因?yàn)楹芏鄦卧~是模棱兩可的,多義的和同義的。
Bert旨在幫助解決含糊不清的句子和短語(yǔ),這些句子和短語(yǔ)由許多具有多種含義的單詞組成。
(2)歧義和一詞多義
英語(yǔ)中幾乎所有其他單詞都有多種含義。用口語(yǔ)來(lái)說(shuō),由于同音詞和韻律,情況更糟。
例如,對(duì)于帶有英語(yǔ)口音的人,“四支蠟燭”和“叉子手柄”。另一個(gè)例子:喜劇演員的笑話主要是基于單詞的玩法,因?yàn)閱卧~很容易被誤解。
對(duì)于我們?nèi)祟悂?lái)說(shuō),這不是一個(gè)很大的挑戰(zhàn),因?yàn)槲覀兙哂谐WR(shí)和上下文,因此我們可以理解圍繞情境或?qū)υ捝舷挛牡乃衅渌麊卧~,但搜索引擎和機(jī)器則沒(méi)有。
對(duì)于未來(lái)的對(duì)話式搜索而言,這并不是一個(gè)好兆頭。
評(píng)論展示
660
shares
掃碼加微信咨詢
15815846676
長(zhǎng)按號(hào)碼加微信
在線留言