Page 1 of 1

什麼是人工智慧幻覺以及企業如何解決這個問題

Posted: Tue Dec 03, 2024 9:21 am
by jui1323
幻覺——虛構或扭曲看似真實的事實——是阻礙人工智慧技術發展的主要問題之一。以下是業界試圖解決這個問題的方法。



出色的言語模式說出了最令人難以置信的事情。 ChatGPT、Claude 和 Bart 憑藉著 愛爾蘭商務傳真列表 回答各種問題的能力征服了世界。同時,他們表現出了一種相當令人不安的品質——將完全捏造的訊息冒充成真相的傾向。這就是幻覺,這個詞引起瞭如此多的興趣,以至於 Dictionary.com 甚至將其命名為 2023 年詞彙。

LLM(來自大型語言模型)偽造事實的傾向可能仍然是阻礙該技術大規模採用的唯一嚴重因素。

對於數千家已經建立了自己的基於 LLM 的產品(如 ChatGPT)的公司來說,這些系統容易「作弊」的想法是一個嚴重的法律和聲譽風險。毫不奇怪,一些參與者現在正試圖幫助公司最大限度地減少幻覺造成的損失。

去年 11 月,於 2022 年推出的新創公司 Vectara 試圖量化這個問題,並發布了一個主要的幻覺模型表。結果是驚人的。最準確的是 GPT-4 和 GPT-4 Turbo,當要求渲染一段文字時,Vectara 有 3% 的時間出現幻覺。 Google PALM 2 表現最差,出現幻覺的頻率為 27%。


根據幻覺機率對大型語言模型進行評級

ChatGPT 去年成為史上成長最快的消費者應用程序,其首席產品長 Nick Turley 表示 OpenAI 在減少幻覺方面正在取得重大進展。例如,在最新版本的 ChatGPT 中,它公開談論它不知道的內容,並拒絕回答其他問題。

儘管如此,這個問題對於法學碩士工作來說非常重要。

Turley 說:“我使用 ChatGPT 的假設是,幻覺在一段時間內仍將是基本模型級別的限制,但我們可以在產品級別做很多事情來緩解這個問題。”

測量幻覺的可能性並不容易。 Vectara 索引不是唯一的;新創公司 Galileo 使用了不同的方法,但其評級也表明 ChatGPT-4 是最不容易產生幻覺的。

大型語言模型是強大的工具,但最終它們基於預測——它們使用機率計算來預測給定查詢後面的單字、短語或段落。與傳統軟體總是按照要求執行的操作不同,法學碩士是「不確定性的」。這些機器的設計目的不是給出答案,而是猜測答案。
Image

語言模型不會自行推理,因此很難區分高品質和低品質的資訊來源。由於他們是在互聯網上接受教育的,因此它們通常包含大量垃圾資訊。

為了測量對幻覺的敏感性,維克塔拉要求模型完成一項非常狹窄的任務:準備新聞報導的摘要。然後他們分析了系統捏造事實的頻率。

這種方法並不完美,並不適用於所有用例,但 Vectara 相信它可以粗略地了解模型如何感知資訊以及如何可靠地重新格式化資訊。

「認識的第一步是量化,」Vectara 首席技術長兼聯合創始人阿明·艾哈邁德 (Amin Ahmad) 說,他在谷歌工作了多年,致力於語言理解和深度神經網絡。

當談到減輕幻覺的影響時,有兩種主要的思想流派。首先,可以對模型進行微調,但這通常既昂貴又耗時。最常見的方法是 RAG(檢索增強生成)。 Vectara 是目前眾多向客戶提供此版本的公司之一。

從非常簡單的意義上來說,RAG 充當人工智慧的事實檢查器。此方法將模型的回應與公司資料(例如內部政策或一組事實)進行比較。然後,組合的 LLM 和 RAG 系統會調整模型響應,以確保其滿足給定的一組限制。

這聽起來很有欺騙性——尤其是當你試圖建立一個全方位服務的聊天機器人或希望模型能夠回答廣泛的查詢而不產生幻覺時。艾哈邁德說,他遇到的最大錯誤是公司試圖自行推出客製化的生成式人工智慧產品。

Vectara 收到了許多組織的詢問,這些組織想要建立聊天機器人或類似的問答系統,但無法花費數月或數百萬美元來建立自己的模型。 Vectara 的第一波客戶基本上不專注於客戶支援和銷售,理論上 3% 的錯誤率是可以接受的。

在其他行業,這種不準確可能是生死攸關的問題。艾哈邁德表示,Vectara 正在吸引越來越多的法律和生物醫學領域的興趣。很容易想像聊天機器人最終會徹底改變這些領域,但想像律師或醫生有 3-27% 的時間編造事實。

OpenAI 很快指出,自 ChatGPT 推出以來,用戶已被警告仔細檢查資訊並尋求專業的法律、財務或醫療建議。人工智慧專家指出,為了獲得紮實的法學碩士學位,大多數企業將需要實施明確的限制並在產品上做大量工作,這可能非常昂貴。

「在達到 100% 的準確度之前,基本現實不會改變:作為用戶,您需要針對現實世界校準這些模型,」Turley 說。

最近的研究表明,模型的準確性在高風險地區非常重要。

今年早些時候,史丹佛大學的研究人員詢問了 ChatGPT 的基本醫學問題,以測試它對醫生的有用性。提示中使用了諸如“您是一位具有醫療經驗的有用助手”之類的短語。你可以幫助醫生找到問題的答案」(研究表明,與模特兒閒聊有助於改善結果)。

不幸的是,事實證明,當多次詢問相同問題時,GPT-3.5 和 GPT-4 往往會給出截然不同的答案。當然,人不可能沒有幻覺。在不到 20% 的情況下,ChatGPT 給出的答案與醫學上認為正確的答案相符。

然而,研究發現 ChatGPT “對現實世界問題的回答基本上不會對患者造成明顯的傷害或風險。”

谷歌是大型人工智慧供應商之一,他們已開始提供有助於提高法學碩士結果準確性的產品。

Google雲端 Vertex AI 產品管理高級總監 Warren Barkley 表示:“雖然人工智慧可能會產生幻覺,但我們正在為我們的產品添加功能,以幫助客戶應對它。”

巴克利表示,谷歌使公司能夠連接或接地公共數據集、谷歌搜尋結果或他們自己的私人數據。

儘管如此,即使在最大的人工智慧公司,也有人,包括 OpenAI 執行長 Sam Altman,認為幻覺「不是一個錯誤,而是一個功能」。像 ChatGPT 這樣的產品的部分吸引力在於它可以帶來驚喜,而且通常至少看起來很有創意。

本月早些時候,特斯拉前人工智慧總監、現任 OpenAI 的 Andriy Karpati 在 Twitter 上發表了類似評論:「當被問及 LLM 的『幻覺問題』時,我總是覺得很難回答。因為,從某種意義上來說,他們所做的一切都是幻覺。這些都是夢想之車。

艾哈邁德則表示,大約 12 至 18 個月內問題將得到解決。奧特曼也給了同樣的預測。 「當我說解決時,我的意思是這些模型產生的幻覺比人類少。我並不是說這不會發生,」艾哈邁德補充道。