【人工智能】厭惡無用資訊充斥互聯網?arbor從資訊洪流中提取精華

商業熱話
(信報媒體實驗室授權轉載)
生成式人工智能(Generative AI)的迅速發展,令2023年成為不折不扣的「AI元年」。人工智能程式arbor的創辦人Cheney(鄭其森)在評價生成式AI時表示,這技術之所以會對各行各業造成衝擊,是因為它變得更像人類,亦更懂得如何處理常識(common sense)。他預視,「衝擊的確可能比想像中來得快。」但他形容AI並非要站在人類對立面,打爛其飯碗;反而能夠幫助人類,突顯其自身價值。
鄭其森認為,生成式AI之所以會對各行各業造成衝擊,是因為它更懂得如何處理常識。(李梓豪攝)
鄭其森認為,生成式AI之所以會對各行各業造成衝擊,是因為它更懂得如何處理常識。(李梓豪攝)

AI內容摘要平台

Cheney和拍檔Jake(陳力衡)近期推出一個建基於生成式AI的內容摘要平台——arbor。程式可把描述同一事件的資訊,歸納總結為一篇百字文章;更能把這些資訊,以不同敘事角度進行分類,並以摘要形式呈現給讀者,形成一個「事件目錄」。

arbor摘要式的呈現方法,對閱讀和寫作雙方都有好處。「一方面能幫助讀者快速了解事件全貌,另一方面能讓獨特觀點的文章出現在大眾視野,不至被洪流般的資訊所埋沒。」Cheney解釋道。

鄭其森和拍檔陳力衡近期推出一個建基於生成式AI的內容摘要平台——arbor。(李梓豪攝)
鄭其森和拍檔陳力衡近期推出一個建基於生成式AI的內容摘要平台——arbor。(李梓豪攝)

搜尋引擎演算法存漏洞

光看文字,可能覺得抽象。Cheney便以自己使用搜尋引擎Google時所遇到的現象,希望能進一步解說arbor的優勢。他描述,當自己輸入某關鍵詞後,會得到十餘個不同的結果;但從第二頁開始,出現的往往是一些不知所云、胡亂拼接而成的內容。

Cheney解釋,這一現象的出現,皆因上一代AI沒有理解整篇文章的能力。只能判斷文中是否存在網民感興趣的關鍵字,以此作為文章排序的邏輯。這樣的模式令不少人可以透過搜尋引擎最佳化(SEO)玩弄規則,使搜尋引擎成為垃圾文章的溫床。想讓文章在特定領域的搜尋結果中排名高位,只需要在文中堆砌和該主題相關的關鍵字;文章不必高質,就可以輕鬆騙過演算法。

Jake在談及現時搜尋引擎的用戶體驗時,揚言自己有心想令大眾在未來「不是Google一下,而是arbor一下」。他表示,現時固然有方法可以透過搜尋引擎精準找到自己想要的答案,只不過今時今日,這功夫應該由AI代勞。

兩人的野心不止於此,他們認為arbor具備龐大潛能,透露將很快把其摘要功能拓展至影片領域。

陳力衡揚言,自己有心想令大眾在未來「不是Google一下,而是arbor一下」。(李梓豪攝)
陳力衡揚言,自己有心想令大眾在未來「不是Google一下,而是arbor一下」。(李梓豪攝)

冀拓影片摘要功能

談及當初為何萌生建立arbor的想法,Jake憶述,自己曾在內地某互聯網教育平台任職。過程中收到不少客戶反映,表示網上學習資料數目雖多,卻十分散亂,難以在重複性資訊中找到真正有價值的內容。

有見及此,arbor以資訊重整為核心理念,幫助用戶快速、精準地獲取自己想要的內容;甚至能對問題進行擴展、延伸閱讀,令問題變得更深入、細緻。

Cheney則介紹自己在八九年前,從事金融業時的「慘痛」經歷。他不諱言,自己作為基金經理,常常妒忌坐在身邊的量化投資基金團隊。只因基金經理需要閱讀大量年報以及參與大大小小的業績發布會,而量化團隊卻可以利用AI處理數據、產生投資訊號並作出決策。

他續稱,他當年經常和工作夥伴討論,為何AI還不夠聰明,還無法讀懂文字?在ChatGPT出現的2023年,他和團隊迎來這個黃金機會。希望借AI這股東風,為用戶打造一種全新體驗。

研模型防AI憑空捏造

藍圖早已構思好,惟實踐過程困難重重。「很多人覺得ChatGPT好玩,但從好玩到實用,中間有很多看不見的辛酸。」Cheney這樣描述團隊的研發經歷。

相信不少人都感受過,ChatGPT在資訊量不足的情況下,會憑空捏造文章內容,造成事實性謬誤。arbor團隊為保證ChatGPT在生成內容時不至於胡編亂造,額外訓練一個幻覺偵測模型(Hallucination Detection Model),用於檢測內容摘要的真實性和準確度。

此外,如何判斷不同文章所述主題,亦花費團隊大量時間。Cheney形容,一個產品愈簡單易用,背後花在簡化程序上的功夫就愈多。


即刻follow我地Facebook同Instagram,隨時接收最新資訊!

你可能感興趣