【人工智能】厭惡無用資訊充斥互聯網？arbor從資訊洪流中提取精華

出版: 2024-01-04 07:05更新: 2024-01-04 07:51

撰文：Business Digest Editorial商業熱話

（信報媒體實驗室授權轉載）

生成式人工智能（Generative AI）的迅速發展，令2023年成為不折不扣的「AI元年」。人工智能程式arbor的創辦人Cheney（鄭其森）在評價生成式AI時表示，這技術之所以會對各行各業造成衝擊，是因為它變得更像人類，亦更懂得如何處理常識（common sense）。他預視，「衝擊的確可能比想像中來得快。」但他形容AI並非要站在人類對立面，打爛其飯碗；反而能夠幫助人類，突顯其自身價值。

鄭其森認為，生成式AI之所以會對各行各業造成衝擊，是因為它更懂得如何處理常識。（李梓豪攝）

AI內容摘要平台

Cheney和拍檔Jake（陳力衡）近期推出一個建基於生成式AI的內容摘要平台——arbor。程式可把描述同一事件的資訊，歸納總結為一篇百字文章；更能把這些資訊，以不同敘事角度進行分類，並以摘要形式呈現給讀者，形成一個「事件目錄」。

arbor摘要式的呈現方法，對閱讀和寫作雙方都有好處。「一方面能幫助讀者快速了解事件全貌，另一方面能讓獨特觀點的文章出現在大眾視野，不至被洪流般的資訊所埋沒。」Cheney解釋道。

鄭其森和拍檔陳力衡近期推出一個建基於生成式AI的內容摘要平台——arbor。（李梓豪攝）

搜尋引擎演算法存漏洞

光看文字，可能覺得抽象。Cheney便以自己使用搜尋引擎Google時所遇到的現象，希望能進一步解說arbor的優勢。他描述，當自己輸入某關鍵詞後，會得到十餘個不同的結果；但從第二頁開始，出現的往往是一些不知所云、胡亂拼接而成的內容。

Cheney解釋，這一現象的出現，皆因上一代AI沒有理解整篇文章的能力。只能判斷文中是否存在網民感興趣的關鍵字，以此作為文章排序的邏輯。這樣的模式令不少人可以透過搜尋引擎最佳化（SEO）玩弄規則，使搜尋引擎成為垃圾文章的溫床。想讓文章在特定領域的搜尋結果中排名高位，只需要在文中堆砌和該主題相關的關鍵字；文章不必高質，就可以輕鬆騙過演算法。

Jake在談及現時搜尋引擎的用戶體驗時，揚言自己有心想令大眾在未來「不是Google一下，而是arbor一下」。他表示，現時固然有方法可以透過搜尋引擎精準找到自己想要的答案，只不過今時今日，這功夫應該由AI代勞。

兩人的野心不止於此，他們認為arbor具備龐大潛能，透露將很快把其摘要功能拓展至影片領域。

陳力衡揚言，自己有心想令大眾在未來「不是Google一下，而是arbor一下」。（李梓豪攝）

冀拓影片摘要功能

談及當初為何萌生建立arbor的想法，Jake憶述，自己曾在內地某互聯網教育平台任職。過程中收到不少客戶反映，表示網上學習資料數目雖多，卻十分散亂，難以在重複性資訊中找到真正有價值的內容。

有見及此，arbor以資訊重整為核心理念，幫助用戶快速、精準地獲取自己想要的內容；甚至能對問題進行擴展、延伸閱讀，令問題變得更深入、細緻。

Cheney則介紹自己在八九年前，從事金融業時的「慘痛」經歷。他不諱言，自己作為基金經理，常常妒忌坐在身邊的量化投資基金團隊。只因基金經理需要閱讀大量年報以及參與大大小小的業績發布會，而量化團隊卻可以利用AI處理數據、產生投資訊號並作出決策。

他續稱，他當年經常和工作夥伴討論，為何AI還不夠聰明，還無法讀懂文字？在ChatGPT出現的2023年，他和團隊迎來這個黃金機會。希望借AI這股東風，為用戶打造一種全新體驗。

研模型防AI憑空捏造

藍圖早已構思好，惟實踐過程困難重重。「很多人覺得ChatGPT好玩，但從好玩到實用，中間有很多看不見的辛酸。」Cheney這樣描述團隊的研發經歷。

相信不少人都感受過，ChatGPT在資訊量不足的情況下，會憑空捏造文章內容，造成事實性謬誤。arbor團隊為保證ChatGPT在生成內容時不至於胡編亂造，額外訓練一個幻覺偵測模型（Hallucination Detection Model），用於檢測內容摘要的真實性和準確度。

此外，如何判斷不同文章所述主題，亦花費團隊大量時間。Cheney形容，一個產品愈簡單易用，背後花在簡化程序上的功夫就愈多。

【人工智能】厭惡無用資訊充斥互聯網？arbor從資訊洪流中提取精華

搜尋引擎演算法存漏洞

冀拓影片摘要功能

研模型防AI憑空捏造

熱門文章