

(附圖:Dartmouth College AI Conference,史上著名的人工智能誕生會議)
人工智能討論在 2023 年 Q1 都是暢所通行。GPT3 從 TTM 策略 (Time-to-Market) 搶灘成功,網絡一片先玩 GPT 對答,然後玩 Stable Diffusion 或 MidJourney 的圖像功能。筆者近月都一直在友間不少分享。筆者撥冗攢文一篇分享下。因為想節省篇幅,所以會集中寫些較重要的事。筆者在這篇談用處,揀了以下這幾個分題:路線圖、MLLM、智能寫代碼,和 Web4。
功能用途
先談功能上可預見估計的路線圖如下:
- Phase 1:生成 – 文本、圖像、語音
- Phase 2:生成 – 影片、Virtual Youtuber、漫畫、小型演唱會、遊戲(從手遊到 3A 作品)、動態廣告。甚至天氣報告和新聞主播。即各類媒體。
- Phase 3:實時回應的 – 電影、動畫、演唱會、等等同 Phase 2。(例如虛擬仿真的人偶的歌唱者能現場與觀眾互動、電影能即時回應觀眾輸入)。綜合說:即是可實時互動的媒體。
- Phase 4:因著人工智能特性而產生的新媒體。例如可以動態地即製作影片、繒畫、作曲、遊戲、虛擬實境 (即現合稱為 XR)。加上機械 (Robotics)。那會是甚麼?很可能是種新的人工智能助理。
- Phase 5 或之後:到 Phase 3 後會更明確。
有關 LLM 與 MLLM
MLLM (Multimodal LLM),簡略解釋是吸收文字外的其他的資料類別進入人工智能訓練。LLM 主要以文字為訓練內容,MLLM 就會加入其他資料,例如圖像、聲音、影片等等。
MLLM 的研究已相當充份。而智能發展,暫時的應用前線都是向著這些多範疇的參數擴展。短期未來的人工智能更新,會迎向著模型的速度更快、檔案縮小、參數加大,等等的架構表現指數。
有關智能寫代碼
順便寫少少有關人工智能寫的代碼。智能在 GPT 3 只能替用戶搜尋最適切解答、作代碼微調,但未必能取替一般工程師的工作(例如畢業後全職 3-5 年年資,能成熟獨立處理項目的大約年資)。但到 GPT 之後的發展、學習參數增多,其編程能力也會越來越加強,漸漸可以獨立處理完整編程項目。最終也會可以取代工程師。
而無論編程語言或模型訓練,長遠來說都是會發展出人工智能用的電腦語言和模型訓練。傳統的人機介面 (HCI, Human Computer Interface) 應該會統合到人工智能上。
小結
從以上三個題目,可以歸納到個理解:當參數越多、涵蓋範疇越闊,模型對各種範疇的知識就越強,回答能力也越高。創造力也會越高。這差不多是將人類的知性行為,歸納到參數數目上。
而長遠來說,模型會向著參數更多(天文數字)、檔案更小、速度更快的方向發展。現在的模型動㑙都數百 GB。若可縮小到數十 GB 或 單位數 GB,就可以離線 (offline) 安裝在智能手錶,或更小的裝置上。這是以前科幻故事對人工智能沒有想像到,而有可能的情況。例如 OpenAI 開源的語音智能 Whisper,最微型的版本 tiny,只需要數百 MB 檔案大小。檔案大小與參數成正比。參數數目與能力和準確度與正比。
有關 AGI 與 WEB4
以前筆者在零機壹觸的文章(2015.11.18,在Startupbeat 的連結)內,提及以前九十年代的電腦科學的前輩們,對 Web 1.0 – 5.0 的發展估計(值得提 Web3 到區塊鏈年代因巿場宣傳改了概念,業內也有為此而意見紛陳)。而九十年代 Web4 叫作「The One」 或「One Machine」,就是一個人工智能的概念。時間 (2010-2030) 也和實際人工智能技術成熟的時間也很相近。One Machine 的名字的意思就是一個「懂答任何問題和做任何事的機器」。其實和現在的 GPT4 有不少相似之處:GPT4 已能大概回答問題,只是未有實際執行工作。而留意近月對智能的推廣上的歸類,仍是「Web3.0」,這和歷史中的分類有點不同。
而有關 AGI,筆者也是相信今年或明年就會有。而其他媒體例如生成電影和遊戲,筆者也相信是今年或明年內。
而可能有人會對之後的發展有興趣,筆者補上一下:Web5 一般被稱為「情感網絡」Emotion Web。大概意思就是人工智能在發展出知性、在知性或理性的層面能回答人類之後,它再演化出感性。就是「一個很擅長處理人類感受和情緒的人工智能」。想像下:它加上了機械身體後,它很懂得明白你/妳,也能在最適當的時候陪伴你、安慰你。在你心情壞的時候,它很能平復你的情緒。很懂照顧你的感受,的一個人工智能。而且還懂唱歌、跳舞、作曲、說幽默笑話和播電影給你/妳看。Web4 是還需要靠說話,Web5 是連沉默和眼神都是在回答到你。到那天,人工智能會比任何專家都更能照顧人類和任何動物的情緒感受,以致任何生活需要。