進修充電

能吟詩作對、辨識假新聞，AI機器人在人文領域還能怎麼玩？研究員PK分高下

撰文者：中央研究院研之有物採訪撰文／田偲妤、美術設計／蔡宛潔　更新時間：2023-04-12 瀏覽數：2,775

關鍵字：

由此可見，當前的AI缺乏創作所需的感受力與想像力，無法做出超越預先設定的創意行為。然而，在不久的將來，AI是否會逐漸產生情感，演變成電影《A.I.人工智慧》中渴望人類關愛的機器人？

AI能否發展出情感？先問問你對AI的情感有多深

近期有一則新聞「AI有情感像8歲孩童？Google工程師爆驚人對話遭停職」，讓AI是否已發展出「自我意識」再度成為眾人議論的焦點。蔡宗翰研究員表示：「當前的AI還是要看過資料、或是看過怎麼判讀資料，經過對應問題與答案的訓練才能夠運作。換而言之，AI無法超越程式，做它沒看過的事情，更無法替人類主宰一切！」

會產生AI可能發展出情感、甚至主宰人類命運的傳言，多半是因為我們對AI的訓練流程認識不足，也缺乏實際使用AI工具的經驗，因而對其懷抱戒慎恐懼的心態。這種狀況特別容易發生在文科人身上，更延伸到文科人與理科人的合作溝通上，因不了解彼此領域而產生誤會與衝突。如果文科人可以對AI的研發與應用有基本認識，不僅能讓跨領域的合作更加順利，還能在工作中應用AI解決許多棘手問題。

「職場上常遇到的狀況是，由於文科人不了解AI的訓練流程，因此對AI產生錯誤的期待，認為辛苦標注的上千筆資料，應該下個月就能看到成果，結果還是錯誤百出，準確率卡在60%、70%而已。如果工程師又不肯解釋清楚，2方就會陷入僵局，導致合作無疾而終。」蔡宗翰研究員分享多年的觀察與建議：

如果文科人了解基本的AI訓練流程，並在每個訓練階段協助分析：錯誤偏向哪些面向？AI是否看過這方面資料？文科人就可以補充缺少的資料，讓AI再進行更完善的訓練。

什麼是AI？一起認識這名史上最認真的學生

認識AI的第一步，我們先從分辨什麼是AI做起。現在的數位工具五花八門，究竟什麼才是AI的應用？真正的AI有什麼樣的特徵？

基本上，有「預測」功能的才是AI，你無法得知每次AI會做出什麼判斷。如果只是整合資料後視覺化呈現，而且人類手工操作就辦得到，那就不是AI。

數位化到AI自動化作業的進程與舉例

資料來源：蔡宗翰
圖片來源：研之有物

蔡宗翰研究員以今日常見的語音辨識系統為例，大家可以試著對Siri、Line或Google上的語音辨識系統講一句話，你會發現自己無法事先知曉將產生什麼文字或回應，結果可能正是你想要的、也可能牛頭不對馬嘴。此現象點出AI與一般數位工具最明顯的不同：AI無法百分之百正確！

因此，AI的運作需建立在不斷訓練、測試與調整的基礎上，盡量維持80%、90%的準確率。在整個製程中最重要的就是訓練階段，工程師彷彿化身老師，必須設計一套學習方法，提供有助學習的豐富教材。而AI則是史上最認真的學生，可以穩定、一字不漏、日以繼夜地學習所有課程。

AI的學習方法主要分為「非監督式學習」、「監督式學習」。非監督式學習是將大批資料提供給AI，讓其根據工程師所定義的資料相似度算法，逐漸學會將相似資料分在同一堆，再由人類檢視並標注每堆資料對應的類別，進而產生監督式學習所需的訓練資料。而監督式學習則是將大批「資料」和「答案」提供給AI，讓其逐漸學會將任意資料對應到正確答案。

學習到一定階段後，工程師會出試題，測試AI的學習狀況，如果成績只有60分、70分，AI會針對答錯的地方調整自己的觀念，而工程師也應該與專門領域專家一起討論，想想是否需補充什麼教材，讓AI的準確率可以再往上提升。

就算AI最後通過測試、可以正式上場工作，也可能因為時事與技術的推陳出新，導致準確率下降。這時，AI就要定時進修，針對使用者回報的錯誤進行修正，不斷補充新的學習內容，讓自己可以跟得上最新趨勢。

在了解AI的基本特徵與訓練流程後，蔡宗翰研究員建議：文科人可以看一些視覺化的操作影片，加深對訓練過程的認識，並實際參與檢視與標注資料的過程。現在網路上也有很多playground，可以讓初學者練習怎麼訓練AI，有了上述基本概念與實務經驗，就可以跟工程師溝通無礙了。

AI皇冠上的明珠：能騙過人類的「自然語言處理」

AI的應用領域相當廣泛，而蔡宗翰研究員專精的是「自然語言處理」。問起當初想投入該領域的原因，他充滿自信地回答：因為自然語言處理是「AI皇冠上的明珠」！這顆明珠開創AI發展的諸多可能性，可以快速讀過並分類所有資料，整理出能快速檢索的結構化內容，也可以如同真人般與人類溝通。

著名的「圖靈測試」（Turing Test）便證明了自然語言處理如何在AI智力提升上扮演關鍵角色。1950年代，傳奇電腦科學家艾倫・圖靈（Alan Turing）設計了一個實驗，用來測試AI能否表現出與人類相當的智力水準。首先實驗者將AI架設好，並派一個人操作終端機，再找一個第三者來進行對話，判斷從終端機傳入的訊息是來自AI或真人，如果第三者無法判斷，代表AI通過測試。

圖靈實驗：AI（A）與真人（B）同時傳訊息給第三者（C），如果C分不出訊息來自A或B，代表AI通過實驗。

換而言之，AI必須擁有一定的智力，才可能成功騙過人類，讓人類不覺得自己在跟機器對話，而這有賴自然語言處理技術的精進。目前蔡宗翰的研究團隊有將自然語言處理應用在：人文研究文本分析、新聞真偽查核，更嘗試以合成語料訓練台灣人專用的AI語言模型。

AI助你日讀萬卷書！跨時空追溯《白蛇傳》的起源

目前幾乎所有正史、許多地方志都已經數位化，而大量數位化的經典更被主動分享到「Chinese Text Project」平台，讓AI自然語言處理有豐富的文本資料可以分析，包含一字不漏地快速閱讀大量文本，進一步畫出重點、分門別類、比較相似之處等功能，既節省整理文本的時間，更能橫跨大範圍的文本、時間、空間，擴展研究的多元可能性。

例如我們想了解經典傳說《白蛇傳》是怎麼形成的？就可以應用AI進行文本溯源。白蛇傳的故事起源於北宋，由鎮江、杭州一帶的說書人所創作，著有話本《西湖三塔記》流傳後世。直至明代馮夢龍的《警世通言》二十八卷〈白娘子永鎮雷峰塔〉，才讓流傳600年的故事大體成型。

我們可以透過「命名實體辨識技術」標記文本中的人名、地名、時間、職業、動植物等關鍵故事元素，接著用這批標記好的語料來訓練BERT等序列標注模型，以便將「文本向量化」，進而找出給定段落與其他文本的相似之處。

經過多種文本的比較之後發現，白蛇傳的原型可追溯自印度教的那伽蛇族故事，傳說那伽龍王的三女兒轉化成佛、輔佐觀世音，或許與白蛇誤食舍利成精的概念有所關連，推測印度神話應該是跟著海上絲路傳進鎮江與杭州等通商口岸。此外，故事的雛型可能早從唐代便開始醞釀，晚唐傳奇《博異志》便記載了白蛇化身美女誘惑男子的故事，而法海和尚、金山寺等關鍵人物與景點皆真實存在，金山寺最初就是由唐宣宗時期的高僧法海所建。

在AI的協助之下，我們得以跨時空比較不同文本，了解說書人如何結合印度神話、唐代傳奇、在地的真人真事，創作出流傳千年的白蛇傳經典。

最困難的挑戰！AI與假新聞的神魔較勁

除了應用在人文研究文本分析，AI也可以查核新聞真偽，這對假新聞氾濫的當代社會是一大福音，但對AI來說可能是最困難的挑戰！蔡宗翰研究員指出AI的弱點：

如果是答案和數據很清楚的問題，就比較好訓練AI。如果問題很複雜、變數很多，對AI來說就會很困難！

困難點在於新聞資訊的對錯會變動，可能這個時空是對的，另一個時空卻是錯的。雖然坊間有一些以「監督式學習」、「文本分類法」訓練出的假新聞分類器，可輸入當前的新聞讓機器去判讀真假，但過一段時間可能會失準，因為新的資訊源源不絕出現。而且道高一尺、魔高一丈，當AI好不容易能分辨出假新聞，製造假新聞的人就會破解偵測，創造出AI沒看過的新模式，讓先前的努力功虧一簣。

因此，現在多應用「事實查核法」，原理是讓AI模仿人類查核事實的過程，尋找權威資料庫中有無類似的陳述，可用來支持新聞上描述的事件、主張與說法。目前英國劍橋大學為主的學者群、Facebook與Amazon等業界研究人員已組成FEVEROUS團隊，致力於建立英文事實查核法模型所能運用的資源，並透過舉辦國際競賽，廣邀全球學者專家投入研究。

蔡宗翰教授團隊2021年參加FEVEROUS競賽勇奪全球第3、學術團隊第1後，也與合作夥伴事實查核中心及資策會討論，正著手建立中文事實查核法模型所需資源。預期在不久的將來，AI就能幫讀者標出新聞中所有說法的資料來源，節省讀者查證新聞真偽的時間。

您可能有興趣的文章

進修充電

能吟詩作對、辨識假新聞，AI機器人在人文領域還能怎麼玩？研究員PK分高下

撰文者：中央研究院研之有物採訪撰文／田偲妤、美術設計／蔡宛潔　更新時間：2023-04-12 瀏覽數：2,775

AI能否發展出情感？先問問你對AI的情感有多深

什麼是AI？一起認識這名史上最認真的學生

AI皇冠上的明珠：能騙過人類的「自然語言處理」

AI助你日讀萬卷書！跨時空追溯《白蛇傳》的起源

最困難的挑戰！AI與假新聞的神魔較勁

課程活動

線上購物

進修充電

能吟詩作對、辨識假新聞，AI機器人在人文領域還能怎麼玩？研究員PK分高下

撰文者：中央研究院研之有物 採訪撰文／田偲妤、美術設計／蔡宛潔 更新時間：2023-04-12 瀏覽數：2,775

AI能否發展出情感？先問問你對AI的情感有多深

什麼是AI？一起認識這名史上最認真的學生

AI皇冠上的明珠：能騙過人類的「自然語言處理」

AI助你日讀萬卷書！跨時空追溯《白蛇傳》的起源

最困難的挑戰！AI與假新聞的神魔較勁

月刊

特刊

密技

叢書

課程活動

線上購物

撰文者：中央研究院研之有物採訪撰文／田偲妤、美術設計／蔡宛潔　更新時間：2023-04-12 瀏覽數：2,775