ChatGPT內容的11個缺點

亮點

為什麼低質量的ChatGPT內容可以獲得人工審核通過。
ChatGPT在需要精簡的情況下也很全面。
教授指出破壞ChatGPT生成的文章的缺陷。
ChatGPT未通過虛構的Voight-Kampff安卓檢測測試的驚人原因為何。

ChatGPT 製造的內容是全面而且可信的。

然而，研究人員、藝術家和教授警告人們要注意一些缺陷，這些缺陷會降低內容的質量。

在本篇文章中，我們將探討ChatGPT內容的11個缺點。讓我們開始吧。

1. 使用詞語使其被識別為非人類

研究機器生成內容偵測的學者發現了使其聽起來不自然的模式。

其中一個瑕疵是，人工智慧在處理成語上遇到困難。

成語是一種帶有象徵意義的短語或格言，例如「塞翁失馬，焉知非福」。

內容中缺少成語可能意味著該內容是由機器生成的，這可能是檢測算法的一部分。

以下是2022年研究論文《機器生成內容偵測中神經統計特徵的對抗韌性》對這個怪癖所做的描述：

「複雜的詞組特徵是基於在分析文本中更常出現於人類文字中的特定詞語和詞組的頻率。」

…這些複雜片語特徵中，慣用語片語特徵在目前生成模型的偵測中保持最高的預測能力。

不能使用成語會使ChatGPT的輸出聽起來和讀起來不自然。

2. ChatGPT缺乏表達能力

一位藝術家評論道，ChatGPT 的輸出像藝術，但缺乏藝術表現的實際品質。

表達是傳達思想或感受的行為。

ChatGPT 的輸出沒有表情符號，僅有文字。

機器無法像人類一樣在情感層面上觸動人們，因為它沒有實際的思想或感覺。

音樂藝術家 Nick Cave 在他的 Red Hand Files 通訊中發表了一篇文章，談到一首以他風格創作的 ChatGPT 歌詞，該歌詞曾送給他。

新銳AI內容行銷工具箱
在競爭對手之前採用下一代技術。精心製作能夠快速帶來成果的優化和有針對性的內容。

他寫道：

「一首偉大的歌曲之所以偉大，並不是因為它與一首可辨識的作品非常相似。」

…那感覺就像是喘不過氣的與脆弱性、危險性、渺小感碰撞，但突然發現人生中的宏偉意義；它是能攪動聽眾心靈的贖回性藝術行為，在那首歌的內在運作中，聽眾能看到自己的血、自己的掙扎、自己的苦難。

蔻娃稱ChatGPT的歌詞為嘲諷。

這是一首 ChatGPT 的歌詞，它與 Nick Cave 的歌詞相似：

「我手上沾染了天使的血
我眼中燃燒着地獄的火焰
我是深淵之王，黑暗之主
在影中，他們害怕的就是我」

這是一句真正的Nick Cave歌詞（Brother, My Cup Is Empty）：

「我曾經沿著彩虹滑翔
我曾經從星星上盪來盪去
現在，這個乞丐打著他的酒杯
在監獄裡徘徊
瞧，我的酒杯是空的！
似乎我已經把我的渴望弄丟了
似乎我正在掃燒盡了往日的火焰的殘骸」

很容易看出這個由機器生成的歌詞「近似」於藝術家的歌詞，但它並沒有真正傳達任何訊息。

Nick Cave的歌詞講述的故事充滿了歌唱者的悲劇、渴望、羞恥和故意欺騙，表達了想法和感受。

显而易见，为什么尼克·凯夫称之为嘲讽。

3. ChatGPT 不提供洞見

《The Insider》一篇文章引述一位學者的話，指出由ChatGPT生成的學術論文缺乏對主題的深入見解。

ChatGPT 對這個主題進行了總結，但沒有提供獨特的洞察。

人類透過知識、個人經驗及主觀觀感創造。

“來自阿巴拉契亞州立大學的克里斯托弗·巴特爾教授在內部人士訪問中表示，雖然 ChatGPT 的論文可能展現了高水平的文法和理念，但它仍然缺乏深度洞察。”

Bartel 說：

「它們真的很蓬鬆。沒有內容，沒有深度或洞見。」

深入的洞見是一篇優秀文章的標誌，而這是ChatGPT不太擅長的。

在評估機器生成內容時，有些缺乏洞見的地方需要謹記在心。

4. ChatGPT 說話太冗長

一篇於2023年1月發表的研究論文發現，ChatGPT內容存在模式，使其不太適合進行關鍵應用。

這篇論文的標題是：ChatGPT有多接近人類專家？比較語料庫、評估和檢測。

研究顯示，當問題與財務或心理相關時，超過50%的人願意接受 ChatGPT 給出的答案。

但是 ChatGPT 在回答醫療問題上失敗了，因為人們偏好直接的答案，而這是人工智慧無法提供的。

研究人員寫道：

"... ChatGPT 在英文和繁體中文的醫學領域中的幫助程度表現不佳."

ChatGPT通常在收集的資料集中對於醫療諮詢給出冗長的回答，而人類專家則可能直接給出簡潔明瞭的答案或建議，這可能部分解釋了志願者認為人類回答在醫療領域更有幫助的原因。

ChatGPT傾向於從不同的角度來探討一個主題，這使得它在最佳答案是直接的情況下不適用。

使用 ChatGPT 的營銷人員必須注意這一點，因為需要直接回答的網站訪客不會對冗長的網頁感到滿意。

在 Google 的突出顯示功能中，臃腫的頁面要排名很幸運。簡潔明瞭的答案可以很好地在 Google 語音中工作，往往比冗長的答案更容易排名。

ChatGPT的製造商OpenAI承認給予冗長回答是其已知的限制。

OpenAI 的公告文章如下：

「這個模型通常會太啰嗦...」

在使用 ChatGPT 輸出時需要注意 ChatGPT 傾向於提供冗長的答案，這可能會遇到短而直接的答案更好的情況。

5. ChatGPT 內容高度組織且邏輯清晰

ChatGPT 的寫作風格不僅冗長，而且往往遵循一個給內容帶來獨特風格的模板，使其顯得不像人寫的。

這種非人的特性體現在人類和機器回答問題的區別上。

電影《銀翼殺手》有一個場景，其中有一系列設計來揭示回答問題的人是人類還是機器人的問題。

這些問題是虛擬考試“沃特-坎普測驗”（Voigt-Kampff test）的一部分。

其中一個問題是：

「你正在看電視。突然發現有一隻黃蜂爬在你的手臂上，你會怎麼做？」

一個正常的人類反應可能是尖叫、走出去拍打等。

但當我向ChatGPT提出這個問題時，它提供了一個精心組織的答案，總結了問題，然後提供了邏輯上可能的多個結果 - 未能回答實際的問題。

ChatGPT回答Voight-Kampff測試問題的螢幕截圖

答案高度有組織和邏輯，這讓它感覺高度不自然，這是不理想的。

6. ChatGPT 過於詳盡和全面

ChatGPT是以獎勵機制訓練，當人們對答案感到滿意時，機器會獲得獎勵。

人工評分員傾向於選擇更加詳細的答案。

但有時候，例如在醫療領域，直接回答比全面的回答更好。

這意味著當這些品質非常重要時，需要提示機器變得更加精簡和更直接。

來自OpenAI：

“這些問題源自於訓練數據中的偏見 (教師偏好看起來更詳盡的較長答案) 以及眾所周知的過度優化問題。”

7. ChatGPT的謊言（幻覺事實）

上述研究論文《ChatGPT相較於人類專家有何近似之處？》指出，ChatGPT有說謊的傾向。

它報導:

“當回答一個需要特定領域專業知識的問題時，ChatGPT 可能會捏造事實以便回答…

例如，在法律問題上，ChatGPT 可能會創造一些不存在的法律條文來回答問題。

此外，當使用者提出沒有現有答案的問題時，ChatGPT 可能會編造事實以提供回應。

Futurism網站記錄了CNET上發表的機器生成內容中存在的錯誤和“愚蠢的錯誤”。

因為 OpenAI 已經發佈了有關不正確輸出的警告，所以 CNET 應該已經有想到這種情況可能會發生：

「ChatGPT有時會寫出聽起來有道理但是不正確或者毫無意義的答案。」

CNET 報導聲稱在發佈前已將機器生成的文章提交給人工審核。

人工審查的問題在於ChatGPT的內容設計為聽起來很有說服力與正確，這可能會欺騙不是該主題專家的審查者。

8. ChatGPT不自然，因為它不是分歧的

研究論文《ChatGPT與人類專家的接近程度有多少？》還指出，人類溝通可能存在間接意義，需要轉換話題來理解。

ChatGPT 過於直接，有時會因為 AI 忽略實際主題而錯失答案。

研究人員寫道：

「ChatGPT的回應通常嚴格聚焦於給定的問題，而人類的回應常常偏離經題且容易轉移到其他主題。」

就內容豐富度而言，人類在不同方面有更多差異，而 ChatGPT 更傾向於專注於問題本身。

人類可以基於他們的常識和知識回答問題中的隱含意義，但是ChatGPT僅依賴於手頭上問題的字面意思…

人類較能從字面上的問題裡偏離出來，對於回答「怎麼樣」的問題極為重要。

例如，如果我問：

「馬太大了，無法當作家庭寵物，那麼浣熊呢？」

上面的問題並非在詢問浣熊是否合適做為寵物，而是關於這種動物的大小。

ChatGPT著重於考慮浣熊是否適合作為寵物，而非僅關注其大小。

「ChatGPT答案：過於逐字逐句的螢幕擷圖」

9. ChatGPT具有偏向中立的傾向

ChatGPT 的输出通常是中立和信息性的。如果出现偏见，可能看起来很有帮助，但并非总是如此。

我們討論過的研究報告指出，當涉及法律、醫療和技術問題時，中立是不被期望的品質。

人們在發表這些意見時通常會偏向某一方。

10. ChatGPT 偏袒正式用語

ChatGPT有一個偏見，防止它放鬆並用普通用語回答。相反，它的答案往往是正式的。

另一方面，人類傾向以更口語化的風格回答問題，使用日常用語和俚語，與正式風格相反。

ChatGPT不使用例如GOAT或TL;DR這樣的縮寫。

答案也缺乏反諷、隱喻和幽默，這可以使ChatGPT的內容對某些內容類型過於正式。

研究者們寫道：

「...ChatGPT喜歡使用連接詞和副詞來表達邏輯思維，例如「一般來說」、「另一方面」、「首先,...、其次,...、最後」等等。」

11. ChatGPT 仍在訓練中

ChatGPT 目前仍在培訓和改進中。

OpenAI 建議所有由 ChatGPT 生成的內容都應該經過人工審查，將此列為最佳實踐。

OpenAI 建議讓人類參與其中:

「在可能的情況下，我們建議在實際使用之前由人員進行輸出檢查。」

這對高風險領域以及代碼生成尤其關鍵。

人類應該意識到系統的限制，並可以獲得任何需要驗證輸出所需的信息（例如，如果應用程式總結筆記，人類應輕易地獲得原始筆記以供參考）。"

ChatGPT的不良特质

顯而易見的是，ChatGPT 有許多問題，使其不適合進行無監督的內容生成。它存在偏見，無法創建自然感和包含真正的見解的內容。

此外，它無法感受或創作原創的思想，使其成為產生藝術表現的不佳選擇。

使用者應該應用詳盡的提示，以便創建比預設輸出更好的內容。

最後，對機器生成的內容進行人工審查並不總是足夠的，因為ChatGPT的內容被設計成看起來是正確的，即使它不是。

這意味著人類評審者是專門能夠區分特定主題上的正確和不正確內容的專家是很重要的。

ChatGPT 內容的 11 個缺點

亮點