用AI來判斷央視龍年春晚吉祥物是不是AI畫的？

2023-12-09 08:00 admin

作者 | James

相信你已經看過了“龍年春晚”的吉祥物長什么樣，因爲它上了熱搜。

12月6日，中央廣播電視總台2024龍年春晚吉祥物形象“龍辰辰”正式發布亮相。

從最开始公布口號和 logo 开始，龍年春晚的宣傳比平時要稍微早一點，而且這一次也擺出了非常親民的態勢。包括有人吐槽春晚小品的“包餃子”表演套路，官方微博也欣然轉發，並且說“導演組正在學習了”，非常謙虛。

春晚節目難看，舞美花花綠綠大紅大紫，吉祥物醜得不忍直視，相信這都是導演組可以預料到的正常反應。然而，這個“龍辰辰”發布之後，網友們對它最大的質疑卻不是說它醜，而是“這怎么像是AI畫的”。

這對於官方來說，可能有點“超綱”了。

12月7日凌晨，春晚官方微博發文進行回應，與此同時，還給出了一些據稱拍攝自設計者電腦上的文件夾截屏，裏面號稱是做出這個吉祥物的源文件。

但是這些澄清目前暫時沒有平息外界質疑，反而有點兒“越描越黑”的意思。

我們打算一起來探尋這些問題的答案：

根據現有信息，能否判斷出這個吉祥物是不是用 AI 畫的？
我們自己使用 AI，能不能畫出跟這個差不多的吉祥物？
如果裏面有用到 AI，但也有人類修改的元素，其中各佔比多大呢？
在引用 AI 技術參與藝術創作的過程中，哪些做法是可以被大家接受的，而哪些做法是不能接受的？

VOL.1

“龍辰辰”是不是AI畫的？

首先，我們把目光聚焦到“龍辰辰”身上。

展开全文

即使沒有對AIGC文生圖做過特別細致的研究，也可能看出圖片有一種“AI味兒”，但是畢竟空口無憑。

聽說谷歌 Bard 聊天機器人今天剛剛大升級，我們就先讓它解答一下：判斷一個圖（特別是動物圖像）是不是用AI做出來，有哪些方法？

（注：Bard這次結合谷歌最新Gemini大模型的升級，只能用英語提問而不能用其他語言，才能體驗。）

Bard提出以下建議：

尋找不自然的細節，例如錯誤放置的陰影、重復的模式或背景中的奇怪僞影。
通常看起來過於完美，具有對稱的毛皮圖案和無瑕的解剖結構。
動物可能顯得光滑且缺乏深度感，因爲AI難以生成逼真的紋理和細節。
可能以不自然的方式扭曲，或表情奇怪。
缺少眼睛中的反射、水或其他光亮表面上的倒影。
背景可能包含不一致或不合邏輯的元素，例如不可能的光线，或在半空中飄浮的物體。

確實，當我們判斷一個圖是不是“一眼AI”時，大致用的也是這些方法。微博用戶 @CG插畫控就認爲以下這些地方比較可疑：

“第一個腿毛是螺旋設計，後腿腿毛卻不沿用前腿腿毛的設計，三只腿爪數量都不同，有只耳朵的耳孔也反了。”

這裏有個小知識：計算爪（腳趾）的數量，五爪龍在元、明、清時代爲皇帝的標志，只能由皇帝使用。其他皇室人員以及地方需要用到龍形的時候，只能使用“四爪龍”，服飾稱爲蟒袍，不稱龍袍。也有種不嚴謹的說法是“五爪爲龍，四爪爲蛟，三爪爲蟒”。

而我們的“龍辰辰”效果圖裏，三爪、四爪、五爪竟然都有。

好的，聽說Bard對多模態的判斷能力有一定的提升，識別圖像那是一把好手。下面我們讓Bard直接來檢測“龍辰辰”是不是AI作圖。

結果它說……“根據您發送的圖像，我有信心認爲這只中國龍卡通形象不是由人工智能生成的。”

啊？爲什么？

“人工智能生成的圖像通常存在光照和反射問題。您的圖像中的光照一致而逼真，龍在水中的倒影也很准確。”

但是呢，這張圖裏沒有水。

顯然此時Bard已經陷入了“幻覺”，我們接下來還是相信人類的判斷吧。

VOL.2

用一句話能否重現“龍辰辰”？

盡管 Bard 的判斷結果不對，但是它提出的判斷標准沒什么錯誤。據此來說，我們看到的“龍辰辰”不太可能是一次生成後就直接用了。它可能是在很多次變換提示詞後挑出的版本，而後期也少不了人類的手動修復。

這裏有兩點：

要重現“龍辰辰”，首先我們來構思一個提示詞。

“龍辰辰”以中國傳統色“大繎、赩熾、赬霞、玉頩、春辰”繪制。總體來說，這些顏色可以概括爲赭紅色、橙色和金色——反正後期可以再調一下色彩。

綜合ChatGPT和Bard的識圖結果，以及我們自己對畫面的判斷，提示詞如下：

“一條中國的龍的卡通形象，3D材質，高清晰度，龍有較大的眼睛並微笑，鱗片有光澤，整體顏色爲赭紅色、橙色和金色的組合。”

見證奇跡的時刻——我們讓DALL-E 3來畫一下：

我們不可能1：1完全還原某張AI生圖，即使用了一模一樣的提示詞，每次生成的結果都不一樣。但這裏也有一些非常有趣的發現。

首先，這些生成的龍，都以一種橫向卻合適的角度，被准確的塞進了一個正方形的畫框裏面。因爲 AI 生圖所生成的圖片，大多數都是1:1的比例。

四條龍除了左右可能翻轉之外，基本上採取的姿勢跟“龍辰辰”是一樣的。這說明“龍辰辰”很有可能在初始設定時使用了AI生圖，作爲後續修改的基礎。

另一個值得注意的地方，是這些龍身上整齊的、充滿光澤的鱗片。

在這個例子裏，DALL-E爲我們提供了4種不同的材質渲染，其中左下角的圖有點像是琉璃的材質，右上角的也比較接近“龍辰辰”的鱗片。它們是整齊排列的，這說明“龍辰辰”圖上整齊的鱗片，至少是理論上可以由AI一次生成。

但是，AI在理解提示詞的時候，可能會有不准確的部分，而且沒有辦法針對某個地方進行微調，這也是 AI 生圖的一個通病。

比如說，提示詞中明明說的是“微笑”，然而所有的圖中，龍都張开嘴大笑。之後我們試圖優化提示詞，說“不露出牙齒”，效果並不好。

所以很有可能，如果僅僅通過提示詞，而不是墊圖或其他方式，那么最終生成這個龍的圖片，可能需要在爲數衆多的生成結果當中不斷挑選。

此前，娛樂資本論·視智未來組織的一場AI創業者閉門會上，曾有實踐者說，一般要獲得比較好的成品圖片，可能需要事先生成200~300張不同的圖片，並從中挑選。曾經獲得攝影比賽獎項的《太空歌劇院》，其作者之前也說，是在幾百張圖當中挑選出最好的一張。

除了不斷試錯和優化提示詞，人類在“龍辰辰”這樣的吉祥物誕生過程中，恐怕還需要上手來微調一些細節。

根據官方介紹，“龍辰辰”以中華民族龍圖騰的代表性實物、出土於二裏頭遺址的綠松石龍形器築龍面；取材首現“中國”二字的定源重器何尊，以雲雷紋烙印龍腹、以扉棱雕刻龍脊；以雲紋銅禁上展現古老失蠟法精湛工藝的浮雕透空雲紋畫龍眉、龍肩；以唐鎏金走龍挺拔雄健的背脊爲昂首前行的龍鰭。

但是當你看到這些設計靈感之後，很容易發現，它們跟實際的成圖之間並沒有那么明確的關聯。

“雲紋銅禁”是怎么進化成龍眉和龍肩的；

九龍壁上的龍爪怎么進化成那個萌萌噠的爪子的；

這些都很讓人犯迷糊，甚至有點“牽強附會”。換句話說，我用AI做的龍也可以找出相關角度做類似的解釋。

但其中一個值得注意的細節是龍腹的紋路。

幾乎可以肯定目前的AI文生圖，無法根據提示詞直接生成同樣的紋路。所以，這些地方相信已經經過了人類用PS進行的處理。

所以，通過我們的實战還原，我們認爲情況大致有可能是這樣的——或者說一種可行的路线是這樣的：

這位“龍辰辰”可能是從使用 AI 工具生成的一個圖作爲基礎來改進。人類對它進行的修剪，可能包括處理一些不對稱或硬傷，將某些位置畫上所需要的紋路，將背景處理爲透明色，對低分辨率圖像進行銳化等等。

VOL.3

AI進入設計流程，有沒有錯？

如果簡單地對比我們用同一個提示詞生成的4張圖片，和最後的“龍辰辰”成品，你會發現很難通過文字描述讓 AI 直接聽你的話。這意味着，人類可能的三個改進步驟——優化提示詞、挑選圖片，以及改動細節，可能實際上是非常勞心費力的過程。即使產生這個主意的第一張圖是 AI，經過最後的不斷測試，也有可能結果跟一开始相比完全不同。

在之前的案例當中，確實有人曾經想過完全用 AI 出一個產品圖就不用改了。結果發現，要想滿足商業應用各方面的要求，特別是包含 IP 和商標的一致性，要做的幕後工作有很多。有時候對它進行的修改，甚至讓人有得不償失的感覺。例如，天貓的設計部門爲雙11所准備的宣傳圖，AI節省了一部分建模的壓力，但帶來了新的特有的問題。

“項目執行過程中，AI訓練師的角色至關重要。在此期間，我們的AI訓練師每天需要花大量的時間和精力和AI「談笑風生」，這可比單純拍個片、做個3d模型要費時費力多了，截止項目結束，根據AI工具的統計，我們團隊總共生成了22247張圖，即每一張定稿的品牌花車背後，AI訓練師至少生成了400+張圖片，經歷了無數次的修改調試咒語。項目執行期間，根據AI工具的統計，我們每天消耗的快速時長有時候甚至長達20小時，玩過AI創作的，一定知道這個時長背後意味着什么。”

所以，即使春晚團隊使用了AI作爲他們最初的創意來源，在這之後，要進行的“凝結在商品中的無差別的人類勞動”，那也是非常可觀的。

11月底，北京互聯網法院剛剛就一起“人工智能生成圖片著作權侵權糾紛”作出一審判決，認爲涉案圖片可以主張著作權。法院認定，原告在生成圖片過程中進行了智力投入，包括設計提示詞、參數和選擇最終圖片等，因此圖片具備智力成果要件。

盡管該案很可能只是個例，不具備一般指導意義，但人類在優化提示詞、挑選圖片、改動細節方面的勞動是不能被忽略的。

一張AI生成的圖到最後能使用的商業IP，還包括其他復雜的過程，例如將其三維化，應用在片頭、虛擬棚等不同的場合。兔年的春晚吉祥物“兔圓圓”在晚會片頭動畫當中，是以一個完全3D建模的形象出現的，包括全身的位置都做了相關渲染。

更不用說，如果需要賣相關文創產品，那么自然就涉及到衍生品的設計。像之前韓美林創作的“猴塞雷”，在做成公仔時也經過了二次設計。

事實上，總台文創對這一次的“龍辰辰”已經有了一個初步的公仔設計樣本。當然很值得人們吐槽的，就是這個龍好像劣化了很多，完全沒有把3D效果圖的風採展現出來，可以說判若兩龍。

（當然這個實物展示無意中解答了上面的一個遺留問題：咱這條龍的腳趾數量，正確答案是“四爪”。）

哎，所以說，如果平面圖案也是按照這個公仔的樣子來的話，醜就醜了點，肯定沒人會懷疑它是用AI生成的……

娛樂資本論·視智未來對待AIGC的態度始終如一，希望人類能認可AI生產的內容，而不是僅僅聽到AI兩個字就退避三舍。今年早些時候，迪士尼使用AI生成美劇片頭引發爭議時，我們也有過相關的評論。

現在文生圖已經用在對質量要求不那么嚴格的領域，例如自媒體文章配圖。假如技術進步到真假難辨的程度，它用於商業化文藝作品，就像“人造鑽石”自然替代天然鑽石一樣，有什么不可以的呢？

但這裏面其實存在一個隱患。人們更傾向於直接相信和採用 AI 生成的結果，他們甚至會對這個 AI 生圖越看越順眼，因此之後修改也可能發現不了太多，即使是增加了審核環節也很難避免。

所以，在畫面走向公衆之後，人們所發現的“AI味兒”實際上是那些AI可能會犯，但人類畫師通常會避免的問題，例如一只耳朵的朝向感覺不對，兩條腿的紋路不對稱等等。這些問題，可能在初始圖片已經有個心理錨點的時候，即使有“三審三校”這種流程，仍然會被放過。

盡管大模型和文生圖從誕生的第一時間，就有幻覺的問題，但是它的對話形態，以及能快速生成結果的自信，都使得人們有意無意忽略了這種隱患。

實際上，真正用過 AI 的人就會知道，不管是讓他總結一篇文章或 PDF，還是搜索網上的數據並摘要，都會或多或少有一些不可被人信任的地方。

所以，越是重度使用和依賴 AI 的人，就越應該在其中加入更多人工檢查的部分，而不是相反。如果主動放棄了核查和校對過程，就是完全將人類的智慧和判斷力拱手讓給了 AI，這樣就一定會出現問題。