小屋創作

日誌2024-06-04 01:19

2024年上半年閒聊(AI學習篇)

作者:逝星喪羅

主要敘述這一年來學習AI的一些歷程記錄,然而隨著版本更新,有些觀念可能過時,但學過技巧就能變換之。

我所使用開源軟體為Stable Diffusion,約在一年前四月初開始研究,當時版本應該是在1.2版左右,而學習資訊大部分透過論壇與YT,然後把關鍵字打到手機筆記本上,下班後才開軟體測試,但事實上我每次使用Stable Diffusion都是在週末居多,從跑圖紀錄來看,四五月有十天記錄,而六七八月就剩五天,九到十二月更是沒跑過圖,而在2024年跨年隔天我就升級為1.7版本,最近是升到1.9版本,至於XLForge我是暫時不考慮,畢竟目前主流權重模型(Checkpoints)還是1.5居多,訓練以512X512的圖像來減輕電腦負擔。

在今年四月左右電腦得了KPKernel Power41(63),發生次數越來越頻繁,後來把主電腦1660TI顯卡換成繪圖機顯卡2060[1],是沒再發生,姑且推定是顯卡故障,但繪圖機也不能沒顯卡,所以主電腦顯卡就換成3060 O12G,也更換電源供應器與追加記憶體,不過主機硬體更新,螢幕設備卻沒更新,所以現在問題是DP1.4版本問題,導致開機喚醒延遲,目前是改用HDMI線中,但是有電阻困擾,開機進入OS前會閃約0.5秒。

[1] 目前書房電腦主機共有五台,如舊照片圖示。


因為換了顯卡,權重模型為底的圖示縮圖得重跑製作整理[2][3],而隨著版本功能更新,舊的模型汰除,加上路徑贅檔除錯為首要工作,而這邊就稍微野人獻曝的介紹幾個不錯的功能。對於AI繪圖來說,我觀念還是輔助工具,以運用在Phototshop上圖層觀念為主,生成圖像的完整性不是重點,而是精準把想法轉化成圖像。權重模型訓練上隨著素材資料庫有著明顯風格差異,畢竟每個模型訓練提示字詞定義都不一樣,加上模型之間互相融合,目前權重模型主流都是以女性角色為主,至於空間造景類與物件服飾類就以LORA訓練為大宗了。另外這邊稍微提一下VAE,是Stable Diffusion中的色調編碼器,有時跑動漫風格的權重模型就要做切換。

[2] 不同顯卡除了運算速度不同外,非同種子的圖像風格也會跟著改變。

月份
  
顯卡規格
  
顯卡記憶體
  
電腦DRAM
  
512X768一張跑圖秒數
  
2023/08
  
1660TI
  
6GB
  
16GB
  
140
  
2024/04
  
2060
  
6GB
  
16GB
  
18
  
2024/05
  
3060
  
12GB
  
32GB
  
12
  

[3] Phototshop把數據與提示詞標明製成專用圖示縮圖,以下為LORA介面。



正向提示詞(prompt)在1.7版本左右,其實已經有偷懶方法了,因為AI識圖功能進步與字詞資料庫越來越齊全,目前獲得正向提示詞方法有兩種,一是原Stable Diffusion跑圖檔案拖曳到頁面資訊欄中,就會跑出圖的種子正反提示詞、使用模型與相關權重數據,另一種是在圖生圖中用[Interrogate DeepBooru]反推字詞,辨識後會給大致相近的提示詞,而我們再去修正提示詞的準確度與細緻度。


提示詞在一年前總是被說咒術師或是鍊金術,每次跑圖好像在抽卡一樣,不可控因子太多,但事實在ControlNET運用出現後,若瞭解其運作原理,也是可走向科學之路的。提示詞比較是像英文作文比賽,用英文把圖像鉅細靡遺敘述說明,但是前提權重模型資料庫中要有那個對應字詞字彙,就好比一個模型中沒有畫過馬的生物,儘管提示詞把馬(horse)形容多詳細,跑圖結果出來是老鼠(mouse)或房子(house)諸如此類笑話。至於提示詞順序我習慣上是畫面主要元素或主角>主角的細節敘述>背景特寫描述>風格主義畫派光影>畫面質量,也就是反推字詞的分類順序。

提示詞(prompt)的語法中比較常用到是

提示詞範例
  
呈現效果
  
圖解
  
(A:0.9)
  
A提示詞表現強度90%
  
  
{A|B|C}
  
隨機從ABC三選一表現
  
  
AND
  
大寫表示混合語法,適合合成怪獸
  
  
(A|B)C
  
A+BC,如黑白髮色
  
[4]
  

[4] 髮色混合範例


ControlNET的主要功能來自這一年的筆記,很多紀錄是隻字片語與未去實行功能。

(1) Normalbae [3D法線辨識] 3D2D風格,以前學3DMAXS時凹凸紋理才知道的法線,對原圖辨識後保留較多的細節,所以有3D風格遊戲角色圖轉2D風格時,可利用此功能,但前提是權重模型資料庫中要有相關風格詞彙,如中古世紀風格是跑不出機械科幻風格的。
(2) Depth map [深度圖像輪廓生成] 利用原圖象空間及輪廓辨識後重繪,雖細節不如Normalbae,在轉換2D漫畫風格使用不錯。
(3) Openpose
[人體姿勢骨架辨識] 搭配頁面工具OpenposeEditor3D  openpose編輯使用,可對圖像人體動作姿勢完全應對。
(4) Canny [邊緣檢測生成,辨識線稿] 針對粗略的布局線稿產生圖像,細緻零碎地方不會處理是其缺點,運用在2D線稿轉3D圖像上,如果國文課本上的古人們。
(5) MLSD [線條辨識生成,辨識粗線] 用於空間與物件生成。
(6) Scribble
[線條塗鴉生成] 設計發想,算是小畫家型的腦補加筆運用。
(7) Brightness
[黑白上色] 黑白照片上色用。
(8) Tile
[仿繪放大] 雖然網上建議CFG15與重繪0.5以上放大圖像,但我都利用在轉換權重模型風格,而不是放大,因為比起Canny來轉換,保留細節比較簡單,不用太多提示詞。

最後頁面工具比較推薦的是RPBemTools一鍵去背工具。


0

0

LINE 分享

相關創作

知己 第五章

知己 第六章(完)

自然禮讚 | 聽歌聽歌

留言

開啟 APP

face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】