top of page
階段一:OCR標記
由於OCR結果不會是100%正確,所以需人工協助更正。
-
本階段利用學長提供的資料,其中包含經過處理並轉換成的文字檔(OCR結果、正確結果);而Image為辨識出/正確的畫面,為參考用,當有疑慮時可輔助判斷,最後將錯誤與正確部分的詞語或句子,利用Excel一一列出來,兩句為同一長度,如,圖1.。
圖1.將內容放入Excel
階段二:VA量表蒐集與標記
針對Valence和Arousal進行評分,透過手工標記,建立中文Valence-Arousal情感語料庫。此階段為標記情感分數,每題內容可能會是一句話,也可能會是一大段話,長短不一,其中有兩種分數,
-
Valence(x軸):代表情感的正負維度,分數從1至9離散分佈,每0.5間格為一單位。1代表最負向的情緒,9代表最正向的情緒,中間值5代表中性沒有正負傾向的情緒。
-
Arousal(y軸):代表情感的平靜與激動程度,分數也是1至9 離散分佈,每0.5間格為一單位。1代表最平靜,9代表最激動。
階段三:模型訓練
利用程式撰寫出可以讓機器依據階段二標記的VA分數集合進行訓練,自動找出有用的函數,加快標記速度以及減少人工處理時間。

bottom of page