top of page

學習

 
 
 
 
 

OCR

 
 
 
 
 

光學字元辨識,Optical Character Recognition),

  • 說明:將圖片或掃描文字轉換為數位資料的一種技術。可用於將印刷或手寫文字轉換成可編輯或可檢索的電腦文本。

  • OCR辨識7步驟:

   Step1. 影像輸入:讀取平面文字。

   Step2. 前期影像處理:將平面文件前後背景分開、留下黑色字體的前景,與白色的背景(二值化)、降噪處理後,再進行傾斜修正。

   Step3. 分割字元:分析裝置將平面中的所有文字、數碼和標點符號分別切割。

   Step4. 單字細線化:將字體線條變細,判讀字元結構,消除多餘的資料量,避免造成文字誤判。 

   Step5. 抓取單字的特徵點:分析裝置透過多種方法尋找字元中最具特徵的部分,判讀字元的意思,並進行編碼。

   Step6.比對校正:將辨識編碼後的字元,與文字資料庫進行比對,找出最接近的文字。 

   Step7. 輸出辨識結果:完成整個分析辨識過程,再輸出OCR的文字檔案。

 

VA標記

 
 
 
 
 
  • 說明:情感分析是分析數位文字的過程,以判斷訊息的情感是正面、負面還是中性以及情緒為機動還是平靜。情感分析工具可掃描大量文字資料,例如電子郵件、社交媒體意見和評論、法律判決書文本等等,自動判斷文字中想傳達的情感為何,可以以scatter plots(散點圖)表示,如下圖:

1.png

BERT

  • 預訓練任務

  • 克漏字填空 (Masked Language Model, MLM)

  • 後文預測 (Next Sentence Prediction, NSP)

  1. 說明:給BERT兩個句子,讓BERT預測這兩個句子是否為連接在一起的句子。舉例來說,兩個句子,「醒醒吧」、「你沒有妹妹」,要讓BERT判斷第二個句子是否為第一句的下一句。

  2. 目的:

  • MLM: 為了讓BERT更能夠表現出每個詞彙在不同情境下的Representation。

  • NLS: 為了讓BERT更清楚的判斷出兩個句子間的關係。

CNN

主要架構包含輸入層(Input Layer)、一個或多個卷積層(Convolution Layer)、池化層(Pooling Layer)以及頂部的全連接層(Fully Connected Layer)所組成​。

2.png
  • 輸入層(Input Layer): 輸入層是模型接受原始數據的地方,例如圖片的像素或文本的詞向量。我們的程式就是輸入文本的詞向量

  • 卷積層(Convolution Layer): 卷積層是 CNN 的核心組件之一。它使用過濾器(filter)在輸入數據上滑動,計算卷積操作以提取特徵。這有助於捕捉圖像或文本中的局部特徵。卷積層的輸出被稱為特徵圖,其中每個元素代表一個學習到的特徵。

  • 池化層(Pooling Layer): 池化層通常跟在卷積層之後,用於減少特徵圖的空間尺寸,同時保留重要的信息。最常見的是Max Pooling,它在每個區域中選擇最大值。這有助於提取最重要的特徵並降低計算複雜度;但有時過度的使用可能會使一些訊息被丟掉。

  • 全連接層(Fully Connected Layer): 此層的主要目的是將矩陣形式的資料拉直排成一行向量。全連接層會將經過池化層運算後的輸出結果平坦化 (flattening),接著轉換為一個一行多列的型態,方便作為適合輸入輸出層的輸入資料。

LSTM

LSTM模型的特性是能夠捕捉和維持長期記憶,透過使用特殊的儲存單元和Gate機制,可以更有效地處理長序列資料。

分為三個Gate,分別是Forget Gate、Input Gate和Output Gate。 這些Gate控制資訊的流動,使模型能夠選擇性地記住或遺忘之前的資訊。

bottom of page