
學習
OCR
光學字元辨識,Optical Character Recognition),
-
說明:將圖片或掃描文字轉換為數位資料的一種技術。可用於將印刷或手寫文字轉換成可編輯或可檢索的電腦文本。
-
OCR辨識7步驟:
Step1. 影像輸入:讀取平面文字。
Step2. 前期影像處理:將平面文件前後背景分開、留下黑色字體的前景,與白色的背景(二值化)、降噪處理後,再進行傾斜修正。
Step3. 分割字元:分析裝置將平面中的所有文字、數碼和標點符號分別切割。
Step4. 單字細線化:將字體線條變細,判讀字元結構,消除多餘的資料量,避免造成文字誤判。
Step5. 抓取單字的特徵點:分析裝置透過多種方法尋找字元中最具特徵的部分,判讀字元的意思,並進行編碼。
Step6.比對校正:將辨識編碼後的字元,與文字資料庫進行比對,找出最接近的文字。
Step7. 輸出辨識結果:完成整個分析辨識過程,再輸出OCR的文字檔案。
BERT
-
預訓練任務

-
克漏字填空 (Masked Language Model, MLM)
-
後文預測 (Next Sentence Prediction, NSP)
-
說明:給BERT兩個句子,讓BERT預測這兩個句子是否為連接在一起的句子。舉例來說,兩個句子,「醒醒吧」、「你沒有妹妹」,要讓BERT判斷第二個句子是否為第一句的下一句。
-
目的:
-
MLM: 為了讓BERT更能夠表現出每個詞彙在不同情境下的Representation。
-
NLS: 為了讓BERT更清楚的判斷出兩個句子間的關係。
CNN
主要架構包含輸入層(Input Layer)、一個或多個卷積層(Convolution Layer)、池化層(Pooling Layer)以及頂部的全連接層(Fully Connected Layer)所組成。

-
輸入層(Input Layer): 輸入層是模型接受原始數據的地方,例如圖片的像素或文本的詞向量。我們的程式就是輸入文本的詞向量
-
卷積層(Convolution Layer): 卷積層是 CNN 的核心組件之一。它使用過濾器(filter)在輸入數據上滑動,計算卷積操作以提取特徵。這有助於捕捉圖像或文本中的局部特徵。卷積層的輸出被稱為特徵圖,其中每個元素代表一個學習到的特徵。
-
池化層(Pooling Layer): 池化層通常跟在卷積層之後,用於減少特徵圖的空間尺寸,同時保留重要的信息。最常見的是Max Pooling,它在每個區域中選擇最大值。這有助於提取最重要的特徵並降低計算複雜度;但有時過度的使用可能會使一些訊息被丟掉。
-
全連接層(Fully Connected Layer): 此層的主要目的是將矩陣形式的資料拉直排成一行向量。全連接層會將經過池化層運算後的輸出結果平坦化 (flattening),接著轉換為一個一行多列的型態,方便作為適合輸入輸出層的輸入資料。
LSTM
LSTM模型的特性是能夠捕捉和維持長期記憶,透過使用特殊的儲存單元和Gate機制,可以更有效地處理長序列資料。
分為三個Gate,分別是Forget Gate、Input Gate和Output Gate。 這些Gate控制資訊的流動,使模型能夠選擇性地記住或遺忘之前的資訊。