1.將兩年度的PDF的錄取分數內容先貼到txt裡,然後存檔成ANSI編碼。如果存檔時有出現錯誤,那麼就要去找一下錯誤在哪裡。通常是找看起來是「?」的字元,因為這些是unicode字元,但在ANSI編碼下無法正常顯示。
2.分別將兩個txt檔案以Word開啟,在Word調整成可轉換表格的格式。通常是這些動作:
(1)將「大學」後加上一個半形空格
(2)將「學院」後加上一個半形空格
(3)將「學校」後加上一個半形空格
(4)如果有必要,可以再將「系」後加上個半形空格。但需留意,其他沒分組的科系也要多一個半形空格,而且若要將「組」再獨立出來,會增加處理的複雜度。
3.將這些文字轉成表格,之後檢查數據是否正確放到正確的欄位。例如某些科系名稱是「某某學院某某組」,因為前面先先針對「學院」做調整,所以這裡的「學院」後面就會多一個半形空格,影響文字轉表格的結果。
4.前述步驟轉成表格後,在表格最左方再新增「年度」及「類群」欄位,並將資料所屬正確「年度」及「類群」資料填進去,依序儲存在同一個EXCEL工作表上。
5.在EXCEL裡,將「校院」、「科系」欄位再拆成「新校院」、「舊校院」及「新科系」、「舊科系」等四個「新欄位」。此四個欄位必須都有資料,如果所屬年度並未更名,那麼該年度的校院名稱就依序填入「新校院」及「舊校院」欄位裡,如果有更改名稱,那麼「新校院」就是更名後的校院名稱,「舊校院」便是更名前的校院名稱。「科系」欄位依相同原則處理。拆解名稱完成之後,將原始的「校院」及「科系」欄位刪除。
5.將Excel資料匯入到Access。
6.在Access裡做「前年度分發結果」及「當年度分發結果」兩查詢,之後將兩個查詢再進行關聯查詢,關聯的原則是:當年度的舊對前年度的新。完成之後就得到新年度分發結果之新舊兩年度分數比較。「校院」及「科系」名稱從當年度的「新校院」、「新科系」名稱挑選,並判斷新舊兩名稱是否相等,不相等則再加上舊名稱輔助說明。
7.如果欲再進度「停招」校系查詢,關聯原則同前,唯「校院」及「科系」名稱皆改選前年度之新校院及新科系名稱。這裡不需要做新舊名稱判別。
這次在測驗這個比較的過程,發現可以將PDF貼到Word的文字,再貼到txt裡,並且以ANSI編碼格式儲存,這樣可以避免同字不同碼的狀況發生。所謂「同字不同碼」的狀況是指看起來是一樣的字,但實際內碼並不一樣,這會影響到電腦搜尋的結果。
我們一般用輸入法打出來的字,絕大部份都是以Big5的格式在編碼(極少數是以unicode編碼),前述同字不同碼是指以非big5格式編碼,但看起來的字型是一樣的。如果我們要透過輸入字串來找字串,我們手動輸入的字串是找不到這些同字不同碼的內容。
存到ANSI格式的純文字檔案,看起來似乎會自動調整內碼,可以調整成big5的就調整,不能調整的就直接以「?」顯示。但用「?」去搜尋還找不到。