資料庫異體字收字標準說明
中華佛學研究所與根特大學佛學研究中心合作的「中古佛教寫本資料庫編碼專案」,以TEI/XML的國際標準文獻數位編碼格式對敦煌寫卷進行標記編碼,標記的內容包括寫卷中的異體字、通假字、錯字、修改字,還有各種特殊符號,本網頁資料庫主要針對其中的異體字(TEI標記為<orig>)作分類研究。
專案所謂異體字定義,沿用教育部國語推行委員會所編《異體字字典》之定義:指對應正字的其他寫法[1] 。編碼時,針對異體字的判讀與紀錄標準為:原文字形若為《異體字字典》所定正字[2] ,則視為標準字,不加額外紀錄;而若非《異體字字典》所定正字,皆視為異體字,並給予特殊標記——正規化並記錄其字型。
專案在標記寫卷異體字時,也同時將所見異體字整理成「異體字表」。該表以《異體字字典》所定正字為字頭,下面依序列出「寫本字圖」、「漢語拼音」、「注音符號」、「Unicode已錄之異體字」、「來源位置」、「《異體字字典》所錄之異體字圖」、「《異體字字典》所錄之異體字字碼」、「專案所錄缺字字碼」、「備註」等欄位。其中,若「Unicode已錄之異體字」一欄之值為有,則「《異體字字典》所錄之異體字圖」、「《異體字字典》所錄之異體字字碼」、「專案所錄缺字字碼」等欄之值則為無;若無「Unicode已錄之異體字」(指Unicode未錄或Unicode無法於網頁上正常顯示之字),才引用「《異體字字典》所錄之異體字圖」、「《異體字字典》所錄之異體字字碼」;Unicode與《異體字字典》皆未錄之字,則為專案新增之異體字,並編列登錄缺字字碼[3] ,將專案所見各篇字形相同或相近者歸於其下。
專案登錄異體字的原則,基本上以一個異體字字型於同一篇手稿中選定一個字為代表,並進行紀錄。但是專案在實際執行過程中,我們經常發現手寫字型與Unicode、字典印刷體之間具有細微的差別,其或是緣於書寫習慣,或是緣於筆畫模糊潦草,但這些細微的差別,也是我們判定該字體是否應該成立為一個新的缺字/異體字的重點。為使我們能有一個穩定的判斷準則,因此專案選擇盡量保存較多的字型樣本,以便將來進一步判讀篩選,故有時一個字型在一篇寫本內也可能選擇一個以上的字為代表,同樣紀錄於表格中。另有一些字不見於字典,又難以辨識,此時我們亦將之暫時安放在某一字頭之下,並且於「備註」欄標明「待考」,並說明判斷的理由,以待將來進一步考證判定。
- 參見教育部《異體字字典》「編輯略例」,網址:https://dict.variants.moe.edu.tw/page.jsp?ID=9,上網日期:2024/2/10。
- 教育部《異體字字典》所定義之「正字」解釋為:「教育部之《常用字表》、《次常用字表》、《罕用字表》所收錄之字,或此次編輯新增之正字。」參見該網站之「編輯說明/ 編輯凡例/ 編輯用語」,網址:https://dict.variants.moe.edu.tw/variants/rbt/page_content3.rbt?pageId=2981952,上網日期:2021/2/8。
- 按:專案舊時以寫卷字圖位置為字圖ID,但這容易使讀者產生混亂與誤會,因此在網頁料庫建製之後,便採用電腦自動排序的流水號為新字圖ID。