中古佛教寫本編碼專案異體字資料庫

資料庫異體字收字標準說明

中華佛學研究所與根特大學佛學研究中心合作的「中古佛教寫本資料庫編碼專案」，以TEI/XML的國際標準文獻數位編碼格式對敦煌寫卷進行標記編碼，標記的內容包括寫卷中的異體字、通假字、錯字、修改字，還有各種特殊符號，本網頁資料庫主要針對其中的異體字（TEI標記為<orig>）作分類研究。

專案所謂異體字定義，沿用教育部國語推行委員會所編《異體字字典》之定義：指對應正字的其他寫法^[1] 。編碼時，針對異體字的判讀與紀錄標準為：原文字形若為《異體字字典》所定正字^[2] ，則視為標準字，不加額外紀錄；而若非《異體字字典》所定正字，皆視為異體字，並給予特殊標記——正規化並記錄其字型。

專案在標記寫卷異體字時，也同時將所見異體字整理成「異體字表」。該表以《異體字字典》所定正字為字頭，下面依序列出「寫本字圖」、「漢語拼音」、「注音符號」、「Unicode已錄之異體字」、「來源位置」、「《異體字字典》所錄之異體字圖」、「《異體字字典》所錄之異體字字碼」、「專案所錄缺字字碼」、「備註」等欄位。其中，若「Unicode已錄之異體字」一欄之值為有，則「《異體字字典》所錄之異體字圖」、「《異體字字典》所錄之異體字字碼」、「專案所錄缺字字碼」等欄之值則為無；若無「Unicode已錄之異體字」（指Unicode未錄或Unicode無法於網頁上正常顯示之字），才引用「《異體字字典》所錄之異體字圖」、「《異體字字典》所錄之異體字字碼」；Unicode與《異體字字典》皆未錄之字，則為專案新增之異體字，並編列登錄缺字字碼^[3] ，將專案所見各篇字形相同或相近者歸於其下。

專案登錄異體字的原則，基本上以一個異體字字型於同一篇手稿中選定一個字為代表，並進行紀錄。但是專案在實際執行過程中，我們經常發現手寫字型與Unicode、字典印刷體之間具有細微的差別，其或是緣於書寫習慣，或是緣於筆畫模糊潦草，但這些細微的差別，也是我們判定該字體是否應該成立為一個新的缺字／異體字的重點。為使我們能有一個穩定的判斷準則，因此專案選擇盡量保存較多的字型樣本，以便將來進一步判讀篩選，故有時一個字型在一篇寫本內也可能選擇一個以上的字為代表，同樣紀錄於表格中。另有一些字不見於字典，又難以辨識，此時我們亦將之暫時安放在某一字頭之下，並且於「備註」欄標明「待考」，並說明判斷的理由，以待將來進一步考證判定。

參見教育部《異體字字典》「編輯略例」，網址：https://dict.variants.moe.edu.tw/page.jsp?ID=9，上網日期：2024/2/10。
教育部《異體字字典》所定義之「正字」解釋為：「教育部之《常用字表》、《次常用字表》、《罕用字表》所收錄之字，或此次編輯新增之正字。」參見該網站之「編輯說明/ 編輯凡例/ 編輯用語」，網址：https://dict.variants.moe.edu.tw/variants/rbt/page_content3.rbt?pageId=2981952，上網日期：2021/2/8。
按：專案舊時以寫卷字圖位置為字圖ID，但這容易使讀者產生混亂與誤會，因此在網頁料庫建製之後，便採用電腦自動排序的流水號為新字圖ID。