久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    李明杰:中文古籍?dāng)?shù)字化基本理論問(wèn)題芻議

     粵居楚牛 2022-02-11
    對(duì)于中文古籍?dāng)?shù)字化的探討,可謂由來(lái)已久,相關(guān)論文也發(fā)表了很多,算不得一個(gè)新鮮話題。但筆者在查閱這些文獻(xiàn)后發(fā)現(xiàn),這些研究大多停留在對(duì)古籍?dāng)?shù)字化的現(xiàn)狀、發(fā)展趨勢(shì)及對(duì)策的探討上,間或也有古籍?dāng)?shù)字化技術(shù)的介紹,雖也不乏優(yōu)秀論文,但給人總的印象是宏觀論述的多,具體研究的少;一筆帶過(guò)的多,真知灼見(jiàn)的少;實(shí)踐探討的多,理論研究的少。其實(shí),中文古籍?dāng)?shù)字化的技術(shù)已基本成熟,換句話說(shuō),當(dāng)技術(shù)已不再是問(wèn)題時(shí),基本理論問(wèn)題才是關(guān)系到古籍?dāng)?shù)字化方向和成敗的關(guān)鍵性問(wèn)題,應(yīng)該引起我們的高度重視。正如史睿先生在《試論中國(guó)古籍?dāng)?shù)字化與人文學(xué)術(shù)研究》一文中所指出的,“古籍?dāng)?shù)字化的理論問(wèn)題比技術(shù)問(wèn)題更為重要,因?yàn)橐坏├碚摪l(fā)生了偏差,技術(shù)越高明,則解決方案越是難以成功。”[1]筆者深有同感,故不揣淺妄,在此拋磚引玉,祈請(qǐng)方家指正。

    文章圖片1

    1 什么是古籍?dāng)?shù)字化?

    這似乎不應(yīng)該成為一個(gè)問(wèn)題,但它關(guān)系到對(duì)古籍?dāng)?shù)字化的定位,故有必要作深入探討。應(yīng)該說(shuō),在這個(gè)基本問(wèn)題上人們的認(rèn)識(shí)是存在一定誤區(qū)的,最常見(jiàn)的就是把古籍?dāng)?shù)字化僅視為存儲(chǔ)介質(zhì)的轉(zhuǎn)換,其目的也只是保護(hù)和儲(chǔ)存古籍。如:“古籍?dāng)?shù)字化就是利用數(shù)字技術(shù)將古籍的有關(guān)信息轉(zhuǎn)換成數(shù)字信息存儲(chǔ)在計(jì)算機(jī)上,從而達(dá)到使用和保護(hù)古籍的目的。”[2]“古籍?dāng)?shù)字化就是采用計(jì)算機(jī)技術(shù),對(duì)古籍文獻(xiàn)進(jìn)行加工、處理,制成古籍文獻(xiàn)書目數(shù)據(jù)庫(kù)和古籍全文數(shù)據(jù)庫(kù),用以揭示古籍文獻(xiàn)中所蘊(yùn)涵的極其豐富的信息資源,從而達(dá)到使用和保護(hù)古籍的目的。”[3]“所謂古籍?dāng)?shù)字化,是利用現(xiàn)代信息技術(shù),將歷來(lái)抄寫本、刻鑄本、雕版、活字版、套版及鉛字印刷等方式所呈現(xiàn)的古代文獻(xiàn),轉(zhuǎn)化為電子媒體的形式,通過(guò)光盤、網(wǎng)絡(luò)等介質(zhì)保存和傳播。”[4]類似的觀點(diǎn)還很多,茲不一一列舉。誠(chéng)然,古籍儲(chǔ)存介質(zhì)的轉(zhuǎn)換可以解決長(zhǎng)期困擾人們的古籍保存問(wèn)題,也在一定程度上方便了人們使用,但筆者以為,這些定義尚不足以反映古籍?dāng)?shù)字化的實(shí)質(zhì)。從本質(zhì)上講,古籍?dāng)?shù)字化不是一個(gè)單純的技術(shù)問(wèn)題,而是一個(gè)文化問(wèn)題和學(xué)術(shù)問(wèn)題。

    早在1959年,C.P.Snow教授在《兩種文化》[5]一書中指出,科學(xué)與人文之間存在著鴻溝,并成為兩種互不溝通的文化,引起了西方世界的極大震動(dòng)。時(shí)至今日,如何調(diào)和這兩者之間的矛盾,仍是西方國(guó)家關(guān)注的重要課題。反觀國(guó)內(nèi),由于我國(guó)文化歷史悠久,積累深厚,加上數(shù)十年來(lái)對(duì)人類最新科技成果的生吞活剝,使得這一矛盾更為凸現(xiàn)。其中一個(gè)最明顯的例證就是,一方面我們自認(rèn)為是文明古國(guó)的后裔,擁有燦爛傲人的傳統(tǒng)文化;另一方面卻生活在由電纜、芯片和水泥構(gòu)筑的城堡之中,古典文獻(xiàn)離人們的日常生活越來(lái)越遠(yuǎn),數(shù)千年來(lái)的人文積累在時(shí)下年輕人身上難覓痕跡。而古籍?dāng)?shù)字化用強(qiáng)大的技術(shù)手段,將博大精深的中華文化典籍縮微到計(jì)算機(jī)存儲(chǔ)介質(zhì)中,并讓它活絡(luò)起來(lái),以無(wú)可比擬的速度傳播開去,極大地方便學(xué)者研究和普通知識(shí)受眾的學(xué)習(xí)瀏覽。從這層意義上講,古籍?dāng)?shù)字化在科學(xué)與人文之間架起了一座橋梁,拉近了傳統(tǒng)與現(xiàn)代的時(shí)空距離,善莫大焉。
    但古籍?dāng)?shù)字化并不只是搶救、保存和普及傳統(tǒng)文化,也不是簡(jiǎn)單地復(fù)制和再現(xiàn)典籍的原貌,而是將現(xiàn)代工具與傳統(tǒng)內(nèi)容實(shí)現(xiàn)完美的結(jié)合,形成工具與內(nèi)容的統(tǒng)一體。記得傅斯年先生說(shuō)過(guò)“上窮碧落下黃泉,動(dòng)手動(dòng)腳找資料”的話,可見(jiàn)人文學(xué)術(shù)研究很大程度上是建立在資料占有的基礎(chǔ)上,而古籍?dāng)?shù)字化可為人文社會(huì)學(xué)術(shù)研究提供多種有效、快捷的檢索途徑,使學(xué)者多出成果,快出成果。對(duì)于以文字為主的中國(guó)古籍來(lái)說(shuō),它的數(shù)字化絕不只是紙張載體版本的翻版。掃描是必要的,但掃描在很多情況下只是數(shù)字化的預(yù)處理。據(jù)北京書同文數(shù)字化技術(shù)有限公司的實(shí)踐,掃描僅占數(shù)字化工程的2%[6],因而將古籍?dāng)?shù)字化看作是簡(jiǎn)單的“掃描”和“錄入”的觀點(diǎn)是片面的。在古籍?dāng)?shù)字化進(jìn)程中,最主要的就是實(shí)現(xiàn)知識(shí)關(guān)聯(lián)的全文檢索。越是面對(duì)內(nèi)容豐富的典籍,越是需要非順序式的閱讀。數(shù)字化則是將億萬(wàn)漢字所表征的信息,貫穿電子的經(jīng)絡(luò),使得字字可查、句句可檢成為現(xiàn)實(shí)。而且,通過(guò)古籍文本內(nèi)容的深入揭示和關(guān)聯(lián)重組,可以實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)的功能。所謂知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,簡(jiǎn)稱KDD),又稱數(shù)據(jù)挖掘,是指從大量隱含的、以前不知道的、潛在有用的信息進(jìn)行有價(jià)值的知識(shí)提取,并從中發(fā)現(xiàn)知識(shí)之間的關(guān)聯(lián)關(guān)系,從而達(dá)到知識(shí)創(chuàng)新的目的。因而從此意義上講,古籍?dāng)?shù)字化對(duì)于學(xué)術(shù)研究還具有重要的工具性意義,是學(xué)術(shù)研究工作的一部分。

    但古籍?dāng)?shù)字化又不同于一般的學(xué)術(shù)研究,而是屬于古籍整理的范疇,它是傳統(tǒng)校讎學(xué)在現(xiàn)代技術(shù)下的合理延伸。長(zhǎng)期以來(lái)存在一個(gè)誤解,即把古籍?dāng)?shù)字化與古籍整理對(duì)立起來(lái),認(rèn)為古籍?dāng)?shù)字化正在蠶食古籍整理的領(lǐng)地,主張等古籍整理好了之后再談數(shù)字化問(wèn)題。其實(shí),兩者一點(diǎn)也不矛盾,相反是相輔相承的。古籍?dāng)?shù)字化首先有個(gè)文本對(duì)象的選擇問(wèn)題,其中涉及的版本問(wèn)題非常復(fù)雜,這就需要內(nèi)容專家考訂版本源流,選擇善本為底本,廣校異同,精心標(biāo)點(diǎn),之后還須廣徵群籍,拾遺補(bǔ)闕。數(shù)字化古籍的整理同樣要經(jīng)歷這樣一個(gè)過(guò)程,與承擔(dān)“辨章學(xué)術(shù),考鏡源流”的傳統(tǒng)校勘學(xué)并無(wú)實(shí)質(zhì)不同。如果將古籍?dāng)?shù)字化理解為只是古籍存儲(chǔ)形式的簡(jiǎn)單變換,而沒(méi)有前期的古籍整理過(guò)程,那古籍?dāng)?shù)字化的價(jià)值將大打折扣。同樣,數(shù)字化建立的人文社會(huì)科學(xué)資料庫(kù),只會(huì)有利于古籍資料的分類、鑒別、比較、選擇、保存、查詢、檢索,讓古籍整理工作者從繁重的資料工作中解放出來(lái),從事發(fā)揮他們自己特長(zhǎng)的高級(jí)研究工作,加快古籍整理的進(jìn)程。

    綜上所述,古籍?dāng)?shù)字化是以保存和普及傳統(tǒng)文化為基本目的,以知識(shí)發(fā)現(xiàn)的功能服務(wù)學(xué)術(shù)研究為最高目標(biāo),在對(duì)傳統(tǒng)紙質(zhì)古籍進(jìn)行校勘整理的基礎(chǔ)上,利用計(jì)算機(jī)技術(shù)將其轉(zhuǎn)換成可讀、可檢索、及實(shí)現(xiàn)了語(yǔ)義關(guān)聯(lián)和知識(shí)重組的數(shù)字化信息的過(guò)程。

    文章圖片2


    2 什么樣的古籍適合數(shù)字化?

    我國(guó)現(xiàn)存古籍約有近20萬(wàn)種,對(duì)它們?nèi)窟M(jìn)行數(shù)字化似不大可能也沒(méi)有必要。這實(shí)際上就面臨一個(gè)選題的問(wèn)題。古籍?dāng)?shù)字化對(duì)象的選擇必須遵循現(xiàn)實(shí)性和實(shí)用性的基本原則,如前所述,古籍?dāng)?shù)字化的現(xiàn)實(shí)目標(biāo)是為普及文化和科研服務(wù),但當(dāng)前最緊迫的任務(wù)還是為人文社會(huì)科學(xué)研究服務(wù),具體來(lái)講就是要解決文史資料查找費(fèi)時(shí)費(fèi)力的老大難問(wèn)題。中國(guó)古籍汗牛充棟,經(jīng)過(guò)系統(tǒng)整理的畢竟不多,方便的檢索工具,如引得、通檢、索引、匯編等也很有限,難怪以清代三百年間第一流人才的心思精力研究經(jīng)學(xué),卻只取得了一點(diǎn)點(diǎn)的成果,兩千四百多卷的《清經(jīng)解》,大多是一堆流水爛賬,沒(méi)有條理,沒(méi)有系統(tǒng),人人從“粵若稽古”、“關(guān)關(guān)雎鳩”說(shuō)起,怪不得學(xué)者看了要望洋興嘆。[7]而且,一般的人工檢索工具所能揭示的信息含量相比浩如煙海的古籍資源來(lái)講,可謂滄海之一粟,也不便于人們進(jìn)行全面研究。從滿足人們對(duì)古籍信息資源需要的角度來(lái)看,大型的叢集匯要搜羅宏富,傳統(tǒng)文化的經(jīng)典基本包羅在里面,是最適合的檢索對(duì)象,但人工查檢往往是費(fèi)力不討好。現(xiàn)在由于古籍?dāng)?shù)字化實(shí)現(xiàn)了語(yǔ)義關(guān)聯(lián)的全文檢索功能,檢索不再是問(wèn)題,那么這些大型工具書應(yīng)成為古籍?dāng)?shù)字化的首選。叢書如《四庫(kù)全書》《四部叢刊》《四部備要》《二十五史》《十三經(jīng)注疏》《諸子集成》《歷代史料筆記叢刊》等;類書如《藝文類聚》《玉海》《永樂(lè)大典》《太平御覽》《冊(cè)府元龜》《古今圖書集成》等;總集如《先秦漢魏晉南北朝詩(shī)》《全上古三代秦漢三國(guó)六朝文》《文苑英華》《兩漢全書》《全唐詩(shī)》《全唐文》《全唐五代詩(shī)》《全唐五代詞》《全宋詩(shī)》《全宋詞》《全宋文》《全遼文》《金文最》《全金元詞》《元詩(shī)選》《全元文》《全元戲曲》《全明詩(shī)》《全明詞》《全明文》《全清詞》《清文海》等,還有歷代別集,歷代會(huì)要會(huì)典等。這些古籍的數(shù)字化足以滿足一般文化普及和學(xué)術(shù)研究的需要。

    但有的特種古籍,如金石拓片文獻(xiàn)、竹簡(jiǎn)帛書文獻(xiàn)、敦煌文獻(xiàn)、珍稀善本、佛教典籍、方志文獻(xiàn)、諜譜輿圖等,對(duì)于某一類專門學(xué)術(shù)研究具有特別重要的意義,而其紙質(zhì)文獻(xiàn)又不易為一般學(xué)者所得,因而對(duì)它們進(jìn)行數(shù)字化也是非常有必要的,也有利于發(fā)揮數(shù)字化載體易復(fù)制和傳播的優(yōu)點(diǎn),在選題時(shí)應(yīng)充分考慮。比如對(duì)青銅器進(jìn)行整理而成的《兩周金文辭大系圖錄考釋》,集海內(nèi)外甲骨收集之大成的《甲骨文合集》,還有囊括4100余種23000卷佛教經(jīng)典的《中華大藏經(jīng)》,以及屬于搶救性質(zhì)的古籍整理成果如《永樂(lè)大典》《俄藏敦煌文獻(xiàn)》《法藏敦煌西域文獻(xiàn)》《敦煌文獻(xiàn)合集》《吐魯番出土文書》等,諸如此類的古籍文獻(xiàn)都應(yīng)優(yōu)先納入數(shù)字化的范圍。這不僅是處于保護(hù)和弘揚(yáng)文化的需要,也是學(xué)術(shù)研究之必需。

    以上是從文化普及和一般學(xué)術(shù)研究的需要、專門學(xué)術(shù)研究的需要這兩個(gè)層次來(lái)闡述古籍?dāng)?shù)字化對(duì)象的選擇的。另外,應(yīng)首先選擇那些經(jīng)過(guò)系統(tǒng)整理的古籍進(jìn)行數(shù)字化,這也是古籍?dāng)?shù)字化應(yīng)遵循的一個(gè)原則。我國(guó)現(xiàn)有古籍十幾萬(wàn)種,經(jīng)過(guò)系統(tǒng)整理的已達(dá)1萬(wàn)多種。前人古籍整理的豐富成果應(yīng)充分地加以利用。但需要指出的是,這只是就一般規(guī)律而言,在實(shí)踐過(guò)程中,應(yīng)具體問(wèn)題具體分析,如前文所言,不應(yīng)將古籍整理和古籍?dāng)?shù)字化對(duì)立起來(lái)。

    文章圖片3


    3 由誰(shuí)來(lái)完成古籍?dāng)?shù)字化?

    當(dāng)前,除了古籍愛(ài)好者和研究者進(jìn)行的零星古籍?dāng)?shù)字化工作外,成規(guī)模的數(shù)字化工作基本上由三類機(jī)構(gòu)來(lái)完成的。一是教學(xué)和研究機(jī)構(gòu),如中國(guó)社會(huì)科學(xué)院的數(shù)字化項(xiàng)目《全唐詩(shī)》《全唐文》《十三經(jīng)》《諸子集成》等,武漢大學(xué)的電子版《四庫(kù)全書》,深圳大學(xué)的電子版《紅樓夢(mèng)》,香港中文大學(xué)中國(guó)文化研究所先后推出的先秦兩漢、魏晉南北朝古籍?dāng)?shù)據(jù)庫(kù)及竹簡(jiǎn)帛書和甲骨文數(shù)據(jù)庫(kù),臺(tái)灣地區(qū)“中央研究院”的《漢籍電子文獻(xiàn)》系列等,都屬此類。這類機(jī)構(gòu)的數(shù)字化對(duì)象選擇性比較強(qiáng),主要是根據(jù)教學(xué)和研究工作的實(shí)際需要來(lái)決定選題的;二是圖書館等公益性機(jī)構(gòu),如國(guó)家圖書館的古籍特藏文獻(xiàn)數(shù)字化計(jì)劃、上海圖書館的善本數(shù)字化項(xiàng)目、北京大學(xué)圖書館《中國(guó)基本古籍光盤庫(kù)》項(xiàng)目等就屬此類,這類機(jī)構(gòu)古籍?dāng)?shù)字化主要是根據(jù)其館藏特色來(lái)進(jìn)行;三是商業(yè)性機(jī)構(gòu),如超星數(shù)字圖書館進(jìn)行的古籍?dāng)?shù)字化項(xiàng)目、書同文數(shù)字化技術(shù)有限公司推出的電子版《四庫(kù)全書》《四部叢刊》,國(guó)學(xué)公司推出的數(shù)字化《國(guó)學(xué)寶典》,迪志文化出版有限公司與上海人民出版社推出的文淵閣《四庫(kù)全書》電子版等,均屬此類。商業(yè)機(jī)構(gòu)的古籍?dāng)?shù)字化項(xiàng)目的選擇主要是根據(jù)市場(chǎng)來(lái)決定的,哪一類文獻(xiàn)有市場(chǎng),就進(jìn)行哪一類文獻(xiàn)的數(shù)字化。考慮到市場(chǎng)的運(yùn)作,常常會(huì)選擇大型類書、叢書如《古今圖書集成》《四庫(kù)全書》《四部叢刊》等等。

    文章圖片4
    不同類型的機(jī)構(gòu)根據(jù)自己的條件進(jìn)行各有特色的古籍?dāng)?shù)字化項(xiàng)目當(dāng)然是很有必要的,但任由它們自由選題和發(fā)展也勢(shì)必造成選題過(guò)于集中、內(nèi)容重復(fù)、資源浪費(fèi)的問(wèn)題,而對(duì)學(xué)術(shù)界很需要的一些古籍進(jìn)行數(shù)字化卻少有人關(guān)注。中國(guó)古籍的數(shù)字化是一項(xiàng)中華文化遺產(chǎn)的保護(hù)和弘揚(yáng)工作,具有強(qiáng)烈的公益性色彩,需要各方面加強(qiáng)協(xié)調(diào),有一個(gè)整體的規(guī)劃。整體規(guī)劃不僅包括數(shù)字化對(duì)象的內(nèi)容確定和合作分工,同時(shí)包括相關(guān)標(biāo)準(zhǔn)、規(guī)范的統(tǒng)一,而這兩方面的問(wèn)題在目前古籍?dāng)?shù)字化工作中表現(xiàn)尤為突出。這就需要有一個(gè)整體規(guī)劃和協(xié)調(diào)的機(jī)構(gòu),它應(yīng)類似行業(yè)協(xié)會(huì)性質(zhì)的機(jī)關(guān),通過(guò)指定行業(yè)標(biāo)準(zhǔn)、行業(yè)規(guī)范和定期發(fā)布一些古籍?dāng)?shù)字化選題規(guī)劃和產(chǎn)品信息,來(lái)對(duì)各部分和機(jī)構(gòu)進(jìn)行協(xié)調(diào)和指導(dǎo)。

    對(duì)于實(shí)施古籍?dāng)?shù)字化項(xiàng)目的具體部門來(lái)說(shuō),也存在一個(gè)是以內(nèi)容專家還是以技術(shù)專家為主導(dǎo)的問(wèn)題。我們既然已經(jīng)明確了古籍?dāng)?shù)字化屬于古籍整理和學(xué)術(shù)研究的范疇,而不僅僅是圖書載體的轉(zhuǎn)換或商業(yè)炒作的噱頭,因而在組織隊(duì)伍和進(jìn)行項(xiàng)目規(guī)劃時(shí),必須以所選課題領(lǐng)域內(nèi)的學(xué)者專家為主導(dǎo),而不是以技術(shù)專家為主導(dǎo)。內(nèi)容是古籍?dāng)?shù)字化的核心,技術(shù)作為形式和手段永遠(yuǎn)只能為內(nèi)容服務(wù)。內(nèi)容專家和技術(shù)專家的關(guān)系應(yīng)該如同建筑工程師與建筑工人,這樣才能形成人力資源的最佳配置,有效地發(fā)揮各自的功能。比如臺(tái)灣地區(qū)“中央研究院”的系列電子化項(xiàng)目、元智大學(xué)的“網(wǎng)路展書讀”、漢文化聯(lián)盟的《漢文化資料庫(kù)》采取的都是專業(yè)研究專家與技術(shù)人員、圖書館三方合作,并以專業(yè)學(xué)者為主導(dǎo)的方式,使得開發(fā)的項(xiàng)目與專業(yè)研究者的實(shí)際需求相切合。這種合作方式很值得內(nèi)陸借鑒。

    文章圖片5


    4 如何實(shí)現(xiàn)古籍?dāng)?shù)字化?

    古籍?dāng)?shù)字化的方法和步驟是由古籍?dāng)?shù)字化的本質(zhì)和目標(biāo)所決定的。

    第一,古籍?dāng)?shù)字化屬于古籍整理的范疇,因而首先要解決版本的選擇問(wèn)題,這也是傳統(tǒng)的古籍整理首先要遇到的問(wèn)題。就時(shí)下而言,人們?cè)趯?duì)古籍進(jìn)行數(shù)字化時(shí),往往選擇那些容易獲取的文獻(xiàn),而不是根據(jù)版本的優(yōu)劣來(lái)進(jìn)行選擇,這勢(shì)必會(huì)嚴(yán)重影響古籍?dāng)?shù)字化的質(zhì)量。因而很有必要請(qǐng)專家對(duì)版本進(jìn)行鑒定和篩選,盡可能選用善本來(lái)數(shù)字化。然而所謂善本也是相對(duì)的,不同版本之間的異同也是互有優(yōu)劣,各有長(zhǎng)短,因而除了對(duì)不同版本進(jìn)行比較、校勘外,也要盡可能提供其他未被選用的版本信息,以供研究者參考。這樣,古籍?dāng)?shù)字化就需要遵從“文獻(xiàn)整理”原則和“文獻(xiàn)保真”兩個(gè)基本原則。所謂文獻(xiàn)整理原則就是在廣羅異本,擇善而從的基礎(chǔ)上,對(duì)文獻(xiàn)的文本內(nèi)容進(jìn)行校勘整理,提供給讀者精良的版本內(nèi)容。所謂保真原則,就是要盡可能地保留文獻(xiàn)整理過(guò)程中所利用的各版本的內(nèi)容和形式方面的信息。就內(nèi)容方面,在提供整理過(guò)的文本內(nèi)容的同時(shí),還需要保留前人留下的校勘記、批注等內(nèi)容,為讀者提供其他版本異同的內(nèi)容,了解版本整理的經(jīng)過(guò)。就形式方面,應(yīng)將各版本的版本信息,諸如版本類型、版刻年代、刻工姓名、牌記、卷端、行款、字體、墨色等通過(guò)技術(shù)手段加以保留。

    文章圖片6
    第二,古籍?dāng)?shù)字化不單是復(fù)制和再現(xiàn)典籍的原貌,而是將現(xiàn)代工具與傳統(tǒng)內(nèi)容完美結(jié)合在一起,形成工具與內(nèi)容的統(tǒng)一體。從這個(gè)意義上講,數(shù)字化的古籍應(yīng)該是一個(gè)增值了的信息庫(kù),是人文社會(huì)科學(xué)研究的有效工具。全文檢索是古籍?dāng)?shù)字化最早受到重視的技術(shù),簡(jiǎn)單的全文匹配檢索在幾乎所有的文本編輯和對(duì)象數(shù)據(jù)庫(kù)中都能實(shí)現(xiàn),但“噪音”也過(guò)大,這就要求古籍?dāng)?shù)字化必須深入文獻(xiàn)內(nèi)部的知識(shí)單元,通過(guò)古籍文本內(nèi)容的深入揭示和關(guān)聯(lián)重組,達(dá)到知識(shí)發(fā)現(xiàn)的目的。為此,對(duì)古籍的內(nèi)容進(jìn)行深度標(biāo)引就非常有必要,在實(shí)際標(biāo)引過(guò)程中不應(yīng)放過(guò)任何含有學(xué)術(shù)信息的關(guān)鍵詞,比如文獻(xiàn)中的人名、官階、地名、年號(hào)、典故、制度、族屬、語(yǔ)詞、范疇和其他專名等都應(yīng)制成索引,力求做到從任何角度都能檢索到讀者所需要的信息。對(duì)于存在的同書異名、同名異書、同一作者的不同稱謂等問(wèn)題,可借鑒傳統(tǒng)文獻(xiàn)整序時(shí)采用的“名稱及主題規(guī)范檔”、“權(quán)威檔”(Authority)等方法對(duì)關(guān)鍵詞進(jìn)行規(guī)范控制。在現(xiàn)階段,可優(yōu)先將已有的紙質(zhì)檢索工具(如《十三經(jīng)索引》《二十四史人名索引》等)轉(zhuǎn)換成數(shù)據(jù)庫(kù),以解當(dāng)務(wù)之急。但古籍?dāng)?shù)字化與現(xiàn)代的文獻(xiàn)編目不同,它不是對(duì)文獻(xiàn)的某些特征進(jìn)行抽象性的描述,而是對(duì)文獻(xiàn)的內(nèi)容進(jìn)行數(shù)字化處理,其中涉及的問(wèn)題往往非常復(fù)雜,需要聯(lián)系上下文的語(yǔ)義環(huán)境,這就需要為讀者提供了解文中內(nèi)容背景的知識(shí)支持系統(tǒng),如年號(hào)與公元紀(jì)年對(duì)照表、歷代官階序列表、家族世系表、姻親關(guān)系表、地名沿革表、人名字號(hào)表等。為此,北京大學(xué)李國(guó)新教授特別強(qiáng)調(diào)古籍?dāng)?shù)字化成果應(yīng)具備研究支持功能,具體來(lái)說(shuō),“是指能夠提有關(guān)古籍內(nèi)容本身科學(xué)、準(zhǔn)確的統(tǒng)計(jì)與計(jì)量信息,提供與古籍內(nèi)容相關(guān)的參考數(shù)據(jù)、輔助工具。這些信息、數(shù)據(jù)或工具都是古籍內(nèi)容的增值或補(bǔ)充。比如古籍字?jǐn)?shù)、字頻、詞頻的統(tǒng)計(jì)資料,異體字的匯聚顯示,讀音的自動(dòng)標(biāo)注和朗讀,行文風(fēng)格特點(diǎn)的概率統(tǒng)計(jì),必要的背景知識(shí)、參考數(shù)據(jù)的匯聚,在線標(biāo)點(diǎn)斷句工具的配備,不同版本比勘校對(duì)接口的設(shè)置,字典詞典、歷史年表、歷史地圖等研究工具的載入,等等。有了這些研究支持功能,不僅可以極大地改善研究者的研究條件,而且還會(huì)帶來(lái)研究思路、研究方法的變革。”[8]近年來(lái)不少古籍?dāng)?shù)字化項(xiàng)目已將注意力逐漸集中到了李國(guó)新教授所提到的這些方面,在進(jìn)行數(shù)字化時(shí)比較注意相關(guān)工具的開發(fā)。

    第三,在界面設(shè)計(jì)及檢索結(jié)果的輸出時(shí)必須考慮古籍文獻(xiàn)閱讀和使用的特點(diǎn)。數(shù)字化古籍的首要功能還是提供讀者閱讀的,因此沒(méi)有瀏覽界面,數(shù)字化古籍就會(huì)成為一堆支離破碎的詞匯或段落,無(wú)法閱讀。一個(gè)好的瀏覽頁(yè)面應(yīng)該可以在全文閱讀、原文圖像、檢索結(jié)果及相關(guān)知識(shí)支持系統(tǒng)之間自由切換。特別是原文圖像與全文閱讀的精確對(duì)應(yīng),可在兩者之間建立起直接的校勘關(guān)系,可以解決全文閱讀時(shí)的部分文字錯(cuò)誤。特別是對(duì)古今字、異體字、避諱字等的關(guān)聯(lián)檢索沒(méi)有達(dá)到完善匹配的時(shí)候,原文圖像在補(bǔ)字和校正錯(cuò)字方面的作用尤其明顯。瀏覽界面可以采取目錄、正文和注釋的分級(jí)顯示,讀者通過(guò)目錄樹就可以直接跳躍到需要閱讀的正文部分。對(duì)于讀者可能遇到的陌生的關(guān)鍵詞,以及讀者閱讀文獻(xiàn)時(shí)想可能想?yún)⒖嫉奈墨I(xiàn),可以通過(guò)超文本鏈接的方式來(lái)揭示文獻(xiàn)或關(guān)鍵詞的意義及內(nèi)在的關(guān)聯(lián)關(guān)系。甚至可以通過(guò)預(yù)設(shè)的超文本鏈接,將古籍篇章中的基本問(wèn)題與歷代的研究成果聯(lián)系起來(lái),達(dá)到聚集相關(guān)知識(shí)的目的,方便讀者使用。查詢界面的設(shè)計(jì)要與關(guān)鍵詞數(shù)據(jù)庫(kù)相配合,其檢索結(jié)果以HTML文檔的形式顯示于瀏覽器上,建立檢索結(jié)果到所出文獻(xiàn)的超文本鏈接,讀者可由此跳轉(zhuǎn)至原文獻(xiàn),以實(shí)現(xiàn)指向文獻(xiàn)內(nèi)部意義的知識(shí)發(fā)現(xiàn)。無(wú)論是瀏覽界面,還是查詢界面,都必須具備人性化特征,符合讀者的檢索習(xí)慣,并輔以必要實(shí)用的使用說(shuō)明(幫助),不給讀者增加學(xué)習(xí)負(fù)擔(dān)。

    第四,古籍?dāng)?shù)字化一定要注意標(biāo)準(zhǔn)化問(wèn)題。當(dāng)前數(shù)字化古籍的文件格式可謂五花八門,種類繁多。除了常見(jiàn)的txt、doc、html格式外,還有exe、pdf、wdl、ebk、edb、oeb、sep、ifr、xeb、pdg、nlc格式,以及基于unicode、倉(cāng)頡碼、Big5碼或其他字符集,以html、xml、sgml等為核心的全方位電子文獻(xiàn)全文檢索格式。這些不同格式的文件,往往需要各自專門的閱讀器才能進(jìn)行瀏覽,相互之間難以兼容,給讀者造成了不少麻煩。而且,由于許多圖書采用了圖片格式,也給使用者提取資料帶來(lái)了許多困難。當(dāng)然,處于版權(quán)保護(hù)的考慮對(duì)其進(jìn)行限定使用在一定范圍內(nèi)是合理的,但因相關(guān)技術(shù)的開發(fā)不同步,使大量寶貴的圖書資源沒(méi)有得到很好的利用。

    另外,古籍?dāng)?shù)字化必須同當(dāng)前發(fā)展迅速的網(wǎng)絡(luò)通訊結(jié)合起來(lái)。這主要是基于信息資源共享的考慮。一方面,可以發(fā)揮網(wǎng)絡(luò)傳輸迅捷、異地使用的特點(diǎn),供全民共享,使其資源社會(huì)效益最大化;另一方面,也可為古籍?dāng)?shù)字化選題提供快捷的參考信息,避免選題過(guò)于集中和重復(fù)。

    參考文獻(xiàn)

    [1] 史睿.試論中國(guó)古籍?dāng)?shù)字化與人文學(xué)術(shù)研究.國(guó)家圖書館學(xué)刊,1999(2).

    [2] 厲莉.古籍?dāng)?shù)字化的現(xiàn)狀與對(duì)策.江西圖書館學(xué)刊,2002(1).

    [3] 張雪梅.古籍?dāng)?shù)字化與文獻(xiàn)信息資源共享.天津工業(yè)大學(xué)學(xué)報(bào),2002(3).

    [4] 陳陽(yáng).古籍?dāng)?shù)字化發(fā)展?fàn)顩r概述.電子出版,2003(8).

    [5](英)斯諾著;紀(jì)樹立譯.兩種文化.北京:生活·讀書·新知三聯(lián)書店,1994.

    [6] 朱巖.古籍?dāng)?shù)字化實(shí)踐.
    http://www./newpage/wjls/html/8mulu.htm.

    [7] 史睿.試論中國(guó)古籍?dāng)?shù)字化與人文學(xué)術(shù)研究.國(guó)家圖書館學(xué)刊,1999(2).

    [8] 李國(guó)新.中國(guó)古籍資源數(shù)字化的進(jìn)展與任務(wù).大學(xué)圖書館學(xué)報(bào),2002(1).

    原文發(fā)表于《圖書館論壇》2005年第5期


    作者簡(jiǎn)介

    李明杰,1971年生,江西豐城人,現(xiàn)為武漢大學(xué)信息管理學(xué)院教授、博士生導(dǎo)師。主要研究領(lǐng)域:文獻(xiàn)學(xué)與中國(guó)圖書文化史。主要著作有《宋代版本學(xué)研究》(齊魯書社2006年)、《中國(guó)出版史·古代卷》(湖南大學(xué)出版社2008年)、《中國(guó)古代圖書著作權(quán)研究》(社會(huì)科學(xué)文獻(xiàn)出版社2013年)、《簡(jiǎn)明古籍整理教程》(武漢大學(xué)出版社2018年)、《暮雨弦歌:西德尼·D·甘博鏡頭下的民國(guó)教育(1917-1932)》(武漢大學(xué)出版社2019年),發(fā)表學(xué)術(shù)論文70余篇。

      本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶 評(píng)論公約

      類似文章 更多

      主站蜘蛛池模板: 欧美自拍另类欧美综合图片区| 欧美成人VA免费大片视频| 99RE8这里有精品热视频| 精品无人乱码一区二区三区| 国产在线精品无码二区二区| 国产成人AV国语在线观看| 国内精品久久久久久久小说| 亚洲AVAV天堂AV在线网阿V| 亚洲熟妇自偷自拍另欧美| 深夜福利资源在线观看| 在线中文字幕有码中文| 亚洲国产美女精品久久久| 久9视频这里只有精品试看| 亚洲色成人一区二区三区人人澡人人妻人人爽人人蜜桃麻豆 | 国产一区二区波多野结衣| 天下第二社区在线视频| 中文人妻av高清一区二区| 人妻丝袜中文无码AV影音先锋专区| 性欧美vr高清极品| 中文字幕亚洲一区二区三区| 亚洲香蕉网久久综合影视| 亚洲AV中文无码乱人伦在线咪咕 | 久久国产福利播放| 一区二区三区国产不卡| 狠狠色狠狠色综合网| 日韩V欧美V中文在线| 国产卡一卡二卡三无线乱码新区 | 波多野结衣乳巨码无在线观看| 好吊妞人成视频在线观看| 国产仑乱无码内谢| 内射口爆少妇麻豆| 久久亚洲2019中文字幕| 亚洲一区二区精品另类| 色综合AV综合无码综合网站| 无码人妻丝袜在线视频红杏| 亚洲国产精品一区二区第一页| 久久人搡人人玩人妻精品首页 | 丰满少妇被猛烈进入高清播放 | 免费人成视频在线观看网站| 美女爽到高潮嗷嗷嗷叫免费网站| 男女扒开双腿猛进入爽爽免费看|