中文域名及中文繁簡問題研究
中文域名及中文繁簡問題研究
計算機網(wǎng)絡(luò)資源名稱是用來表示網(wǎng)絡(luò)資源的,而采用中文字符來表示計算機網(wǎng)絡(luò)資源,涉及到中文用戶的認(rèn)知問題和使用習(xí)慣問題,中文字符的繁簡等效是其中的重要問題之一。當(dāng)然中文字符繁簡等效只是異體等效問題中的一種,但是卻是最為重要的一種,因為異體等效中大部分都是簡繁體的等效。中文域名異體等效是中文域名系統(tǒng)設(shè)計中最為核心和關(guān)鍵的也是最難解決的需求。我們知道英文字母也具有大小寫的區(qū)別,在Unix文件系統(tǒng)中,大小寫通常是敏感的(case sensitive),而在DNS系統(tǒng)中大小寫是不敏感的(case insensitive),即大小寫等價,而且在IDN系統(tǒng)標(biāo)準(zhǔn)中已經(jīng)規(guī)定直接將大寫字符映射成為小寫字母,直接按照Unicode標(biāo)準(zhǔn)做Case Folding。英文字母只有26個,而且大小寫的關(guān)系是一一對應(yīng)的關(guān)系,無論是直接做映射還是做其他類型的等效處理都是比較容易實現(xiàn)的,然而中文異體字符的等效問題則比英文大小寫問題復(fù)雜多了。首先,僅Unicode基本平面I-Zone包括的中文字符已經(jīng)超過兩萬個,在Extension A中還有數(shù)萬字,根據(jù)簡化字總表,其中僅具有簡繁體異體關(guān)系的中文字符超過了2300多組,還不包括其他未收錄的簡繁體和異體關(guān)系。再者,而且也是最為重要的,他們之間的異體關(guān)系不僅是一一對應(yīng)的關(guān)系,還有一對多,一代多和多對多的關(guān)系,十分復(fù)雜,即使采用人工智能的方式,簡繁體轉(zhuǎn)換的結(jié)果也不能保證百分白的正確,因此在DNS系統(tǒng)中試圖模仿英文大小寫的解決方案來解決中文字符的異體等效問題是不現(xiàn)實的。現(xiàn)行國際標(biāo)準(zhǔn)的DNS系統(tǒng)是基于ASCII編碼的,對于英文世界的人來講是足夠了。但是,世界上多數(shù)用戶使用的編碼都不是僅僅局限于七位ASCII編碼,隨磐縭褂玫鈉占,作为网驴r瀾縟肟詰撓蠣哺緄鈉占按戳瞬煥姆矯媯桓齜矯媸怯⑽牟灰子詡且,另噎h(huán)矯嬗⑽牟荒莧非斜曄隊滌姓咚胍暮。这样,記]惹邢M梢雜帽竟镅岳幢曄隊蠣。但薁楷記]Р荒莧我庋≡褡約合胍謀嗦,因为蕿懣c霞負(fù)躒魏我恢殖S糜镅遠(yuǎn)加興約旱謀鏡乇嗦,那样就不能保证DNS名字空間的一致性,因此IETF國際化域名工作組選定的編碼標(biāo)準(zhǔn)是Unicode。Unicode幾乎包含了當(dāng)前世界上所有的字符,它不區(qū)分國家本地編碼,僅以字形來區(qū)分,比如中日韓越等國共同使用著漢字,Unicode收錄了所有的字體形式,然后進行編碼,通稱為CJKV。然而由于選擇了Unicode,無法區(qū)分各國文字,但是我們知道,將國際化的文字引入DNS,意味著將文字本身的特點也同時引入DNS體系,而Unicode CJK碼位統(tǒng)一導(dǎo)致了中文本身特性的,從而引起了一些處理上的問題。比如,對于國際化域名的子集——中文域名而言,處理中文域名的繁簡等效變得非常困難。從語言學(xué)的角度來講,中文并不區(qū)分人群和地域,但是其書寫方式確并不統(tǒng)一,比如中國大陸和新加坡采用簡體中文書寫方式,而港澳臺以及大多數(shù)海外華人則使用繁體中文書寫方式。那么首先什么是簡體中文和繁體中文呢?通常我們說的簡體中文是指滿足以下三個條件:字形采用簡體字型書寫,無繁簡差別的除外;字符集通常使用國標(biāo)碼字符集,或其擴充版本,國家標(biāo)準(zhǔn)擴展碼(GBK)等由中國大陸政府正式頒發(fā)的字符集;詞語用法通常為中國大陸的用法。繁體中文是指滿足以下三個條件:字形采用繁體形式書寫,即使具有常用簡體形式,而官方用法仍然保持繁體書寫;字符集通常使用BIG5編碼,以及臺灣官方發(fā)布的CNS14649,而詞語的用法通常采用臺灣、香港或者澳門的用法。語言是交流的工具。如果語言是統(tǒng)一的語言,而書寫方式是兩種書寫方式,那么必然存在著同一語言中不同書寫方式的轉(zhuǎn)換或者對應(yīng)的問題,這是簡繁體等效問題的來源。多數(shù)情況下,人們把這個問題稱為簡繁體轉(zhuǎn)換而不是簡繁體等效,但是事實上很多情況下由于一些策略或者技術(shù)上的原因,是不可以直接做轉(zhuǎn)換處理的,這個問題更多的是指如何處理其中的等效關(guān)系,而不是將一方轉(zhuǎn)換到另一方,某種意義上講,轉(zhuǎn)換意味著一種書寫方式的消失,因此,這種說法是不確切的,本文采用簡繁體等效這種概念,F(xiàn)在處理繁簡轉(zhuǎn)換的工具比較多,已有的研究也比較多,但是這些研究以及設(shè)計的工具進行的多數(shù)是不同字符集之間的轉(zhuǎn)換。因為最初大陸廣泛使用的是GB2312編碼字符集,主要收錄了簡體漢字,共計6763個;港澳臺使用的是BIG5字符集,主要收錄了繁體漢字,共計13068個,多數(shù)中文繁簡轉(zhuǎn)換的處理主要是做不同字符集之間的轉(zhuǎn)換,而不是做不同繁簡字型之間的轉(zhuǎn)換或者等效處理。但是,事實上中文的簡繁體等效或者異體等效問題遠(yuǎn)遠(yuǎn)不是不同字符集之間轉(zhuǎn)換那么簡單,而且也不是同一個概念。比如現(xiàn)有中國大陸推行的GB18030標(biāo)準(zhǔn),收錄了所有簡繁體中文字符,基于這個字符集再去做字符集之間的轉(zhuǎn)換將會是十分復(fù)雜的也是沒有意義的。中文是象形文字,用圖形來表示語言的含義,雖然這極大的豐富了中文的使用,但是這也注定讓中文具有數(shù)以萬計的字符,而其中的絕大部分都是常人所不識的。中文字符在它幾千年的歷史中經(jīng)歷了許多變遷。很多書法風(fēng)格,異體字,和字體設(shè)計以及由于印刷和書寫習(xí)慣的問題都導(dǎo)致了它的逐步演變。有些完整的以及常用的字體形式被作為常用字或者正體字,而這些正體字還具有多種多樣的異體形式,并且這種異體形式之間的關(guān)系十分復(fù)雜,而最典型的是簡繁體等效的問題。所以,我們說事實上中文簡繁體的等效處理不在于字符集的不同,而更多是在于字型書寫方式,詞匯的選擇,甚至語義上的差別。中文域名系統(tǒng)關(guān)注的也是努力解決的是有關(guān)簡繁體書寫方式的等效問題。Unicode/ISO10646一定程度上解決了不同碼制間同字型的簡繁體等效問題,CJKV占用同段碼位,并進行同字型同編碼,在一定程度上統(tǒng)一了很多字的編碼,也為那些在不同本地編碼方式中沒有碼位的字留出了碼位。但是Unicode并沒有解決絕大多數(shù)的簡繁體等效問題,即不同簡繁體字型的等效問題。而這一部分恰恰是中文簡繁體等效的重點和難點。根據(jù)中文繁簡轉(zhuǎn)換的陷阱一文中的論述,中文字符不同字型間簡繁體等效具有四個層次:級是碼點等效。因為每個字都對應(yīng)一個Unicode碼點,碼點之間的等效是不考慮上下文的關(guān)系,直接用另外一個碼點和要對應(yīng)的碼點建立等效轉(zhuǎn)換關(guān)系。這種轉(zhuǎn)換對于“國”和“國”的這類關(guān)系的轉(zhuǎn)換是可以的,因為他們是一對一的,在任何“國”出現(xiàn)的地方都可以直接用“國”來替換而不會引起任何意義上的變化;但是對于“發(fā)”字不一樣了,當(dāng)是“頭發(fā)”的時候,它的繁體形式是“頭髮”,“發(fā)”對應(yīng)于“髮”;而當(dāng)是“發(fā)展”的時候,它的繁體形式是“發(fā)展”,“發(fā)”對應(yīng)于“發(fā)”,這個例子是一簡對多繁,大概有四百對這種一對多的方式,多半是基于語義的轉(zhuǎn)換。而一繁對多簡的情況也有近80組,而常見的有11組。比如繁體“著”對應(yīng)于簡體的“著”和“著”,當(dāng)是“著作”的含義是對應(yīng)于“著”本身,而當(dāng)是“著火”的時候?qū)?yīng)是“著”了,這是最為常見的一組。目前基于碼點直接轉(zhuǎn)換的方法有三種:種是直接替代法,最簡單,耗費資源也最少,但是也最不準(zhǔn)確;第二種是基于詞頻的方式,統(tǒng)計詞頻中字的用度,用度高則首先采用,但也不準(zhǔn)確;第三種是基于詞頻和候選方式,所有候選字按詞頻統(tǒng)計用度,用度的排在位,其他也提示用戶以便選擇,這樣正確率。第二級是基于詞義的等效。通常采用的方法是首先對要轉(zhuǎn)換的文字進行切詞,然后以詞為單位查找確定應(yīng)該采用哪個對應(yīng)的碼點來替換被轉(zhuǎn)碼點。還以“發(fā)”字為例,如果發(fā)現(xiàn)和“頭”字相連,那么對應(yīng)“髮”,如果和“展”字相連,那么對應(yīng)““發(fā)”。這種方法轉(zhuǎn)換正確與否,決定于切詞的正確性,比如“二鍋頭發(fā)展有限公司”,那么如果將“二鍋頭”切詞在一起那么轉(zhuǎn)換結(jié)果是對的,但是如果將“二鍋”切在一起,而將“頭發(fā)展”切在一起,那么轉(zhuǎn)換結(jié)果是錯的。切詞方式的轉(zhuǎn)換是不能保證的,除非切詞工具建立了詞庫“二鍋頭”,否則極有可能的是將“頭”和“發(fā)”切在一起,因此導(dǎo)致錯誤。第三級是基于上下文語義的等效。因為大陸和港澳臺使用詞語的習(xí)慣不同,雖然詞語指稱相同,但是表達(dá)方式卻不同,比如英文CD-ROM對應(yīng)的中文在大陸稱為“光盤”而在臺灣則稱為“光碟”,這種繁簡轉(zhuǎn)換實際上是繁簡詞語的對應(yīng)轉(zhuǎn)換,這種轉(zhuǎn)換也需要切詞的準(zhǔn)確性以及對繁簡地區(qū)用詞習(xí)慣的詞語收集程度。這種轉(zhuǎn)換類似于英文中美式英語“color”和英式英語“colour”的區(qū)別。第四級是基于語境的等效。比如“文件”這個詞在簡繁體里都是存在的,但是當(dāng)作普通文件的時候,繁簡都是“文件”但是如果當(dāng)作計算機系統(tǒng)中的“文件”之后,簡體計算機“文件”會對應(yīng)到繁體計算機“檔案”。是說詞語在基于不同上下文語境的時候,其對應(yīng)的詞語也是不一樣的。在簡化字總表中定義的00多組簡繁體對照涉及到的幾乎都是常用字,因為不常用也通常不會考慮簡化它,簡化的目的是為了簡化使用以便書寫方便。這些簡體字幾乎占了人們?nèi)粘J褂弥形淖址囊话胍陨,因為國家頒發(fā)的現(xiàn)代漢語常用字表也只有3500字。而00多個簡體字中,有一百多組是非一一對應(yīng)的,這也恰是簡繁體等效的難點所在,而根據(jù)作者制作對照表的經(jīng)驗,這個問題十分嚴(yán)重。常用的簡體詞中有大約%有一對多的情況,而我們統(tǒng)計現(xiàn)有中文域名注冊系統(tǒng)中,有接近90%具有簡繁體等效的問題。隨著中文應(yīng)用的普及,比如中文域名的開發(fā)和中文上網(wǎng)方式的開發(fā)都加劇了對中文異體等效特別是簡繁體等效的問題的研究,但是目前已有的簡繁體等效的技術(shù)方案多存在一些問題,并不能滿足中文簡繁體等效的處理需求。比如,由于理論研究水平的限制,現(xiàn)存的研究不能保證轉(zhuǎn)換結(jié)果的正確性,即使采用人工智能的方式,也只是盡可能提高轉(zhuǎn)換結(jié)果的正確性,比如95%以上,而不能到。已有方案多半是采用切詞查表的方式來完成轉(zhuǎn)換,但是如果切詞存在錯誤,那么查表的結(jié)果必然不會正確。國家已經(jīng)啟動了中文信息處理詞典的計劃,大概會收錄兩千多萬的詞語,以便為信息處理使用,但是在此出臺前,沒有很好的權(quán)威詞庫供信息處理使用。如果采用人工進行轉(zhuǎn)換,雖然正確率會提高,但是其代價也會增高。那么如何分散這種人工的代價是中文域名的考慮問題,中文域名簡繁體等效的實現(xiàn)方案是將繁簡轉(zhuǎn)換的工作推給用戶,由于域名的注冊是分散的而且是由注冊用戶本身進行操作的,因此減少了代價也增加了正確性。CNNIC對中文繁簡轉(zhuǎn)換,特別是中文域名中的繁簡體域名解析的等效問題做了十分深入的研究,并向國際互聯(lián)網(wǎng)標(biāo)準(zhǔn)組織IETF提交了多項技術(shù)草案,引起了IETF對中文繁簡問題的廣泛重視,為互聯(lián)網(wǎng)的中文化做出了很大的貢獻。CNNIC已經(jīng)推出了中文域名的注冊和解析服務(wù),在未來的中文域名服務(wù)中,CNNIC將逐步引入在此領(lǐng)域內(nèi)的研究成果,為廣大的中文域名用戶提供更好的服務(wù)。 關(guān)于中文域名注冊的繁簡問題,請訪問網(wǎng)站“中文域名注冊測試系統(tǒng)”。
計算機網(wǎng)絡(luò)資源名稱是用來表示網(wǎng)絡(luò)資源的,而采用中文字符來表示計算機網(wǎng)絡(luò)資源,涉及到中文用戶的認(rèn)知問題和使用習(xí)慣問題,中文字符的繁簡等效是其中的重要問題之一。當(dāng)然中文字符繁簡等效只是異體等效問題中的一種,但是卻是最為重要的一種,因為異體等效中大部分都是簡繁體的等效。中文域名異體等效是中文域名系統(tǒng)設(shè)計中最為核心和關(guān)鍵的也是最難解決的需求。我們知道英文字母也具有大小寫的區(qū)別,在Unix文件系統(tǒng)中,大小寫通常是敏感的(case sensitive),而在DNS系統(tǒng)中大小寫是不敏感的(case insensitive),即大小寫等價,而且在IDN系統(tǒng)標(biāo)準(zhǔn)中已經(jīng)規(guī)定直接將大寫字符映射成為小寫字母,直接按照Unicode標(biāo)準(zhǔn)做Case Folding。英文字母只有26個,而且大小寫的關(guān)系是一一對應(yīng)的關(guān)系,無論是直接做映射還是做其他類型的等效處理都是比較容易實現(xiàn)的,然而中文異體字符的等效問題則比英文大小寫問題復(fù)雜多了。首先,僅Unicode基本平面I-Zone包括的中文字符已經(jīng)超過兩萬個,在Extension A中還有數(shù)萬字,根據(jù)簡化字總表,其中僅具有簡繁體異體關(guān)系的中文字符超過了2300多組,還不包括其他未收錄的簡繁體和異體關(guān)系。再者,而且也是最為重要的,他們之間的異體關(guān)系不僅是一一對應(yīng)的關(guān)系,還有一對多,一代多和多對多的關(guān)系,十分復(fù)雜,即使采用人工智能的方式,簡繁體轉(zhuǎn)換的結(jié)果也不能保證百分白的正確,因此在DNS系統(tǒng)中試圖模仿英文大小寫的解決方案來解決中文字符的異體等效問題是不現(xiàn)實的,F(xiàn)行國際標(biāo)準(zhǔn)的DNS系統(tǒng)是基于ASCII編碼的,對于英文世界的人來講是足夠了。但是,世界上多數(shù)用戶使用的編碼都不是僅僅局限于七位ASCII編碼,隨磐縭褂玫鈉占,作为网驴r瀾縟肟詰撓蠣哺緄鈉占按戳瞬煥姆矯媯桓齜矯媸怯⑽牟灰子詡且洌硪環(huán)矯嬗⑽牟荒莧非斜曄隊滌姓咚胍暮。这样,記]惹邢M梢雜帽竟镅岳幢曄隊蠣5牽沒Р荒莧我庋≡褡約合胍謀嗦,因为蕿懣c霞負(fù)躒魏我恢殖S糜镅遠(yuǎn)加興約旱謀鏡乇嗦,那样就不能保证DNS名字空間的一致性,因此IETF國際化域名工作組選定的編碼標(biāo)準(zhǔn)是Unicode。Unicode幾乎包含了當(dāng)前世界上所有的字符,它不區(qū)分國家本地編碼,僅以字形來區(qū)分,比如中日韓越等國共同使用著漢字,Unicode收錄了所有的字體形式,然后進行編碼,通稱為CJKV。然而由于選擇了Unicode,無法區(qū)分各國文字,但是我們知道,將國際化的文字引入DNS,意味著將文字本身的特點也同時引入DNS體系,而Unicode CJK碼位統(tǒng)一導(dǎo)致了中文本身特性的,從而引起了一些處理上的問題。比如,對于國際化域名的子集——中文域名而言,處理中文域名的繁簡等效變得非常困難。從語言學(xué)的角度來講,中文并不區(qū)分人群和地域,但是其書寫方式確并不統(tǒng)一,比如中國大陸和新加坡采用簡體中文書寫方式,而港澳臺以及大多數(shù)海外華人則使用繁體中文書寫方式。那么首先什么是簡體中文和繁體中文呢?通常我們說的簡體中文是指滿足以下三個條件:字形采用簡體字型書寫,無繁簡差別的除外;字符集通常使用國標(biāo)碼字符集,或其擴充版本,國家標(biāo)準(zhǔn)擴展碼(GBK)等由中國大陸政府正式頒發(fā)的字符集;詞語用法通常為中國大陸的用法。繁體中文是指滿足以下三個條件:字形采用繁體形式書寫,即使具有常用簡體形式,而官方用法仍然保持繁體書寫;字符集通常使用BIG5編碼,以及臺灣官方發(fā)布的CNS14649,而詞語的用法通常采用臺灣、香港或者澳門的用法。語言是交流的工具。如果語言是統(tǒng)一的語言,而書寫方式是兩種書寫方式,那么必然存在著同一語言中不同書寫方式的轉(zhuǎn)換或者對應(yīng)的問題,這是簡繁體等效問題的來源。多數(shù)情況下,人們把這個問題稱為簡繁體轉(zhuǎn)換而不是簡繁體等效,但是事實上很多情況下由于一些策略或者技術(shù)上的原因,是不可以直接做轉(zhuǎn)換處理的,這個問題更多的是指如何處理其中的等效關(guān)系,而不是將一方轉(zhuǎn)換到另一方,某種意義上講,轉(zhuǎn)換意味著一種書寫方式的消失,因此,這種說法是不確切的,本文采用簡繁體等效這種概念。現(xiàn)在處理繁簡轉(zhuǎn)換的工具比較多,已有的研究也比較多,但是這些研究以及設(shè)計的工具進行的多數(shù)是不同字符集之間的轉(zhuǎn)換。因為最初大陸廣泛使用的是GB2312編碼字符集,主要收錄了簡體漢字,共計6763個;港澳臺使用的是BIG5字符集,主要收錄了繁體漢字,共計13068個,多數(shù)中文繁簡轉(zhuǎn)換的處理主要是做不同字符集之間的轉(zhuǎn)換,而不是做不同繁簡字型之間的轉(zhuǎn)換或者等效處理。但是,事實上中文的簡繁體等效或者異體等效問題遠(yuǎn)遠(yuǎn)不是不同字符集之間轉(zhuǎn)換那么簡單,而且也不是同一個概念。比如現(xiàn)有中國大陸推行的GB18030標(biāo)準(zhǔn),收錄了所有簡繁體中文字符,基于這個字符集再去做字符集之間的轉(zhuǎn)換將會是十分復(fù)雜的也是沒有意義的。中文是象形文字,用圖形來表示語言的含義,雖然這極大的豐富了中文的使用,但是這也注定讓中文具有數(shù)以萬計的字符,而其中的絕大部分都是常人所不識的。中文字符在它幾千年的歷史中經(jīng)歷了許多變遷。很多書法風(fēng)格,異體字,和字體設(shè)計以及由于印刷和書寫習(xí)慣的問題都導(dǎo)致了它的逐步演變。有些完整的以及常用的字體形式被作為常用字或者正體字,而這些正體字還具有多種多樣的異體形式,并且這種異體形式之間的關(guān)系十分復(fù)雜,而最典型的是簡繁體等效的問題。所以,我們說事實上中文簡繁體的等效處理不在于字符集的不同,而更多是在于字型書寫方式,詞匯的選擇,甚至語義上的差別。中文域名系統(tǒng)關(guān)注的也是努力解決的是有關(guān)簡繁體書寫方式的等效問題。Unicode/ISO10646一定程度上解決了不同碼制間同字型的簡繁體等效問題,CJKV占用同段碼位,并進行同字型同編碼,在一定程度上統(tǒng)一了很多字的編碼,也為那些在不同本地編碼方式中沒有碼位的字留出了碼位。但是Unicode并沒有解決絕大多數(shù)的簡繁體等效問題,即不同簡繁體字型的等效問題。而這一部分恰恰是中文簡繁體等效的重點和難點。根據(jù)中文繁簡轉(zhuǎn)換的陷阱一文中的論述,中文字符不同字型間簡繁體等效具有四個層次:級是碼點等效。因為每個字都對應(yīng)一個Unicode碼點,碼點之間的等效是不考慮上下文的關(guān)系,直接用另外一個碼點和要對應(yīng)的碼點建立等效轉(zhuǎn)換關(guān)系。這種轉(zhuǎn)換對于“國”和“國”的這類關(guān)系的轉(zhuǎn)換是可以的,因為他們是一對一的,在任何“國”出現(xiàn)的地方都可以直接用“國”來替換而不會引起任何意義上的變化;但是對于“發(fā)”字不一樣了,當(dāng)是“頭發(fā)”的時候,它的繁體形式是“頭髮”,“發(fā)”對應(yīng)于“髮”;而當(dāng)是“發(fā)展”的時候,它的繁體形式是“發(fā)展”,“發(fā)”對應(yīng)于“發(fā)”,這個例子是一簡對多繁,大概有四百對這種一對多的方式,多半是基于語義的轉(zhuǎn)換。而一繁對多簡的情況也有近80組,而常見的有11組。比如繁體“著”對應(yīng)于簡體的“著”和“著”,當(dāng)是“著作”的含義是對應(yīng)于“著”本身,而當(dāng)是“著火”的時候?qū)?yīng)是“著”了,這是最為常見的一組。目前基于碼點直接轉(zhuǎn)換的方法有三種:種是直接替代法,最簡單,耗費資源也最少,但是也最不準(zhǔn)確;第二種是基于詞頻的方式,統(tǒng)計詞頻中字的用度,用度高則首先采用,但也不準(zhǔn)確;第三種是基于詞頻和候選方式,所有候選字按詞頻統(tǒng)計用度,用度的排在位,其他也提示用戶以便選擇,這樣正確率。第二級是基于詞義的等效。通常采用的方法是首先對要轉(zhuǎn)換的文字進行切詞,然后以詞為單位查找確定應(yīng)該采用哪個對應(yīng)的碼點來替換被轉(zhuǎn)碼點。還以“發(fā)”字為例,如果發(fā)現(xiàn)和“頭”字相連,那么對應(yīng)“髮”,如果和“展”字相連,那么對應(yīng)““發(fā)”。這種方法轉(zhuǎn)換正確與否,決定于切詞的正確性,比如“二鍋頭發(fā)展有限公司”,那么如果將“二鍋頭”切詞在一起那么轉(zhuǎn)換結(jié)果是對的,但是如果將“二鍋”切在一起,而將“頭發(fā)展”切在一起,那么轉(zhuǎn)換結(jié)果是錯的。切詞方式的轉(zhuǎn)換是不能保證的,除非切詞工具建立了詞庫“二鍋頭”,否則極有可能的是將“頭”和“發(fā)”切在一起,因此導(dǎo)致錯誤。第三級是基于上下文語義的等效。因為大陸和港澳臺使用詞語的習(xí)慣不同,雖然詞語指稱相同,但是表達(dá)方式卻不同,比如英文CD-ROM對應(yīng)的中文在大陸稱為“光盤”而在臺灣則稱為“光碟”,這種繁簡轉(zhuǎn)換實際上是繁簡詞語的對應(yīng)轉(zhuǎn)換,這種轉(zhuǎn)換也需要切詞的準(zhǔn)確性以及對繁簡地區(qū)用詞習(xí)慣的詞語收集程度。這種轉(zhuǎn)換類似于英文中美式英語“color”和英式英語“colour”的區(qū)別。第四級是基于語境的等效。比如“文件”這個詞在簡繁體里都是存在的,但是當(dāng)作普通文件的時候,繁簡都是“文件”但是如果當(dāng)作計算機系統(tǒng)中的“文件”之后,簡體計算機“文件”會對應(yīng)到繁體計算機“檔案”。是說詞語在基于不同上下文語境的時候,其對應(yīng)的詞語也是不一樣的。在簡化字總表中定義的00多組簡繁體對照涉及到的幾乎都是常用字,因為不常用也通常不會考慮簡化它,簡化的目的是為了簡化使用以便書寫方便。這些簡體字幾乎占了人們?nèi)粘J褂弥形淖址囊话胍陨希驗閲翌C發(fā)的現(xiàn)代漢語常用字表也只有3500字。而00多個簡體字中,有一百多組是非一一對應(yīng)的,這也恰是簡繁體等效的難點所在,而根據(jù)作者制作對照表的經(jīng)驗,這個問題十分嚴(yán)重。常用的簡體詞中有大約%有一對多的情況,而我們統(tǒng)計現(xiàn)有中文域名注冊系統(tǒng)中,有接近90%具有簡繁體等效的問題。隨著中文應(yīng)用的普及,比如中文域名的開發(fā)和中文上網(wǎng)方式的開發(fā)都加劇了對中文異體等效特別是簡繁體等效的問題的研究,但是目前已有的簡繁體等效的技術(shù)方案多存在一些問題,并不能滿足中文簡繁體等效的處理需求。比如,由于理論研究水平的限制,現(xiàn)存的研究不能保證轉(zhuǎn)換結(jié)果的正確性,即使采用人工智能的方式,也只是盡可能提高轉(zhuǎn)換結(jié)果的正確性,比如95%以上,而不能到。已有方案多半是采用切詞查表的方式來完成轉(zhuǎn)換,但是如果切詞存在錯誤,那么查表的結(jié)果必然不會正確。國家已經(jīng)啟動了中文信息處理詞典的計劃,大概會收錄兩千多萬的詞語,以便為信息處理使用,但是在此出臺前,沒有很好的權(quán)威詞庫供信息處理使用。如果采用人工進行轉(zhuǎn)換,雖然正確率會提高,但是其代價也會增高。那么如何分散這種人工的代價是中文域名的考慮問題,中文域名簡繁體等效的實現(xiàn)方案是將繁簡轉(zhuǎn)換的工作推給用戶,由于域名的注冊是分散的而且是由注冊用戶本身進行操作的,因此減少了代價也增加了正確性。CNNIC對中文繁簡轉(zhuǎn)換,特別是中文域名中的繁簡體域名解析的等效問題做了十分深入的研究,并向國際互聯(lián)網(wǎng)標(biāo)準(zhǔn)組織IETF提交了多項技術(shù)草案,引起了IETF對中文繁簡問題的廣泛重視,為互聯(lián)網(wǎng)的中文化做出了很大的貢獻。CNNIC已經(jīng)推出了中文域名的注冊和解析服務(wù),在未來的中文域名服務(wù)中,CNNIC將逐步引入在此領(lǐng)域內(nèi)的研究成果,為廣大的中文域名用戶提供更好的服務(wù)。 關(guān)于中文域名注冊的繁簡問題,請訪問網(wǎng)站“中文域名注冊測試系統(tǒng)”。