作者: 發布時間:2016-01-19 17:43:13 點擊率:
機器翻譯軟件的譯前準備
機器翻譯(Machine Translation ,簡稱MT)的質量和準確性在過去幾年有了很大提高。軟件中的詞庫擴充了,翻譯速度加快了,人們采取了許多方法提高翻譯軟件的功能,使之不僅能翻譯句子,更能表現出句子所在的場景。
盡管在技術上有了重大改進,人為因素仍是獲得高質量譯文的重要因素。人們在選擇MT軟件之前,首先要弄清楚什么樣的原文適合用機器翻譯。幾乎所有MT 軟件都有以下兩個主要特征。一是軟件都選定一個最小的可翻譯的“段落”,常常是一句話。翻譯時軟件可依次將譯好的一個個段落,也就是一個個句子存入范句庫。范句庫內存隨著翻譯的進行不斷擴充,即翻譯記憶( Translation Memory) 在增大。每遇到一個新的段落時,機器就會在范句庫內進行搜索。程序的搜索速度極快,即使在有大量翻譯記憶時也是如此,因此人們不覺得停頓下來等待機器為目前的段落找到匹配的譯文。如果該句子恰好已經被翻譯過了,軟件將立即提出譯文。當然,一個軟件只能找出與以前譯好的段落完全匹配的譯文是遠遠不夠的。
因此,MT 軟件的第二個顯著特征就是能夠在翻譯記憶中搜索到與要處理的段落相似的范句提供給軟件使用者。人們稱之為“模糊匹配”(Fuzzy Matching) 。人們用百分數來表示相似程度,設置一個臨界值,一旦超過它,計算機就將相似的范句認定為可能的譯文。以上兩點,即快速搜索和模糊匹配是所有MT 軟件的共同特征。另外,不同的軟件還有各自的特點。
基于以上兩個特征,那些在內容上有很大重復性的原文可以使用MT 軟件。許多技術文件(如使用手冊) 需要被反復修改,但是內容和形式大體相似。它們的一種譯文一旦被儲存下來,更新某一部分變得十分簡單。翻譯這些文件使用MT 軟件十分合適,而且篇幅越長,優越性越明顯。長達幾百頁的技術手冊用機器翻譯時,省力,又能保證風格前后一致,避免了人工翻譯中不同的譯者選擇不同的詞匯。人們可以采取一些方法最大限度地發揮翻譯軟件的能力。能否拿來軟件就開始翻譯呢? 可以這樣說,最關鍵的步驟是把原文輸入軟件之前,要適當地對原文加以整理,比如檢查錯別字和句子語法是否通順,這樣才能節省大量的校對時間。
以下是一些用來幫助人們對原文進行有效處理的迅速、簡便的方法。
1 確保原文的計算機可讀格式用戶可以使用人工錄入或掃描儀掃描的方法輸入原文。使用掃描儀時,原文的一些字母和標點符號可能會變成亂碼。掃描所引起的誤差在很大程度上受掃描儀品牌和識別文字的OCR 軟件的影響。眾所周知,MT 軟件如不能識別某一單詞或字符必然不能進行正確的翻譯。因此,盡管文件原文完美無缺,也有必要對掃描以后生成的文件進行校對。另外,計算機不會識別拼寫錯誤的單詞,它或者不能翻譯,或者譯錯,給校對人員造成很大的困難,同時也浪費了時間。與其如此,不如輸入之前將原文用拼寫檢查工具或人工檢查一遍,確保沒有遺漏拼錯的單詞。
2 使用控制語言所謂控制語言,指的是使用的語言局限于一些詞匯和語法規則。局限于一些詞匯可以使MT系統無需總要添加新詞,而將更多的效力放在尋找正確的詞條上。其次,人們應該檢查語法和句子結構,使之更適合于機器翻譯。
211 原文句子力求短小盡量避免使用冗長的復句,否則,系統在分析句子時經常會遇到困難,句子越長,越能加重不確定性。
212 句子符合語法翻譯人員也許會將一篇很糟糕的文章翻譯得很漂亮,但是MT 軟件不可能做到這一點。
差勁的原文意味著差勁的譯文。無論MT 系統是否使用語言學知識來分析句子,正確、簡單的句子總能夠避免不必要的問題,因而提高譯文的質量。采用語法結構正確,形式簡單的語句會使系統工作得更加順暢,減少歧義,因而大大提高翻譯質量。例如:
A. New toner unit s are held level during installation and ,since they do not as supplied contain toner ,must be filled prior to installationf rom a toner cart ridge.
可以改為:
B. Fill the new toner unit with toner f rom atoner cart ridge. Hold the new toner unit levelwhile you put it inthe printer.
B 句中用多個簡單句取代A 句中的復句,并按照操作順序,采用祈使句給予指令,清晰明了,易于翻譯。
213 消除或更改歧義句或詞組例如: Cleaning fluids can be dangerous. 這個句子有歧義,如果是指清潔液體的行為很危險,可以改成Cleaning fluids is dangerous ;如果想說用于清潔的液體很危險則可以用Cleaningfluidsare dangerous.
3 進行預翻譯,擴充用戶詞典完成上述兩個步驟之后,筆者建議還不能馬上開始翻譯工作,而應該進行預翻譯———將原文首次通過MT 軟件。雖然軟件的結構各有不同,但是大多數軟件允許用戶在翻譯之前選擇翻譯文本的體裁(比如,是商業文章或是說明書或是個人信函) 。此外,有的科技翻譯專業軟件為用戶提供詞匯庫的選擇,如化工,航天,機械,水利,石油,環境,能源,醫學,經貿,計算機或電子通信等。最后而且是非常關鍵的一步是擴充用戶詞庫。大多數MT 軟件都裝有允許用戶加入新詞的自定義庫,詞匯庫,范句庫。
正確使用用戶自定義詞庫可以極大地提高當前譯文及以后所有譯文的質量。較好的軟件會讓用戶建立一個“未知或待發現單詞表”由用戶添加新詞或詞組。即使是版本較低的軟件,用戶也能打印預翻譯的譯文,人工檢索未識別的單詞,然后手工錄入到軟件詞庫中以備后用。也許有人認為這一步驟過于繁瑣耽誤時間,但是比起翻譯以后逐字逐句修改,以及今后翻譯時再添加這個新詞到詞庫中,這種貌似費時的辦法還是值得的,正所謂“磨刀不誤砍柴功”。
在對原文進行格式上、語言上的改進和對軟件詞庫進行補充后,就可以從容地使用MT軟件進行正式翻譯了。不難發現,經過預翻譯的譯文比直接翻譯的譯文在質量上會有很大提高,軟件用戶可以收到事半功倍的翻譯效果。
天津大學社會科學與外國語學院 天津理工學院國際交流處
賈欣嵐 張健青