一般網站的製作是以 HTML,SGML,XML,ASP / PHP,手稿語言 (Java, VB 等) 方式。而顯示在網站時,則使用 ISO 字元編碼,ANSI 代碼頁,萬國碼 UTF8 或 UTF16,字元實體 (Number Entities) 等形式。
比如 ISO 字元編碼:
- HTML / DHTML: 在 <head> 的檔案區 <META HTTP-EQUIV=”Content-Type” CONTENT=”text/html; charset=<value>”>
- XML: <?xml version=“1.0” encoding=<value>?>
- ASP: o 每個階段:<%Session.CodePage=<charset>%> o 每個網頁:<%@CODEPAGE=<charset>%>
字元實體 (Number Entities):
- 中文 -> 中文
- 用於插入不在頁面主要編碼中的字元,比如使用 ' 代替單引號,或 " 代替雙引號
- 網頁內隱藏東亞語言文字的方式之一
- 不適用於大量文字的網站
一般來說,網站內容的更換速度比軟體來得快,因此網站的翻譯的過程要比軟體翻譯來得迅速才行。 語言地方化工程師 (Localizer) 一般具有當地語言背景、市場知識和基本電腦方面的技術。而地方化工具則允許語言地方化工程師專注於目標市場的內容:
- 解析程式碼(HTML、DHTML、Javascript、Vbscript)和內容
- 程式鎖定,使語言地方化工程師無法更改網站頁面的原始程式碼和功能
- 提供更新管理、當地語言內容回收、自動建議、模糊匹配(詞彙和翻譯支援)等等
語言地方化工程師的工作是和軟體翻譯工程師(Software Translation Engineer)是不一樣的。軟體翻譯工程師必須要提供一個可以適用於任何市場的軟體,而語言地方化工程師只專注於一個市場的內容提供。當軟體翻譯工程師能提供以下工具給語言地方化工程師時,語言地方化工程師才能有效地執行工作。
- 提供檔案的結構
- 提供如何安裝工具和使用的詳細說明
- 提供的工具必須能夠方便的使用和正確的顯示
- 測試並再次確認,語言地方化工程師可以正確的了解和使用
機器翻譯:利用電腦的計算和分析,把一種語言翻譯到另一種,比如常用的 Google Translate 和 Bing Translate。目前這類的翻譯只能猜到字面上的意思,而無法準確的翻譯。
電腦輔助翻譯(Computer-assisted translation)工具:根據維基百科,透過人工智慧搜尋,比對技術以及運用資料庫和翻譯記憶程式,紀錄翻譯人員所完成之譯文,當遇到相同與重複的句型、片語或專業術語時,能提供翻譯人員建議和解決方案,以節省翻譯時間及成本,同時確保翻譯品質與風格的一致性。至於哪一種電腦輔助翻譯工具的使用,一般則取決於客戶的要求,輔助工具所能支援的語言,檔案格式,價錢和客製化的程度等。
語言翻譯的過程:
- 檔案評估
- 內容是靜態還是有多少動態字串,比如一個蘋果,兩個蘋果
- 多少圖片有需要翻譯的文字和字數
- 螢幕攫取還是需要另外客製
- 一次性還是需要頻繁更換的內容
- 文字分析
- 總共有多少字
- 有多少字串是百分之百完全重複的
- 有多少字串是模糊匹配的,一般設定工具識別約八成相似的字串
- 準備參考工具,比如詞彙
- 建立或更新翻譯記憶庫(Translation Memory)
翻譯記憶庫儲存以前翻譯過的句子,建立一個原始和翻譯語言之間的資料庫。翻譯記憶庫會隨著專案的進展越來越大。 - 編寫使用說明
- 翻譯和校對
- 測試翻譯後的語言,並與原始語言進行比較
目前電腦輔助翻譯工具:Comparison of computer-assisted translation tools,一些大公司有自己內部使用的翻譯工具。