How to Use Thai-English Translation Tools

Illustrations Using News Articles for Advanced Thai Reading


The task of learning to translate can be managed by using several computer tools. 

Translation Tools

* Concordance: a list of all the words, single word, partial word, or regular expression in a document as they appear in context.

* Word Frequency: a list from high frequency to low; or in alphabetic order.

* Excel Spreadsheet of word frequencies and provision for adding definitions as a personal dictionary or for
   language proficiency testing.

* Interlinear Translation: a program for moving between word-by-word
  translations and a smooth translation.

* On-line Thai Dictionary: a cut-and-paste dictionary lookup tool.


Experimental SourceText (ST) Data

5 short news articles on Foreign Affairs from Prawet Jantharat’s web page of advanced Thai reading exercises were used as source text (ST) for utilizing the computer tools that will be illustrated in the following slides.

Please open the web page at:
http://siamwestdc.com/thairead/index.htm

Home Page of News Readings

Module 01 was used as “Source Text” for application of computer tools.

    Click to see larger view


Preparation of a Concordance and Word Frequency List

Because the five readings of Module 1 selected as source text to be copied into the concordance and word frequency programs all involve foreign affairs, they were combined into a single text, with no separation between words.

Thai, like other Indic-derived writing systems, does not employ spaces between words.

A sample of the original source text appears below.  Note the absence of separation between words.  Separations do appear between clauses, as seen in line 3.

Sample of Source Text – Without Separations Between Words


จีนยิ้มโสมแดงยุติโครงการนุก
มังกรจีนออกโรงแสดงความยินดีรัฐบาลโสมแดงเกาหลีเหนือยอมยุติโครงการพัฒนา
อาวุธนิวเคลียร์ชี้จะทำให้ช่องว่างของความขัดแย้งเล็กแคบลง และจะช่วยให้การ
เจรจายุติวิกฤตินิวเคลียร์บนคาบสมุทรเกาหลีครั้งต่อไปมีความคืบหน้ามากกว่าเดิม


Step 1. Separation of ‘‘Words” and Larger Units of Meaning

Because the concordance and word frequency programs require text input as individual “words,” spaces were inserted by hand (space bar) between each Thai word. The decision as to what constitutes a “word” in Thai is not always clear. Our overall standard was that a word is whatever is an entry in a Thai dictionary; but that didn’t always apply because a “word” can also be a semantic doublet or a multi-word expression that constitutes a unit of meaning, e.g., an idiomatic expression.

Separation of high frequency items such as, e.g., ความ, การ, can be sped up by using the “Find” tool in word processor (MS Word, WordPad, Notepad, etc.)

A portion of the source text with word divisions now appears as shown in the following.
Caution: : Please save text as plain Unicode text. How to save, visit: http://www.seasite.niu.edu/trans/thai/howto/wordprocessor.htm



จีน ยิ้ม โสมแดง ยุติ โครงการนุก มังกร จีน ออก โรง แสดง ความยินดี รัฐบาล โสม แดง เกาหลี เหนือ ยอม ยุติ โครงการ พัฒนา อาวุธ นิวเคลียร์ ชี้ จะ ทำให้ ช่อง ว่าง ของ ความ ขัดแย้ง เล็ก แคบ ลง และ จะ ช่วย ให้ การ เจรจา ยุติ วิกฤติ นิวเคลียร์ บน คาบ สมุทร เกาหลี ครั้ง ต่อไป มี ความ คืบหน้า มาก กว่า เดิม


Step 2: Cut and Paste Segmented Text Into Concordance Program Window

The segmented source text now becomes the input for the concordance program.

   Click to see larger view

* The first step: With your cursor, highlight and copy the segmented source text from the word processor and paste it
   into the   textbox window of the concordance program. Click on “Paste text to use”.

* The second step: We chose the default “Display all Words”.

* The third step: We chose “Whole word match” to display whole word in context of the pasted text.

* The fourth step: We chose “Context Size” to be 40. And click the “Submit” button. If everything goes well, the
   output concordance will appear with list of words in context of the pasted text. Visit the following link to view example:  http://www.seasite.niu.edu/trans/thai/howto/concordanceview.htm

Note: If we want to look for a single word in context of the pasted text, we have to choose “Enter a single word for display” in the second step and enter the word we want to find in the textbox immediately below it. The third and fourth step should be the same as above. View example: http://www.seasite.niu.edu/trans/thai/howto/concordanceviewsingleword.htm


The Concordance

The output of the program, the concordance itself, appears at the following web address: http://www.seasite.niu.edu/trans/thai/howto/concordanceoutput.htm.  The % number indicates where approximately in the text the word appears: e.g., 3% would be towards the beginning; 86% towards the end.  (A more powerful (and complex) concordance could, with line numbering in original format, would give the exact line number reference in the original text.)


Word Frequency Program

Cut and Paste Same Segmented Text as Input; Choose to sort alphabetically or numerically (Step 2).

   Click to see large view

The output of the program, the word frequency itself, appears at the following web address: http://www.seasite.niu.edu/trans/thai/howto/wordfrequencyresult.htm.


Word Frequency Result in Excel Spreadsheet

Word Frequency List copied into an Excel Spreadsheet to be used as student Dictionary.  The example appears at the following web address: http://www.seasite.niu.edu/trans/thai/howto/wordfrequencyinexcel.htm.


Utility of Word Frequency Lists

Perhaps of most utility and efficiency are word frequency lists.

The numerical listing of high-to-low frequency can be exploited in a variety of ways. High frequency words often have multiple meanings that can be discovered in exercises in the concordance, where the occurrences are brought together, or in the text itself. A typical exercise would be to copy and paste a word from the word frequency list into the “find” pop-up window of MS-Word and first locate the occurrences of the word of interest in the concordance. Examples of this kind of exercise are illustrated in the Appendix to this paper: Teaching/learning using collocations.

At the opposite end of the scale, the less frequent words, single meanings as opposed to multiple are the rule. However, for the advanced student, these could well be the new words that need to be acquired or studied once they have been identified and counted. We have shown 2 words, one with one occurrence and one with only two. The concordance shows that both appear in the opening of the text, which is of interest in and of itself, part of the total meaningful context.


Interlinear Translation (IT)

The translation process can proceed as follows:

The text of words, separated by spaces, becomes the input for NIU-IT (Interlinear Translation) program.  You can use Notepad to separate words as describe at http://www.seasite.niu.edu/trans/thai/howto/wordprocessor.htm.

Images of the homepage for IT and the page with the input document now appearing as a working translation document

   Click to see large view


IT text auto-formatted for word-by-word and smooth translation

   Click to see large view


NIU Online Dictionary

There is one more tool that students can take advantage of, and that is an on-line dictionary. We are currently updating an earlier version for that purpose. The homepage for the online dictionary appears below.

  Click to see large view


Discussion

The translation tools we have discussed can be used by both the instructor and learner in a number of ways. In testing these tools with our students, we have found that, once they have been introduced to them and start using them, the task of translating actually becomes enjoyable and gives a feeling of control over what can be an onerous task.

The outputs (Concordance and Word Frequency List) can be modified and edited, and the increase in language proficiency can be monitored to a higher degree by the instructor and learner as well. Each student can build a personal dictionary to measure and monitor his/her own vocabulary acquisition.

Where students are involved in the process of “word divisions” (physically separating words in a continuous text for input into the word frequency and concordance programs), intensive word study takes place and raises questions that improve understanding and translation proficiency. What is a word. What is a compound? What is a semantic doublet and what are clues to their identification? What is an elaborate expression? What is formal or unique to a certain kind of discourse? What is idiomatic? What is the “prior text” of the text being translated? These are just some of the questions that the translator must face.

Limitations: The IT (Interlinear Translation) program is limited to very basic translation work and is more suited for beginning and intermediate students. However it does give students the feel of moving from a word-by-word translation to a free translation and the teacher a means of monitoring the students word choice decisions, which are critical and the point at which many smooth translations end in mistranslations.


APPENDIX

Teaching/Learning Using Collocations

The illustrations that follow have been selected by a “copy + paste” into “find” from the Word Frequency List to search the Concordance.

High frequencies usually reveal multiple meanings and point out important collocations.

Low frequency words are items that usually have a single meaning or unique collocations and are candidates for quick look-up in the dictionary. The low frequency instances cited here turn out to be “puzzles.” In one case, a definition was not found in dictionaries, which suggests a very technical meaning or a new one of recent or rare appearance in the language. Later inquiry revealed the the word was part of a compound “SomDaeng” (literally “Red Ginseng”) an unusual reference to North Korea.


Sample collocations

                  context                           keyword                                  context
                                                          Gen./Mr.

 
ุง ปักกิ่ง เมื่อ .. ว่า
นาย Mr.
กงฉวน Kongchuan  โฆษก ประจำ กระทรวง
รม. ลา ออก ท้วง เลือกตั้ง
นาย
อาลี อับทาฮี Ali Abtahi รอง ประธานาธ
ทน ราษฎร สหรัฐฯ คน นำ โดย
นาย
เคิร์ต เวลดอน Kurt Weldon .. พรรค
และ เปรู อย่าง รุนแรง ของ
นาย
ฟิเดล คาสโตร Fidel Castro ประธานาธิบดี
ี่ พฤษภาคม ที่ ผ่านมา โดย
นาย
หลุยส์ เออร์เนสโต Louis Ernesto เดอร์เป
ขอ ปฏิเสธ ข้อ กล่าวหา ของ
นาย
คาสโตร Castro  และ ขอ ลด ระดับ ทา
เดียวกัน ก็ ขอ ชื่นชม ที่
นายพล General
โคลิน เพาเวลล์  Colin Powell  รมว. ต่างป

                                                          nuclear

ยุติ โครงการ พัฒนา อาวุธweapon’
นิวเคลียร์
ชี้ จะ ทำ ให้ ช่อง ว่าง
ให้ การ เจรจา ยุติ วิกฤติ ‘crisis
นิวเคลียร์
บน คาบสมุทร เกาหลี ครั้ง
ยุติ โครงการ พัฒนา อาวุธ ‘weapon
นิวเคลียร์
ขณะเดียวกัน ก็ ขอ ชื่นชม
ให้ การ เจรจา ยุติ วิกฤติ ‘crisis’
นิวเคลียร์
บน คาบสมุทร เกาหลี มี ควา

                                                         terminate/end

 
จีน ยิ้ม โสม แดง
ยุติ  (vs.ยุด)
โครงการprogram’  นุก มังกร จีน ออก
โสม แดง เกาหลี เหนือ ยอม
ยุติ
โครงการprogram’  พัฒนา อาวุธ นิวเค
และ จะ ช่วย ให้ การ เจรจา
ยุติ
วิกฤติcrisis’  นิวเคลียร์ บน คาบส
บาล เกาหลี เหนือ ตัดสินใจ
ยุติ
โครงการprogram’  พัฒนา อาวุธ นิวเค
ซึ่ง จะ ทำให้ การ เจรจา
ยุติ
วิกฤติcrisis’  นิวเคลียร์ บน คาบส

                                                          and

ความ ขัดแย้ง เล็ก แคบ ลง  VERB
และ
จะ ช่วย VERB ให้ การ เจรจา ยุต
ูต สหรัฐ ประจำ กรุง ริยาด NOUN
และ
สถาน NOUN กงสุล สหรัฐ ประจำ เม
สหรัฐ ประจำ เมือง เจดดาห์  NOUN
และ
เมือง ดาร์เรน NOUN ประเทศ ซาอุ
ชาว อเมริกัน คน อังกฤษ NOUN
และ
 คน ออสเตรเลีย NOUN คน ที่ ทำงาน
วิจารณ์ รัฐบาล เม็กซิโก NOUN
และ
เปรู  NOUN  อย่าง รุนแรง ของ นาย
นใจ เรื่อง นโยบาย ทั้ง ใน  NOUN
และ
 NOUN ต่างประเทศ ของ เม็กซิโก
้อ กล่าวหา ของ นาย คาสโตร  NOUN PHRASE
และ
ขอ ลด ระดับ VERB PHRASE ทาง การ ทูต

 


Solving Semantic Puzzles: Two examples of compounding

                                                      ????

จีน ยิ้ม
โสม
แดง ยุติ โครงการ นุก มังก
0 %
รง แสดง ความ ยินดี รัฐบาล
โสม
แดง เกาหลี เหนือ ยอม ยุติ
2 %
โครงการ นุก มังกร จีน ออก
โรง
แสดง ความ ยินดี รัฐบาล โส
2 %

Citation from the original text
จีนยิ้มโสมแดงยุติโครงการนุก
มังกรจีนออกโรงแสดงความยินดีรัฐบาลโสมแดงเกาหลีเหนือยอมยุติโครงการพัฒนา อาวุธนิวเคลียร์ชี้จะทำให้ช่องว่างของความขัดแย้งเล็กแคบลง

โสมแดง is a compound of “ginseng + red” and refers to North Korea.
ออกโรง is a compound of “enter onto + the stage.”
มังกรจีน is a compound of “dragon + china”, i.e., The Chinese Dragon.

The collocations/expressions that refer to North Korea and China, respectively
are, at the same time, ethnic epithets used by the Thai. The Chinese are like
the dragon in a Chinese Opera and the North Koreans are pictured as ginseng root, which has the shape of a pair of human legs.

Final translation:
(Headline) China Smiles: “Red Ginseng” (North Korea) Terminates Its Nuclear Program
(Lead Sentence) The “Chinese Dragon” enters onto the stage to show its pleasure that the government of “Red Ginseng” North Korea has agree to cease the development of nuclear weapons.


www.Thai2English.com dictionary search produced the following results

The Thai words contained in your search "โสมแดง" are shown below.  Click on any of the matches for a more complete definition.

·  Sorry, we could not find the word โสม in the dictionary.
แดง
   daeng
·  red ;
 
 

Unresolved translation: The news article implies that “som daeng” refers to North Korea. However, in questioning two native Thai speakers, who are also avid soccer fans, they both claim that “som daeng” refers to South Korea. North Korea, they claim is called “som khao” or “White Ginseng.”


Preliminary Conclusions

Word Frequency Lists and Concordances are powerful tools that can be effectively and efficiently used to

manage large text corpuses
monitor the learner’s acquisition of vocabulary
go beyond the information in dictionaries to discover collocations
discover solve semantic puzzles in the translation process