การแบ่งคำภาษาไทย


เคท-วิลเลี่ยม [Kate-William] เป็นกระแสใหญ่ที่ยังแรง แต่ 'เค ทอง'?

วันนี้[Friday 20 May 2011 6:08AM] อ่าน นสพ.คอม เห็นปัญหาของการเชื่อถือ โปรแกรมคอมพิวเตอร์(การแบ่งคำภาษาไทย) อย่างงมงาย (ดูจากหลักฐานข้างล่าง)
   
รวมข่าวเคท-วิลเลี่ยม »

    * ศาลลดโทษจำ6เดือนปรับ2พัน "เคทอง" ลูกน้องเสธ.แดงฐานพกปืน [กรุงเทพธุรกิจ]
    * ศาลจำคุก เคทอง สนิทเสธ.แดง 1ปี ปรับ4พัน [กรุงเทพธุรกิจ]
    * เคทอง พกปืน ศาลปราณีโทษคุกรอลงอาญา 2 ปี [ผู้จัดการ]

เคท-วิลเลี่ยม [Kate-William] เป็นกระแสใหญ่ที่ยังแรง แต่ 'เค ทอง'?

 

"...SWATH (Smart Word Analysis for THai) is a word segmentation for Thai. Swath offers 3 algorithms: Longest Matching, Maximal Matching and Part-of-Speech Bigram. The algorithrm are briefly in [1] and [2]. The program supports various file input format such as html, rtf, LaTeX as well as plain text..."

You can download SWATH from

      http://www.cs.cmu.edu/~paisarn/software.html

คำสำคัญ (Tags): #นสพ#ไทย#word split
หมายเลขบันทึก: 439938เขียนเมื่อ 20 พฤษภาคม 2011 03:19 น. ()แก้ไขเมื่อ 11 ธันวาคม 2012 13:44 น. ()สัญญาอนุญาต: ครีเอทีฟคอมมอนส์แบบ แสดงที่มา-ไม่ใช้เพื่อการค้า-อนุญาตแบบเดียวกันจำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (2)

สวัสดีค่ะ คุณ Sr.

  •    ที่ถูกควรจะเว้นวรรคระหว่างคำภาษาไทย กับตัวเลขใช่ไหมคะ

  เช่น " ศาลลดโทษจำ 6 เดือน ปรับ 2,000 "เคทอง" ลูกน้องเสธแดงฐานพกปืน"

  •   เป็นเพราะโปรแกรมหรือคนพิมพ์กันแน่คะ

      

สวัสดีครับ ครูดาหลา

... ที่ถูกควรจะเว้นวรรคระหว่างคำภาษาไทย กับตัวเลข...

ภาษาไทย-คอมพิวเตอร์ ยังเป็น เรื่องท้าทาย สำหรับ การจัดการข้อมูล การค้นหาของมูล และการพัฒนา สารสนเทศ โดยเฉพาะ personal assistant devices -- mobile phones --

.. การเขียนแบบไม่มีวรรคตอนไม่แบ่งส่วนไม่ว่าจะตามประโยคหรือกระบวนความคิดทำให้เลือกแบ่งคำยากเสียเวลาและพลังงาน...

.. Thai alphabet encoding is not in 'logical sequence' ตัวอย่าง เรา สะกด "เ ร า ้" แต่เราพิมพ์ "เ ร ้ า "

ทำให้ การจัดเรียงคำ ใน พจนานุกรม ขัดความคุ้นเคยที่ฝึกมาตั้งแต่ (and example of developing hindrance rather than re-enforcing previous experiential learning) เช่น กา กาก กาง ... มาก่อน ก่า (we really like to see word order like: กา ก่า ก้า ... กาก ...)

ยังมีอีกเยอะครับ ;-) แต่ ผม ยังไม่ได้เขียน ให้ อ่านง่าย เข้าใจง่าย ;-)

สะบายดีอยู่ในชุดขาวใจ่ไหมครับ

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท