วันนี้[Friday 20 May 2011 6:08AM] อ่าน นสพ.คอม
เห็นปัญหาของการเชื่อถือ โปรแกรมคอมพิวเตอร์(การแบ่งคำภาษาไทย)
อย่างงมงาย (ดูจากหลักฐานข้างล่าง)
รวมข่าวเคท-วิลเลี่ยม »
* ศาลลดโทษจำ6เดือนปรับ2พัน "เคทอง"
ลูกน้องเสธ.แดงฐานพกปืน [กรุงเทพธุรกิจ]
* ศาลจำคุก เคทอง สนิทเสธ.แดง 1ปี ปรับ4พัน
[กรุงเทพธุรกิจ]
* เคทอง พกปืน ศาลปราณีโทษคุกรอลงอาญา 2 ปี
[ผู้จัดการ]
เคท-วิลเลี่ยม
[Kate-William] เป็นกระแสใหญ่ที่ยังแรง แต่ 'เค ทอง'?
"...SWATH (Smart Word Analysis for THai) is a word segmentation for Thai. Swath offers 3 algorithms: Longest Matching, Maximal Matching and Part-of-Speech Bigram. The algorithrm are briefly in [1] and [2]. The program supports various file input format such as html, rtf, LaTeX as well as plain text..."
You can download SWATH from
http://www.cs.cmu.edu/~paisarn/software.html
สวัสดีค่ะ คุณ Sr.
เช่น " ศาลลดโทษจำ 6 เดือน ปรับ 2,000 "เคทอง" ลูกน้องเสธแดงฐานพกปืน"
สวัสดีครับ ครูดาหลา
... ที่ถูกควรจะเว้นวรรคระหว่างคำภาษาไทย กับตัวเลข...
ภาษาไทย-คอมพิวเตอร์ ยังเป็น เรื่องท้าทาย สำหรับ การจัดการข้อมูล การค้นหาของมูล และการพัฒนา สารสนเทศ โดยเฉพาะ personal assistant devices -- mobile phones --
.. การเขียนแบบไม่มีวรรคตอนไม่แบ่งส่วนไม่ว่าจะตามประโยคหรือกระบวนความคิดทำให้เลือกแบ่งคำยากเสียเวลาและพลังงาน...
.. Thai alphabet encoding is not in 'logical sequence' ตัวอย่าง เรา สะกด "เ ร า ้" แต่เราพิมพ์ "เ ร ้ า "
ทำให้ การจัดเรียงคำ ใน พจนานุกรม ขัดความคุ้นเคยที่ฝึกมาตั้งแต่ (and example of developing hindrance rather than re-enforcing previous experiential learning) เช่น กา กาก กาง ... มาก่อน ก่า (we really like to see word order like: กา ก่า ก้า ... กาก ...)
ยังมีอีกเยอะครับ ;-) แต่ ผม ยังไม่ได้เขียน ให้ อ่านง่าย เข้าใจง่าย ;-)
สะบายดีอยู่ในชุดขาวใจ่ไหมครับ