การบ้านให้ตัวเอง: ศึกษา Unstructured Information Management Architecture (UIMA) ให้แตกฉานว่ามันคืออะไรกันแน่ เพราะวันนี้เห็นเป็นข่าวจัง
UIMA เป็น framework โดย IBM ที่ open-source สำหรับการประมวลผล unstructured information ซึ่งการ process เจ้า information ที่อยู่ในสภาวะไม่มีโครงสร้างชัดเจนได้นี่ล่ะเป็น success factor สำหรับ Knowledge Management Systems ในอนาคตแน่นอน
แนวคิดของ IUMA คือเอา unstructured information มา analyze ให้กลายเป็น Common Analysis Structure (CAS) แล้วเจ้า CAS นี้ก็นำไปให้ analysis engine ประมวลผลต่อ หน้าที่เราคือเขียน analysis engine ที่ประมวลผลในแง่มุมของเรา
analysis engine ประมวลผลเพื่อเอาผลลัพธ์ไปเป็น structured information เพื่อเอาไปใช้งานหรือเพื่อส่งผลลัพธ์เป็น CAS ต่อ (เขาใช้คำว่า CAS in/CAS out) เพื่อให้ analysis engine อื่นๆ ประมวลผลต่ออีกที
เชื่อขนมกินได้ว่า UIMA ยังไม่ได้คิดอะไรเผื่อ unstructured information ที่เป็นไทยๆ แน่นอน ใครพึ่งเริ่มต้นทำ thesis ด้าน computer science อยู่แถวๆ เมืองไทย เผลอๆ ช่วย IBM ทำ ได้ทั้งปริญญา ได้ทั้งงานทำ (ที่ IBM) เลยนะ จะบอกให้
เหมือนจะเป็นข้อกำหนดของระบบสืบค้นสารสนเทศ,
ระบบประมวลผลภาษาธรรมชาติ, การทำเหมืองข้อมูล ให้ทำงานร่วมกันได้ครับ
ตัว UIMA เองไม่ได้ทำงานอะไรจริง ๆ แต่เป็นตัวประสานชิ้นส่วนต่าง ๆ ให้ทำงานร่วมกัน
ปัจจุบันเรามีชิ้นส่วนพวกนั้นอยู่เยอะพอสมควรแล้ว จากผู้ผลิตรายต่าง ๆ แต่มันทำงานด้วยกันไม่ค่อยจะได้ ต้องอาศัยเวลาพัฒนาโปรแกรมเชื่อม ถ้าทุกตัวทำตาม interface ที่ UIMA กำหนด ก็จะทำงานร่วมกันได้
น่าจะเป็นแบบนั้น
IBM Thailand มีแผนกวิจัยและพัฒนาภาษาท้องถิ่นอยู่ ไม่แน่ อาจจะกำลังเริ่ม ? :P