ลักษณะและพื้นฐานของ thaihealth search engine

thai health search engine

T! search engine ที่ผมนำมาพัฒนา ได้นำรูปแบบการผสมผสานจาก spider web engine มาปรับแต่ง ปัญหาขั้นแรกสุดคือ ภาษาไทย เนื่องจากผู้พัฒนา ใช้สคริปต์ของ php ที่รันใน environment ของภาษาอังกฤษ ที่มีอักขระตามรหัส ascii ทำให้การตัดคำ หรือ ค้นคำ มีมาตรฐานที่มีผู้พัฒนาอยู่ต่อเนื่องแล้ว ยิ่งกว่านั้นคือ เมื่อเก็บข้อมูลเข้า database ซึ่งมีการเก็บแบบ latin หรือ utf8 บน mysql ก็สามารถใช้การค้นหาที่เรียกว่า fulltext index search ที่ไม่ต้องการการปรับแต่งมากมายเลย ปัญหาที่ท้าทายมากสำหรับภาษาไทยคือ

1. จะเก็บข้อมูลคีย์เวอร์ดต่างๆ เข้ารหัสแบบไหน ตามปกติ tis-620 ที่เป็นมาตรฐานแต่เมื่อนำมาใช้ พบว่า มีปัญหากับการใช้ฟังก์ชั่นใหม่ ๆ เช่น javascript และ ajax ที่ใช้ xmlhttp ทำให้ไม่สามารถใช้สิ่งอื่นนอกเหนือจาก encoding แบบ utf-8 ที่เป็น multibyte และทดแทนอักขระ ascii นอกเหนือจากภาษาอังกฤษได้ทั้งหมด (อาจจะบอกได้ว่า utf-8 compatible กับ ascii นั่นเอง)

2.เมื่อ spider เลือกเก็บข้อมูลมาแล้ว การเก็บลง database ก็ต้องพิจารณาเพิ่มเติม ว่าจะเก็บลงแบบใด จากประสบการณ์ของ MySQL พบว่า จะต้องให้ internal lang เป็น UTF-8 และ callation thai-utf8 จึงจะมีปัญหาน้อยที่สุด นั่นคือ spider ต้องเป็นผู้เลือกว่า จะเก็บ site ใด วิธีใด และแปลงทั้งหมดเป็น UTF-8 ซึ่งปกติจะง่ายมาก แต่อาจยากมาก ถ้า site นั้น ไม่เขียน header และ meta มาตรฐานตาม w3c และเมื่อพิจารณาแล้ว พบว่า หลายๆ site เขียนไม่ตรงตามมาตรฐานของ w3c และ xhtml ทำให้ spider ของแทบทุกเจ้า ผมว่ารวมถึง google ด้วย มีปัญหา ที่สำคัญคือ google เอง ก็ยังไม่เน้นภาษาไทยเอาเสียเลย ทำให้เว็บไซด์ดีๆ ที่อาจเขียนไม่ตรงตามมาตรฐาน หลุดจากการค้นหาไปอย่างน่าเสียดาย แต่เว็บบางที่ ที่รู้จักกับวิธีการดังกล่าวนำมาใช้ บางแห่งใช้อย่างไม่เหมาะ เกิดเป็นวิธีที่เรียกว่า spam keyword แบบไทยๆ ซึ่งช่วงหลัง ๆ จะมีเว็บแบบนี้เยอะ ผมจะไม่กล่าวถึงและ จะเข้าสู่ข้อ 3

3. ทำอย่างไรจะกรองเว็บไทยที่มีการ spam keyword ตรงจุดนี้ ถือเป็นหลุมดำของการค้นหาใน google ของเว็บแบบไทยๆ ซึ่งจริงๆ แล้ว น่าตกใจว่า ในเว็บใหญ่ๆ เอง ก็มีวิธีการเช่นนี้เพื่อให้ผลการค้นหาเข้าสู่อันดับแรกๆ และที่แปลกคือ เมื่อแจ้ง google ไป กลับไม่มีการดำเนินการใดๆ ตรงจุดนี้ ถือว่าเป็นความท้าทายของผม ว่าจะกรองเว็บแบบเช่นนี้อย่างไรออกไป

4.การเก็บด้วย spider มีปัญหาอย่างตรงที่ ต้องการคำแนะนำว่า เว็บใดที่ผมควรเข้าไปเก็บ เราไม่มี spider ที่ฉลาด แต่เราเป็นคนควบคุมและโปรแกรม spider ผมถึงคิดว่าเราต่างอย่างชัดเจนว่า search engine แบบไทย ทำให้ดี ทำได้เหนือกว่าอยู่แล้ว เพราะเรารู้ว่า จะ include site ใดเข้าไป ข้อสำคัญคือยังทำได้ช้าเพราะทำอยู่คนเดียว ซึ่งตอนนี้ include ได้ ร้อยกว่าเว็บเองครับ ใครมีแรงอยากช่วยพัฒนาเชิญเลยครับที่ http://search.thaihealth.net

เขียนใน GotoKnow โดย นพ. กิจการ จันทร์ดา
ใน kk at thaihealth พันธ์ทาง พันธ์ไทย

คำสำคัญ (Tags): #spider#google#web site#search#การค้นหา#w3c#ajax#encoding#javascript#thai

หมายเลขบันทึก: 128259เขียนเมื่อ 15 กันยายน 2007 09:21 น. ()แก้ไขเมื่อ 25 พฤษภาคม 2012 19:53 น. ()สัญญาอนุญาต: จำนวนที่อ่าน

ความเห็น (0)

ไม่มีความเห็น