search engine พันธ์ไทย กับปัญหา encoding tis ,UTF ,windows


UTF-8 tis-620 search engine ไทย ระบบค้นหา

กำลังอยู่ในระหว่างวิเคราะห์ครับ กับ search enne ลูกน้ำเค็ม ไทยแท้ http://search.thaihealth.net ที่ตอนนี้ ติดปัญหาอยู่ที่ว่า robots ยังเก็บข้อมูลเว็บต่างๆ เละเทะ เนื่องจาก ภาษาไทยจริง แต่เว็บใช้ encoding แตกต่างไปมาก จริงๆแล้วเลือกมาตรฐานที่สุดตามแบบของ search engine หลายภาษา น่าจะเป็น UTF-8 แต่เนื่องจากบ้านเราติดการใช้ tis-620 เลยทำให้ต้องการปรับจูนกันไปก่อน 

ระบบที่เห็นว่าดีที่สุดของมันคือ search suggestion ที่เป็นภาษาไทย google ยังไม่มีครับ ภูมิใจมากๆเลยกับจุดนี้ น้อมรับคำวิจารณ์และเชิญใช้บริการได้ครับ

หมายเลขบันทึก: 128230เขียนเมื่อ 15 กันยายน 2007 00:45 น. ()แก้ไขเมื่อ 14 มิถุนายน 2012 05:42 น. ()สัญญาอนุญาต: จำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (2)

ขอแสดงความยินดีด้วยครับ เมืองไทยควรจะมี search engine ดีๆ ที่อยู่ในประเทศเสียที

แต่จะไปบอกว่าข้อมูลของเว็บต่างๆ เละเทะ คงพูดไม่ได้หรอกนะครับ นั่นเป็นความท้าทายที่ search engine จะต้องแก้ไขเอาเอง เว็บเค้าอยู่เฉยๆ มีกลุ่มผู้เข้าชมของตัวเองซึ่งก็ใช้งานได้อยู่ search engine ต่างหาก ที่ไปอ่านข้อมูลของเขามา

TIS-620 หรือ มอก.620 เป็นรหัสมาตรฐานประเทศไทยออกโดยสำนักงานมาตรฐานอุตสาหกรรม กระทรวงอุตสาหกรรมครับ มีมาตั้งแต่ปี 2529 และปรับปรุงล่าสุดในปี 2533

มอก.620 ใน version ที่เป็นมาตรฐาน ISO เรียกว่า ISO 8859-11 มี code point assignment ตรงกับ มอก.620 ทุกประการ

ส่วน utf-8 เป็น encoding ไม่ใช่มาตรฐานรหัสอักขระ ใช้สำหรับการส่งข้อมูลตามมาตรฐาน ISO/IEC 10646 หรือ Unicode

เนื่องจาก search engine ไม่ได้ขออนุญาตเจ้าของ content ว่าจะดูดข้อมูลไปทำอะไร ดังนั้นจึงมีการตกลงกันมานานแล้ว ว่าหากมี content ส่วนใดที่เจ้าของเว็บไม่ต้องการให้อ่าน ก็จะเขียนบอกไว้ครับ รายละเอียดหาอ่านได้ที่ robotstxt.org และ search engine ทั่วโลก ใช้มาตรฐานเดียวกันครับ

Search engine ของคุณหมอ ก็เร็วดีครับ เข้าใจว่าจำนวนเอกสารที่อ่านไป ยังคงไม่มาก -- ผมค้นคำว่า Conductor บน search engine ของคุณหมอ เจอใน 17 เอกสาร พอค้นคำเดียวกันใน Google เอาเฉพาะข้อความที่อยู่บน GotoKnow เท่านั้น กลับเจอใน 1690 เอกสารครับ

ในหน้าแรกตรงส่วนสีชมพูด้านล่าง ไม่มี GotoKnow ไม่ทราบว่าอันนี้เป็นเจตนาหรือเปล่าครับ

ผมเพิ่มให้แล้วครับ

จริงๆต้องขอขอบคุณที่แนะนำครับ บางเว็บอย่าง sanook ยังมี encoding ปนกันหลายแบบ บางหน้า ก็ใช้ 2 encoding เลยถือเป็นความท้าทายของผมเลยล่ะครับ

 

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท