Information Retrieval (หรือตัวย่อในวงการ IR) คือเทคโนโลยีที่มีเป้าหมายหลักสอง ประการคือความสามารถค้นคืน (Recall) ซึ่งหมายถึงการสืบค้นหาข้อมูลข่าวสารสารสนเทศที่ มีความเกี่ยวข้องกับสิ่งที่เราสนใจให้ได้มากที่สุด และความแม่นยำในการสืบค้น (Precision) ซึ่ง หมายถึงความสามารถในการกำจัดข้อมูลข่าวสารที่ไม่เกี่ยวข้องออกไปให้มากที่สุด

<p class="MsoNormal"><strong><span style="font-family: Tahoma">วิธีการสืบค้นมีอยู่ 2 วิ</span></strong><strong><span style="font-family: Tahoma">ธีใหญ่ๆ</span></strong><strong></strong></p>    <ul style="margin-top: 0in">
  • Seeking หรือการ ค้นก็คือ search engine นั่นเอง แต่จริงๆ แล้ว SQL Query หรือการทำ filter ก็นับอยู่ในหมวดนี้ มีหลักการง่ายๆ ว่าผู้ใช้มีสิ่งที่ต้องการอยู่ในใจแต่แรก แล้ว ค้นหามันด้วยวิธีการต่างๆ
  • Browsing ต่างจาก seeking ตรงที่ไล่อ่านข้อมูลไปเรื่อยๆ โดยไม่ต้องการอะไรเป็นพิเศษ พอเจอสิ่งที่น่าสนใจก็นำเอาข้อมูลนั้นมาใช้
  • </ul> <p class="MsoNormal">สำหรับการ seeking เแบ่งหมวดย่อยตามคุณสมบัติได้อีก 2 แบบ</p> <ul style="margin-top: 0in">

  • Ad hoc - การค้นหาที่ตัวเอกสารคงเดิม แต่ query เปลี่ยนไป
  • Filtering - การค้นหาที่ตัว query คงที่ แต่เอกสารเปลี่ยนแปลง
  • </ul><p class="MsoNormal">แยกตามวิธีการแบบคลาสสิคได้ 3 แบบ </p> <ul style="margin-top: 0in">

  • Boolean – คือการหาโดยใช้เงื่อนไขว่า ใช่หรือไม่ (binary) ข้อดีคือเรียบง่ายสวยงาม แต่ข้อเสียก็คือบอกได้แค่ว่าใช่หรือไม่ ไม่สามารถบอกคุณภาพการค้นหาได้ (ทำ partial matching ไม่ได้) และอาจได้ผลลัพธ์ที่ too few หรือ too many
  • Vector - ปัจจุบันนิยมใช้วิธีนี้ เอาวิชา Matrix มาใช้คำนวณ (เวกเตอร์ x เวกเตอร์) สามารถบอกน้ำหนักของผลการค้นหาได้
  • Probability - เอาวิชาความน่าจะเป็นมาใช้ โดยทำ iteration หรือ refine ไปเรื่อยๆ (ยิ่งทำยิ่งแม่น) ข้อเสียก็คือต้องทำ initial guess อย่างน้อยหนึ่งครั้งถึงผลการค้นหาจะพอใช้งานได้ ความแม่นใกล้เคียงกับแบบ Vector
  • </ul> <p class="MsoNormal">ส่วน Browse นั้นก็แยกได้ 3 แบบเช่นกัน</p> <ul style="margin-top: 0in">

  • Flat – อ่านข้อมูลเรียงไปเรื่อย ๆ  ข้อมูลไม่มีโครงสร้าง (structure) ใดๆ
  • Structure - ข้อมูลมีลำดับชั้นตามโครงสร้าง ตัวอย่างง่ายๆ คือตำราเรียนที่มีบอกบท หัวข้อ และหัวข้อย่อย
  • Hypertext - ข้อความที่เขียนหรือพิมพ์ลงกระดาษ (written text) มีข้อเสียตรงที่มันต้องเป็นไปตามลำดับ (sequential) ถึงแม้เราจะต้องการข้อมูลแค่เพียงบางส่วนของข้อความ แต่เราก็ต้องอ่านเรียงตามลำดับไปอยู่ดี ด้วยเหตุนี้จึงมีคนคิด hypertext  คือมีคุณลักษณะของลิงก์ที่สามารถข้ามไปยังจุดที่ต้องการได้
  • </ul><p class="MsoNormal">ความแม่นยำและความสามารถค้นคืน</p> <p class="MsoNormal"> การทำงานของระบบสืบค้นข้อมูลทั่วไปเมื่อมีความแม่นยำสูงจะมีความสามารถค้นคืนต่ำและในทางกลับกันถ้า
    ความสามารถค้นคืนสูง ความแม่นยำจะต่ำ เพื่อแก้ปัญหานี้ระบบการสืบค้นข้อมูลส่วนใหญ่จึงได้มีการออกแบบภาษาการสืบค้นข้อมูล
    เพื่อสร้างสูตรการสืบค้นที่ สามารถกำหนดเงื่อนไขการสืบค้นเช่น และ” “หรือ” “ไม่” “ติดกัน” “รวม” “ไม่รวมภาษาสืบค้นนี้ทำให้ได้ระบบที่ให้ความแม่นยำและความสามารถค้นคืนสูงในเวลาเดียวกันแต่มีปัญหาที่ความไม่เป็นมาตรฐานเดียวกันของผู้ให้บริการแต่ละรายเช่น ยาฮูใช้สัญลักษณ์ต่าง ๆแทน สูตรการสืบค้นเช่น เครื่องหมายบวกแทนการรวม เครื่องหมายลบแทนการไม่รวมคำสำคัญในการสืบค้น ขณะที่รายอื่นใช้ตัวย่อแทนเช่น AND OR NOT EXC ADJ เป็นต้นการใช้ภาษาธรรม ชาติจึงเป็นแนวทางหนึ่งที่มีผู้ให้ความสนใจสูงทีเดียว</p> <p class="MsoNormal">อ้างอิง :</p> <p style="margin-left: 0.75in; text-indent: -0.25in" class="MsoNormal">1.     http://www.isriya.com/node/1644</p> <p style="margin-left: 0.75in; text-indent: -0.25in" class="MsoNormal">2.     http://www.geocities.com/pisitp/irtech.htm</p>