เทคโนโลยีเสียง


 เทคโนโลยีเสียง เป็นส่วนหนึ่งของการเปลี่ยนแปลงโดยรวมและเป็นบวก ของวิธีการที่องค์กรดำเนินการ วิธีที่นักธุรกิจเชื่อมโยงกับข้อมูลและบุคคลอื่น ๆ รวมถึงการให้บริการกับลูกค้า

เทคโนโลยีเสียง

Voice Technology

พลตรี มารวย  ส่งทานินทร์

[email protected]

19 มกราคม 2562

บทความเรื่อง เทคโนโลยีเสียง (Voice Technology) นำมาจากบทความบนอินเตอร์เน็ตที่หลากหลาย เช่น Wikipedia, https://danielmiessler.com/blog/computer-voice-interfaces-are-a-combination-of-voice-recognition-and-nlp,  https://www.forbes.com/sites/forbesagencycouncil/2018/07/27/how-voice-technology-is-changing-the-way-we-work/#7b988f114a4d เป็นต้น

ผู้ต้องการเอกสารนี้แบบ PowerPoint (PDF file) สามารถ Download ได้ที่ https://www.slideshare.net/maruay/voice-technology

เกริ่นนำ

  • การยอมรับอย่างกว้างขวางของเทคโนโลยีเสียงโดยชาวอเมริกันนับล้าน จะเปลี่ยนวิธีที่ผู้คนค้นหา บริโภค และดำเนินการกับข้อมูล ในอนาคตข้างหน้า
  • ในขณะนี้ เทคโนโลยีเสียง (voice technology) ได้สร้างผลกระทบต่อพฤติกรรมของผู้คน
  • จากการวิจัยของ Google พบว่า 72% ของคนที่มีลำโพงเปิดใช้งานด้วยเสียง (voice-activated speaker) บอกว่า อุปกรณ์ของพวกเขา ถูกใช้เป็นส่วนหนึ่งของกิจวัตรประจำวัน

ผู้ช่วยเสมือนที่ใช้เสียง (Voice based virtual assistants)

  • ผู้ช่วยเสมือนตามบ้านอย่าง Alexa และ Google Home ได้สร้างความมั่นใจในการสนทนา ทำให้ผู้บริโภคคุ้นเคยกับการโต้ตอบกับเทคโนโลยีที่ราบรื่น
  • Amazon และ Google ครองตำแหน่งสำคัญระหว่างตราสินค้าและลูกค้า โดยอาศัยประโยชน์จากความสะดวกของการสนทนานี้

เทคโนโลยีด้านเสียง

  • ทุกวันนี้ เกือบทุกคนที่มีแล็ปท็อปหรือสมาร์ทโฟน จะมีประสบการณ์บางอย่างกับเทคโนโลยีเสียง
  • บางทีคุณอาจใช้ Siri เพื่อตั้งเตือนการปลุก หรือขอเพลงบางเพลงระหว่างเดินทางไปทำงาน หรือบางทีคุณอาจขอให้ Cortana เตือนคุณเกี่ยวกับการประชุมที่กำลังจะมาถึง
  • เทคโนโลยีเสียงมีวิวัฒนาการที่ช้าแต่แน่นอน ได้เปลี่ยนวิธีที่เราโต้ตอบกับอุปกรณ์ของเรา ทำให้เราทำงานหลายอย่างได้ เช่น ตรวจสอบสภาพอากาศหรือสั่งพิซซ่า โดยใช้เพียงเสียงของเรา

ทำไมต้องตอนนี้?

  • เสียงคือ การเชื่อมต่อกับผู้ใช้ (user interface)ที่ดั้งเดิมที่สุด
  • พวกเราส่วนใหญ่ เติบโตขึ้นจากการเรียนรู้วิธีการสื่อสารด้วยวิธีนี้ ทำให้เป็นวิธีการสื่อสารที่ต้องการ เพราะเป็นสิ่งที่เราพอใจที่สุด
  • ตอนนี้ เรากำลังเวียนกลับไปที่เสียง หลังจากใช้เวลาหลายปีกับอีเมล์ การส่งข้อความ และการพิมพ์ค้นหา เป็นต้น
  • Speech recognition รู้จำเสียงได้ถึง 99% (เทียบกับมนุษย์เข้าใจคำของกันและกัน เพียงแค่ประมาณ 92%)
  • คาดว่าอุตสาหกรรมเทคโนโลยีเสียง จะเพิ่มรายได้เป็นสี่เท่าภายในปี ค.ศ. 2022
  • และในที่สุด โลกก็กำลังใกล้เข้ามากับ "ระบบนิเวศของเทคโนโลยี (ecosystem of tech)" อย่างรวดเร็ว ซึ่งโทรศัพท์ แล็ปท็อป ทีวี รถยนต์ และอุปกรณ์ภายในบ้านของคุณ สามารถสื่อสารซึ่งกันและกันด้วย อินเทอร์เน็ตของสรรพสิ่ง (Internet of Things)

การเชื่อมต่อด้วยเสียง (Computer Voice Interfaces)

  • การเชื่อมต่อด้วยเสียงของคอมพิวเตอร์ เป็นการผสมผสานระหว่าง การจดจำเสียง (Voice Recognition) และ การประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP)
  • สำหรับผู้ใช้ อาจเข้าใจว่า"การเชื่อมต่อด้วยเสียง (voice interfaces)" กับคอมพิวเตอร์  เช่น Siri หรือ Alexa  เป็นเทคโนโลยีเดียว
  • อันที่จริงแล้ว มันเป็นสองเทคโนโลยีที่รวมกัน
  • ประการแรก คอมพิวเตอร์ต้องเข้าใจอย่างถ่องแท้ในสิ่งที่คุณพูด นั่นหมายถึงการถอดรหัสเสียงพึมพำ ลบเสียงรบกวนรอบข้าง จัดการเสียงและสำเนียงต่างๆ ซึ่งในปัจจุบันนี้ทำได้ดีขึ้น
  • ประการที่สอง คอมพิวเตอร์จำเป็นต้องเข้าใจสิ่งที่คุณตั้งใจให้ทำ สิ่งนี้เป็นเรื่องยาก เพราะมันหมายถึงการแปลและทำแผนที่คำสั่งนั้น ไปยังคำสั่งที่มีอยู่ แล้วจึงดำเนินการ
  • ทั้งสองนี้แตกต่างกันมาก อย่างแรกเรียกว่า การจดจำเสียง (Voice Recognition) และอย่างที่สองเรียกว่า การประมวลผลภาษาธรรมชาติ (Natural Language Processing)

การประมวลด้วยเสียง (Voice computing)

  • การประมวลด้วยเสียง เป็นการพัฒนาฮาร์ดแวร์หรือซอฟต์แวร์เพื่อประมวลผลของเสียงที่นำเข้า
  • มันครอบคลุมหลายสาขาเช่น การปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ การสนทนาภาษาศาสตร์ด้วยคอมพิวเตอร์ การประมวลผลภาษาธรรมชาติ การรู้จำเสียงอัตโนมัติ การสังเคราะห์เสียงพูด วิศวกรรมเสียง การประมวลผลสัญญาณดิจิตอลคอมพิวเตอร์ ข้อมูลในคลาวด์ วิทยาศาสตร์ข้อมูล จริยธรรม กฎหมาย และความปลอดภัยของข้อมูล
  • ประมาณปี ค.ศ. 2011 Siri ได้ปรากฏตัวบน Apple iPhones ในฐานะผู้ช่วยเสียงคนแรกที่เข้าถึงผู้บริโภค
  • Amazon เปิดตัว Amazon Echo ในปี ค.ศ. 2014 (30+ ล้านอุปกรณ์)
  • Microsoft เปิดตัCortana ค.ศ. 2015 (400 ล้านของผู้ใช้ Windows 10)
  • Google เปิดตัว Google Assistant ค.ศ. 2016 (2 พันล้านของผู้ใช้งานรายเดือนบนโทรศัพท์ Android)
  • และ Apple เปิดตัว HomePod ค.ศ. 2018  (ยอดขาย 500,000 อุปกรณ์ และ 1 พันล้านอุปกรณ์ ที่ใช้งานกับ iOS/Siri)

การรู้จำเสียง (Speech recognition)

  • การรู้จำเสียง เป็นสาขาย่อยสหวิทยาการของภาษาศาสตร์ด้านคอมพิวเตอร์ ที่พัฒนาวิธีการและเทคโนโลยี ช่วยให้การรู้จำและการแปลภาษาพูดเป็นข้อความด้วยคอมพิวเตอร์
  • ซึ่งเป็นที่รู้จักกันคือ การรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition: ASR) และ การแปลงเสียงพูดเป็นข้อความ (Speech To Text: STT)
  • เป็นการรวมความรู้และการวิจัย ด้านภาษาศาสตร์ วิทยาการคอมพิวเตอร์ และสาขาวิศวกรรมไฟฟ้า
  • ระบบรู้จำเสียงบางระบบต้องการ"การฝึกอบรม" (หรือที่เรียกว่า "การลงทะเบียน") ซึ่งผู้พูดแต่ละคนต้องอ่านข้อความหรือคำศัพท์ที่มีอยู่ในระบบ ระบบจะวิเคราะห์เสียงเฉพาะของบุคคลและใช้ในการรู้จำเสียงพูดของบุคคลนั้นอย่างละเอียด ทำให้มีความแม่นยำมากขึ้น
  • ระบบที่ไม่ใช้การฝึกอบรมจะเรียกว่าระบบ"ผู้พูดแบบอิสระ" ระบบที่ใช้การฝึกอบรมจะเรียกว่า"ผู้พูดที่เจาะจง"

การประมวลผลภาษาธรรมชาติ (Natural language processing: NLP)

  • การประมวลผลภาษาธรรมชาติ เป็นสาขาย่อยของวิทยาการคอมพิวเตอร์ วิศวกรรมข้อมูล และปัญญาประดิษฐ์ ที่เกี่ยวข้องกับการปฏิสัมพันธ์ระหว่างคอมพิวเตอร์และภาษามนุษย์ โดยเฉพาะอย่างยิ่ง วิธีการที่โปรแกรมคอมพิวเตอร์ใช้ในการประมวลผล และวิเคราะห์ข้อมูลภาษาธรรมชาติจำนวนมาก
  • ความท้าทายในการประมวลผลภาษาธรรมชาติ มักเกี่ยวข้องกับการรู้จำเสียงพูด ความเข้าใจภาษาธรรมชาติ และการสร้างภาษาของธรรมชาติ

การเชื่อมต่อกับผู้ใช้เสียง (Voice-User Interface: VUI)

  • การเชื่อมต่อกับผู้ใช้เสียง ทำให้มนุษย์สามารถพูดโต้ตอบกับคอมพิวเตอร์ได้ โดยใช้การรู้จำเสียง เพื่อทำความเข้าใจกับคำสั่งและคำถามที่พูด
  • อุปกรณ์คำสั่งเสียง (Voice Command Device: VCD) เป็นอุปกรณ์ที่ควบคุมด้วยส่วนต่อประสานกับผู้ใช้เสียง
  • VCD รุ่นใหม่นั้น เป็นแบบผู้พูดอิสระ ดังนั้นจึงสามารถตอบสนองต่อเสียงที่หลากหลาย โดยไม่คำนึงถึงอิทธิพลของสำเนียงภาษา
  • มีการเชื่อมต่อประสานกับผู้ใช้เสียง ในรถยนต์ ระบบอัตโนมัติภายในบ้าน ระบบปฏิบัติการคอมพิวเตอร์ เครื่องใช้ภายในบ้านเช่น เครื่องซักผ้า เตาไมโครเวฟ และรีโมทคอนโทรลของโทรทัศน์
  • สิ่งเหล่านี้ ใช้เสียงเป็นวิธีหลักในการโต้ตอบกับผู้ช่วยเสมือน บนสมาร์ทโฟนและลำโพงอัจฉริยะ

เทคโนโลยีเสียงเปลี่ยนแปลงวิธีการทำงานของเราอย่างไร

  • ที่ผ่านมา มีกี่ครั้งที่คุณตั้งระบบเตือน ส่งข้อความ หรือค้นหาคำตอบ เพียงแค่พูดลงในโทรศัพท์ของคุณ
  • เทคโนโลยีเสียง เมื่อรวมกับผู้ช่วย AI (ปัญญาประดิษฐ์) ในตัว เช่น Siri และ Cortana ทำให้สถานการณ์เหล่านี้เป็นเรื่องธรรมดา และเปลี่ยนวิธีที่เราใช้ชีวิตประจำวัน
  • แต่เทคโนโลยีเสียงนั้น ไม่ได้มีเพียงประโยชน์ในขอบเขตของผู้บริโภคเท่านั้น ในด้านธุรกิจก็ได้รับประโยชน์อย่างมาก จากความสามารถในการออกคำสั่งค้นหาข้อมูล และสั่งการบันทึก โดยใช้เพียงเสียงและอุปกรณ์อัจฉริยะ

ข้อที่ 1. ปรับปรุงการแบ่งปันข้อมูลภายในองค์กร

  • IBM Watson เป็นแอปพลิเคชั่นเสียง ที่ปรับแต่งสำหรับองค์กร
  • ลองคิดดูว่า ในขณะที่ทำงานอยู่ในโรงงาน บุคลากรสามารถเข้าถึงอินทราเน็ตของบริษัท เอกสารกระบวนการ และเอกสารทรัพยากรบุคคลทั้งหมด โดยไม่ต้องยกนิ้ว
  • การทำให้ทุกคนสามารถเข้าถึงข้อมูลได้ จะช่วยให้ทุกระดับขององค์กรมีประสิทธิภาพมากขึ้น

ข้อที่ 2. เพิ่มผลผลิตผ่านการทำงานได้หลายอย่าง

  • ความสามารถในการถามคำถามง่าย ๆ กำหนดการประชุม จับเวลา การเตือน และอีกมากมาย โดยไม่ต้องหยุดในสิ่งที่คุณทำ จะมีประโยชน์อย่างเหลือเชื่อ และก็เป็นเช่นนั้นแล้ว
  • Alexa เป็นเครื่องมือสำคัญสำหรับสำนักงานในวันนี้ ที่สร้างความมั่นใจในการติดตามรายการดำเนินการ รายการที่ต้องทำ และเตือนการประชุมที่จะเกิดขึ้น

ข้อที่ 3. มีเวลาว่างมากขึ้นสำหรับผู้บริหารระดับสูง

  • ความช่วยเหลือด้วยเสียง มีความเป็นไปได้ที่จะเพิ่มเวลาที่มีค่าให้กับผู้บริหารระดับสูง ซึ่งช่วยให้พวกเขาเปลี่ยนจุดเน้นไปยังลำดับความสำคัญที่สูงขึ้น ในรายการที่พวกเขามีอยู่
  • การใส่การประชุมในปฏิทิน การส่งข้อความด่วน และงานอื่น ๆ ที่คล้ายกัน จะถูกแทนที่ด้วยเทคโนโลยีเสียง

ข้อที่ 4. ควบคุมสภาพแวดล้อมการทำงานได้ดีขึ้น

  • เป็นที่คาดการณ์ว่า ในปี ค.ศ. 2020 จะมีถึง 30% ของการค้นหาในเว็บด้วยเสียง และภายใน 4 ปี การซื้อสินค้าออนไลน์ด้วยเสียง คาดว่าจะสูงถึง 4 หมื่นล้านดอลลาร์
  • ในขณะที่เรากำลังเขียนอีเมล์ เราสามารถใช้ Alexa เพื่อสั่งของจากAmazon รับคำแนะนำร้านอาหาร ค้นหาสถิติล่าสุด และปรับเปลี่ยนอุณหภูมิในสำนักงาน
  • เรายังสามารถขอให้ Alexa รับสายแทนได้

ข้อที่ 5. ระบบอัตโนมัติของกระบวนการประจำ

  • Alexa สำหรับธุรกิจ ใช้คำสั่งเสียงง่าย ๆ เพื่อควบคุมอุปกรณ์ในห้อง ตั้งค่าการประชุมโดยไม่มีปัญหาขัดแย้ง และประหยัดเวลาในโลกธุรกิจ
  • นอกจากนี้ ยังสามารถรายงานไปยังแผนกไอที เกี่ยวกับเครื่องพิมพ์ที่เสียหาย ฯลฯ
  • ในระยะยาว หนึ่งในข้อเสนอที่มีค่ามากที่สุดของผู้ช่วยด้านเสียงคือ ความสามารถในการทำให้กระบวนการประจำกลายเป็นอัตโนมัติ

ข้อที่ 6. ความคล่องตัวของการทำงานและลดแรงเสียดทานการสื่อสาร

  • Google ได้แนะนำความสามารถของเทคโนโลยีเสียง ในการกำหนดตารางนัดหมาย ที่ส่งผลกระทบต่อกระบวนการทำงานรายวันของเรา
  • อีกไม่นาน เราจะสามารถพูดออกมาดัง ๆ ว่า "นัดประชุมกับทอมเวลา 14.00 น." เท่านั้น เป็นอันเสร็จสิ้น!
  • การส่งอีเมล์ ข้อความโต้ตอบแบบทันที และเรื่องสำนักงานที่ไม่มีที่สิ้นสุด ซึ่งต้องใช้เวลาในแต่ละวัน เทคโนโลยีเสียงจะกลายเป็นเครื่องมืออันล้ำค่า สำหรับการปรับปรุงขั้นตอนการทำงานทั่วไปและช่วยลดแรงเสียดทาน

ข้อที่ 7. ข้อมูลเชิงลึกเกี่ยวกับแนวคิดผู้บริโภค

  • นอกเหนือจากประโยชน์ของผู้ช่วยเสียงในที่ทำงาน ซึ่งสามารถใช้ในการจองการประชุม จัดการรายการที่ต้องทำ และส่งข้อความถึงเพื่อนร่วมงาน เทคโนโลยีเสียงสามารถช่วยนักการตลาดให้อยู่ในใจของผู้บริโภค ด้วยการสำรวจผลลัพธ์การค้นหาด้วยเสียง
  • ตัวอย่างเช่นการเล่นเกมด้วยเสียง (Voice gaming) สามารถใช้เป็นแบบจำลองสำหรับวิธีที่ผู้บริโภค สำรวจเนื้อหาของเว็บไซต์ด้วยเสียง

ข้อที่ 8. เอกสารและจดบันทึกที่ง่ายขึ้น

  • ทุกบริษัท ต้องการเอกสารเกี่ยวกับกระบวนการในระดับหนึ่ง ขั้นตอนการปฏิบัติงานมาตรฐาน และรูปแบบการสื่อสารที่ยาวนานและน่าเบื่อ
  • ถ้ายังไม่มีใครมีเวลาเขียนให้กับพวกเขา ทำไมไม่บอกพวกเขาใช้เทคโนโลยีเสียง?
  • การแก้ไขบางอย่างของข้อความ ง่ายกว่าการเขียนตั้งแต่เริ่มต้น

ข้อที่ 9. งานที่เป็นของมนุษย์โดยเฉพาะ

  • เสียงได้เริ่มเข้ามามีบทบาทในสถานที่ทำงาน เพื่อปรับปรุงประสิทธิภาพของผู้ปฏิบัติงาน
  • การเขียนตามคำบอก ช่วยให้การจดบันทึกรายละเอียดระหว่างการประชุมเป็นปัจจุบัน เป็นไปได้อย่างไม่มีความแตกต่าง
  • Cortana ช่วยให้คุณค้นหา กำหนดเวลาการนัดหมาย และตั้งค่าการเตือน
  • เมื่อใช้อย่างมีประสิทธิภาพ เทคโนโลยีจะช่วยให้ผู้ปฏิบัติงานมุ่งเน้นไปที่กลยุทธ์ และความคิดสร้างสรรค์ ซึ่งเป็นองค์ประกอบที่ทำให้เราเป็นมนุษย์โดยเฉพาะ

สรุป

  • สำหรับนักธุรกิจและผู้มีอำนาจตัดสินใจด้านสารสนเทศ ไม่ควรละเลยความพยายามที่จะเข้าใจการใช้ประโยชน์จากเสียงในแอพพลิเคชั่นที่หลากหลาย
  • เทคโนโลยีเสียง เป็นส่วนหนึ่งของการเปลี่ยนแปลงโดยรวมและเป็นบวก ของวิธีการที่องค์กรดำเนินการ วิธีที่นักธุรกิจเชื่อมโยงกับข้อมูลและบุคคลอื่น ๆ รวมถึงการให้บริการกับลูกค้า
  • หากองค์กรต้องการส่งมอบประสบการณ์ของลูกค้าที่ดีขึ้นในวันพรุ่งนี้ ควรจะต้องเริ่มเตรียมตัวตั้งแต่วันนี้

*************************************

หมายเลขบันทึก: 659360เขียนเมื่อ 19 มกราคม 2019 15:53 น. ()แก้ไขเมื่อ 19 มกราคม 2019 15:54 น. ()สัญญาอนุญาต: ครีเอทีฟคอมมอนส์แบบ แสดงที่มา-ไม่ใช้เพื่อการค้า-ไม่ดัดแปลงจำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (0)

ไม่มีความเห็น

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท