เทคโนโลยีเสียง

เทคโนโลยีเสียง

Voice Technology

พลตรี มารวย ส่งทานินทร์

19 มกราคม 2562

บทความเรื่อง เทคโนโลยีเสียง (Voice Technology) นำมาจากบทความบนอินเตอร์เน็ตที่หลากหลาย เช่น Wikipedia, https://danielmiessler.com/blog/computer-voice-interfaces-are-a-combination-of-voice-recognition-and-nlp, https://www.forbes.com/sites/forbesagencycouncil/2018/07/27/how-voice-technology-is-changing-the-way-we-work/#7b988f114a4d เป็นต้น

ผู้ต้องการเอกสารนี้แบบ PowerPoint (PDF file) สามารถ Download ได้ที่ https://www.slideshare.net/maruay/voice-technology

เกริ่นนำ

การยอมรับอย่างกว้างขวางของเทคโนโลยีเสียงโดยชาวอเมริกันนับล้าน จะเปลี่ยนวิธีที่ผู้คนค้นหา บริโภค และดำเนินการกับข้อมูล ในอนาคตข้างหน้า
ในขณะนี้ เทคโนโลยีเสียง (voice technology) ได้สร้างผลกระทบต่อพฤติกรรมของผู้คน
จากการวิจัยของ Google พบว่า 72% ของคนที่มีลำโพงเปิดใช้งานด้วยเสียง (voice-activated speaker) บอกว่า อุปกรณ์ของพวกเขา ถูกใช้เป็นส่วนหนึ่งของกิจวัตรประจำวัน

ผู้ช่วยเสมือนที่ใช้เสียง (Voice based virtual assistants)

ผู้ช่วยเสมือนตามบ้านอย่าง Alexa และ Google Home ได้สร้างความมั่นใจในการสนทนา ทำให้ผู้บริโภคคุ้นเคยกับการโต้ตอบกับเทคโนโลยีที่ราบรื่น
Amazon และ Google ครองตำแหน่งสำคัญระหว่างตราสินค้าและลูกค้า โดยอาศัยประโยชน์จากความสะดวกของการสนทนานี้

เทคโนโลยีด้านเสียง

ทุกวันนี้ เกือบทุกคนที่มีแล็ปท็อปหรือสมาร์ทโฟน จะมีประสบการณ์บางอย่างกับเทคโนโลยีเสียง
บางทีคุณอาจใช้ Siri เพื่อตั้งเตือนการปลุก หรือขอเพลงบางเพลงระหว่างเดินทางไปทำงาน หรือบางทีคุณอาจขอให้ Cortana เตือนคุณเกี่ยวกับการประชุมที่กำลังจะมาถึง
เทคโนโลยีเสียงมีวิวัฒนาการที่ช้าแต่แน่นอน ได้เปลี่ยนวิธีที่เราโต้ตอบกับอุปกรณ์ของเรา ทำให้เราทำงานหลายอย่างได้ เช่น ตรวจสอบสภาพอากาศหรือสั่งพิซซ่า โดยใช้เพียงเสียงของเรา

ทำไมต้องตอนนี้?

เสียงคือ “ การเชื่อมต่อกับผู้ใช้ (user interface)” ที่ดั้งเดิมที่สุด
พวกเราส่วนใหญ่ เติบโตขึ้นจากการเรียนรู้วิธีการสื่อสารด้วยวิธีนี้ ทำให้เป็นวิธีการสื่อสารที่ต้องการ เพราะเป็นสิ่งที่เราพอใจที่สุด
ตอนนี้ เรากำลังเวียนกลับไปที่เสียง หลังจากใช้เวลาหลายปีกับอีเมล์ การส่งข้อความ และการพิมพ์ค้นหา เป็นต้น
Speech recognition รู้จำเสียงได้ถึง 99% (เทียบกับมนุษย์เข้าใจคำของกันและกัน เพียงแค่ประมาณ 92%)
คาดว่าอุตสาหกรรมเทคโนโลยีเสียง จะเพิ่มรายได้เป็นสี่เท่าภายในปี ค.ศ. 2022
และในที่สุด โลกก็กำลังใกล้เข้ามากับ "ระบบนิเวศของเทคโนโลยี (ecosystem of tech)" อย่างรวดเร็ว ซึ่งโทรศัพท์ แล็ปท็อป ทีวี รถยนต์ และอุปกรณ์ภายในบ้านของคุณ สามารถสื่อสารซึ่งกันและกันด้วย อินเทอร์เน็ตของสรรพสิ่ง (Internet of Things)

การเชื่อมต่อด้วยเสียง (Computer Voice Interfaces)

การเชื่อมต่อด้วยเสียงของคอมพิวเตอร์ เป็นการผสมผสานระหว่าง การจดจำเสียง (Voice Recognition) และ การประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP)
สำหรับผู้ใช้ อาจเข้าใจว่า"การเชื่อมต่อด้วยเสียง (voice interfaces)" กับคอมพิวเตอร์ เช่น Siri หรือ Alexa เป็นเทคโนโลยีเดียว
อันที่จริงแล้ว มันเป็นสองเทคโนโลยีที่รวมกัน
ประการแรก คอมพิวเตอร์ต้องเข้าใจอย่างถ่องแท้ในสิ่งที่คุณพูด นั่นหมายถึงการถอดรหัสเสียงพึมพำ ลบเสียงรบกวนรอบข้าง จัดการเสียงและสำเนียงต่างๆ ซึ่งในปัจจุบันนี้ทำได้ดีขึ้น
ประการที่สอง คอมพิวเตอร์จำเป็นต้องเข้าใจสิ่งที่คุณตั้งใจให้ทำ สิ่งนี้เป็นเรื่องยาก เพราะมันหมายถึงการแปลและทำแผนที่คำสั่งนั้น ไปยังคำสั่งที่มีอยู่ แล้วจึงดำเนินการ
ทั้งสองนี้แตกต่างกันมาก อย่างแรกเรียกว่า การจดจำเสียง (Voice Recognition) และอย่างที่สองเรียกว่า การประมวลผลภาษาธรรมชาติ (Natural Language Processing)

การประมวลด้วยเสียง (Voice computing)

การประมวลด้วยเสียง เป็นการพัฒนาฮาร์ดแวร์หรือซอฟต์แวร์เพื่อประมวลผลของเสียงที่นำเข้า
มันครอบคลุมหลายสาขาเช่น การปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ การสนทนาภาษาศาสตร์ด้วยคอมพิวเตอร์ การประมวลผลภาษาธรรมชาติ การรู้จำเสียงอัตโนมัติ การสังเคราะห์เสียงพูด วิศวกรรมเสียง การประมวลผลสัญญาณดิจิตอลคอมพิวเตอร์ ข้อมูลในคลาวด์ วิทยาศาสตร์ข้อมูล จริยธรรม กฎหมาย และความปลอดภัยของข้อมูล
ประมาณปี ค.ศ. 2011 Siri ได้ปรากฏตัวบน Apple iPhones ในฐานะผู้ช่วยเสียงคนแรกที่เข้าถึงผู้บริโภค
Amazon เปิดตัว Amazon Echo ในปี ค.ศ. 2014 (30+ ล้านอุปกรณ์)
Microsoft เปิดตัว Cortana ค.ศ. 2015 (400 ล้านของผู้ใช้ Windows 10)
Google เปิดตัว Google Assistant ค.ศ. 2016 (2 พันล้านของผู้ใช้งานรายเดือนบนโทรศัพท์ Android)
และ Apple เปิดตัว HomePod ค.ศ. 2018 (ยอดขาย 500,000 อุปกรณ์ และ 1 พันล้านอุปกรณ์ ที่ใช้งานกับ iOS/Siri)

การรู้จำเสียง (Speech recognition)

การรู้จำเสียง เป็นสาขาย่อยสหวิทยาการของภาษาศาสตร์ด้านคอมพิวเตอร์ ที่พัฒนาวิธีการและเทคโนโลยี ช่วยให้การรู้จำและการแปลภาษาพูดเป็นข้อความด้วยคอมพิวเตอร์
ซึ่งเป็นที่รู้จักกันคือ การรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition: ASR) และ การแปลงเสียงพูดเป็นข้อความ (Speech To Text: STT)
เป็นการรวมความรู้และการวิจัย ด้านภาษาศาสตร์ วิทยาการคอมพิวเตอร์ และสาขาวิศวกรรมไฟฟ้า
ระบบรู้จำเสียงบางระบบต้องการ"การฝึกอบรม" (หรือที่เรียกว่า "การลงทะเบียน") ซึ่งผู้พูดแต่ละคนต้องอ่านข้อความหรือคำศัพท์ที่มีอยู่ในระบบ ระบบจะวิเคราะห์เสียงเฉพาะของบุคคลและใช้ในการรู้จำเสียงพูดของบุคคลนั้นอย่างละเอียด ทำให้มีความแม่นยำมากขึ้น
ระบบที่ไม่ใช้การฝึกอบรมจะเรียกว่าระบบ"ผู้พูดแบบอิสระ" ระบบที่ใช้การฝึกอบรมจะเรียกว่า"ผู้พูดที่เจาะจง"

การประมวลผลภาษาธรรมชาติ (Natural language processing: NLP)

การประมวลผลภาษาธรรมชาติ เป็นสาขาย่อยของวิทยาการคอมพิวเตอร์ วิศวกรรมข้อมูล และปัญญาประดิษฐ์ ที่เกี่ยวข้องกับการปฏิสัมพันธ์ระหว่างคอมพิวเตอร์และภาษามนุษย์ โดยเฉพาะอย่างยิ่ง วิธีการที่โปรแกรมคอมพิวเตอร์ใช้ในการประมวลผล และวิเคราะห์ข้อมูลภาษาธรรมชาติจำนวนมาก
ความท้าทายในการประมวลผลภาษาธรรมชาติ มักเกี่ยวข้องกับการรู้จำเสียงพูด ความเข้าใจภาษาธรรมชาติ และการสร้างภาษาของธรรมชาติ

การเชื่อมต่อกับผู้ใช้เสียง (Voice-User Interface: VUI)

การเชื่อมต่อกับผู้ใช้เสียง ทำให้มนุษย์สามารถพูดโต้ตอบกับคอมพิวเตอร์ได้ โดยใช้การรู้จำเสียง เพื่อทำความเข้าใจกับคำสั่งและคำถามที่พูด
อุปกรณ์คำสั่งเสียง (Voice Command Device: VCD) เป็นอุปกรณ์ที่ควบคุมด้วยส่วนต่อประสานกับผู้ใช้เสียง
VCD รุ่นใหม่นั้น เป็นแบบผู้พูดอิสระ ดังนั้นจึงสามารถตอบสนองต่อเสียงที่หลากหลาย โดยไม่คำนึงถึงอิทธิพลของสำเนียงภาษา
มีการเชื่อมต่อประสานกับผู้ใช้เสียง ในรถยนต์ ระบบอัตโนมัติภายในบ้าน ระบบปฏิบัติการคอมพิวเตอร์ เครื่องใช้ภายในบ้านเช่น เครื่องซักผ้า เตาไมโครเวฟ และรีโมทคอนโทรลของโทรทัศน์
สิ่งเหล่านี้ ใช้เสียงเป็นวิธีหลักในการโต้ตอบกับผู้ช่วยเสมือน บนสมาร์ทโฟนและลำโพงอัจฉริยะ

เทคโนโลยีเสียงเปลี่ยนแปลงวิธีการทำงานของเราอย่างไร

ที่ผ่านมา มีกี่ครั้งที่คุณตั้งระบบเตือน ส่งข้อความ หรือค้นหาคำตอบ เพียงแค่พูดลงในโทรศัพท์ของคุณ
เทคโนโลยีเสียง เมื่อรวมกับผู้ช่วยAI (ปัญญาประดิษฐ์) ในตัว เช่น Siri และ Cortana ทำให้สถานการณ์เหล่านี้เป็นเรื่องธรรมดา และเปลี่ยนวิธีที่เราใช้ชีวิตประจำวัน
แต่เทคโนโลยีเสียงนั้น ไม่ได้มีเพียงประโยชน์ในขอบเขตของผู้บริโภคเท่านั้น ในด้านธุรกิจก็ได้รับประโยชน์อย่างมาก จากความสามารถในการออกคำสั่งค้นหาข้อมูล และสั่งการบันทึก โดยใช้เพียงเสียงและอุปกรณ์อัจฉริยะ

ข้อที่ 1. ปรับปรุงการแบ่งปันข้อมูลภายในองค์กร

IBM Watson เป็นแอปพลิเคชั่นเสียง ที่ปรับแต่งสำหรับองค์กร
ลองคิดดูว่า ในขณะที่ทำงานอยู่ในโรงงาน บุคลากรสามารถเข้าถึงอินทราเน็ตของบริษัท เอกสารกระบวนการ และเอกสารทรัพยากรบุคคลทั้งหมด โดยไม่ต้องยกนิ้ว
การทำให้ทุกคนสามารถเข้าถึงข้อมูลได้ จะช่วยให้ทุกระดับขององค์กรมีประสิทธิภาพมากขึ้น

ข้อที่ 2. เพิ่มผลผลิตผ่านการทำงานได้หลายอย่าง

ความสามารถในการถามคำถามง่าย ๆ กำหนดการประชุม จับเวลา การเตือน และอีกมากมาย โดยไม่ต้องหยุดในสิ่งที่คุณทำ จะมีประโยชน์อย่างเหลือเชื่อ และก็เป็นเช่นนั้นแล้ว
Alexa เป็นเครื่องมือสำคัญสำหรับสำนักงานในวันนี้ ที่สร้างความมั่นใจในการติดตามรายการดำเนินการ รายการที่ต้องทำ และเตือนการประชุมที่จะเกิดขึ้น

ข้อที่ 3. มีเวลาว่างมากขึ้นสำหรับผู้บริหารระดับสูง

ความช่วยเหลือด้วยเสียง มีความเป็นไปได้ที่จะเพิ่มเวลาที่มีค่าให้กับผู้บริหารระดับสูง ซึ่งช่วยให้พวกเขาเปลี่ยนจุดเน้นไปยังลำดับความสำคัญที่สูงขึ้น ในรายการที่พวกเขามีอยู่
การใส่การประชุมในปฏิทิน การส่งข้อความด่วน และงานอื่น ๆ ที่คล้ายกัน จะถูกแทนที่ด้วยเทคโนโลยีเสียง

ข้อที่ 4. ควบคุมสภาพแวดล้อมการทำงานได้ดีขึ้น

เป็นที่คาดการณ์ว่า ในปี ค.ศ. 2020 จะมีถึง 30% ของการค้นหาในเว็บด้วยเสียง และภายใน 4 ปี การซื้อสินค้าออนไลน์ด้วยเสียง คาดว่าจะสูงถึง 4 หมื่นล้านดอลลาร์
ในขณะที่เรากำลังเขียนอีเมล์ เราสามารถใช้ Alexa เพื่อสั่งของจากAmazon รับคำแนะนำร้านอาหาร ค้นหาสถิติล่าสุด และปรับเปลี่ยนอุณหภูมิในสำนักงาน
เรายังสามารถขอให้ Alexa รับสายแทนได้

ข้อที่ 5. ระบบอัตโนมัติของกระบวนการประจำ

Alexa สำหรับธุรกิจ ใช้คำสั่งเสียงง่าย ๆ เพื่อควบคุมอุปกรณ์ในห้อง ตั้งค่าการประชุมโดยไม่มีปัญหาขัดแย้ง และประหยัดเวลาในโลกธุรกิจ
นอกจากนี้ ยังสามารถรายงานไปยังแผนกไอที เกี่ยวกับเครื่องพิมพ์ที่เสียหาย ฯลฯ
ในระยะยาว หนึ่งในข้อเสนอที่มีค่ามากที่สุดของผู้ช่วยด้านเสียงคือ ความสามารถในการทำให้กระบวนการประจำกลายเป็นอัตโนมัติ

ข้อที่ 6. ความคล่องตัวของการทำงานและลดแรงเสียดทานการสื่อสาร

Google ได้แนะนำความสามารถของเทคโนโลยีเสียง ในการกำหนดตารางนัดหมาย ที่ส่งผลกระทบต่อกระบวนการทำงานรายวันของเรา
อีกไม่นาน เราจะสามารถพูดออกมาดัง ๆ ว่า "นัดประชุมกับทอมเวลา 14.00 น." เท่านั้น เป็นอันเสร็จสิ้น!
การส่งอีเมล์ ข้อความโต้ตอบแบบทันที และเรื่องสำนักงานที่ไม่มีที่สิ้นสุด ซึ่งต้องใช้เวลาในแต่ละวัน เทคโนโลยีเสียงจะกลายเป็นเครื่องมืออันล้ำค่า สำหรับการปรับปรุงขั้นตอนการทำงานทั่วไปและช่วยลดแรงเสียดทาน

ข้อที่ 7. ข้อมูลเชิงลึกเกี่ยวกับแนวคิดผู้บริโภค

นอกเหนือจากประโยชน์ของผู้ช่วยเสียงในที่ทำงาน ซึ่งสามารถใช้ในการจองการประชุม จัดการรายการที่ต้องทำ และส่งข้อความถึงเพื่อนร่วมงาน เทคโนโลยีเสียงสามารถช่วยนักการตลาดให้อยู่ในใจของผู้บริโภค ด้วยการสำรวจผลลัพธ์การค้นหาด้วยเสียง
ตัวอย่างเช่นการเล่นเกมด้วยเสียง (Voice gaming) สามารถใช้เป็นแบบจำลองสำหรับวิธีที่ผู้บริโภค สำรวจเนื้อหาของเว็บไซต์ด้วยเสียง

ข้อที่ 8. เอกสารและจดบันทึกที่ง่ายขึ้น

ทุกบริษัท ต้องการเอกสารเกี่ยวกับกระบวนการในระดับหนึ่ง ขั้นตอนการปฏิบัติงานมาตรฐาน และรูปแบบการสื่อสารที่ยาวนานและน่าเบื่อ
ถ้ายังไม่มีใครมีเวลาเขียนให้กับพวกเขา ทำไมไม่บอกพวกเขาใช้เทคโนโลยีเสียง?
การแก้ไขบางอย่างของข้อความ ง่ายกว่าการเขียนตั้งแต่เริ่มต้น

ข้อที่ 9. งานที่เป็นของมนุษย์โดยเฉพาะ

เสียงได้เริ่มเข้ามามีบทบาทในสถานที่ทำงาน เพื่อปรับปรุงประสิทธิภาพของผู้ปฏิบัติงาน
การเขียนตามคำบอก ช่วยให้การจดบันทึกรายละเอียดระหว่างการประชุมเป็นปัจจุบัน เป็นไปได้อย่างไม่มีความแตกต่าง
Cortana ช่วยให้คุณค้นหา กำหนดเวลาการนัดหมาย และตั้งค่าการเตือน
เมื่อใช้อย่างมีประสิทธิภาพ เทคโนโลยีจะช่วยให้ผู้ปฏิบัติงานมุ่งเน้นไปที่กลยุทธ์ และความคิดสร้างสรรค์ ซึ่งเป็นองค์ประกอบที่ทำให้เราเป็นมนุษย์โดยเฉพาะ

สรุป

สำหรับนักธุรกิจและผู้มีอำนาจตัดสินใจด้านสารสนเทศ ไม่ควรละเลยความพยายามที่จะเข้าใจการใช้ประโยชน์จากเสียงในแอพพลิเคชั่นที่หลากหลาย
เทคโนโลยีเสียง เป็นส่วนหนึ่งของการเปลี่ยนแปลงโดยรวมและเป็นบวก ของวิธีการที่องค์กรดำเนินการ วิธีที่นักธุรกิจเชื่อมโยงกับข้อมูลและบุคคลอื่น ๆ รวมถึงการให้บริการกับลูกค้า
หากองค์กรต้องการส่งมอบประสบการณ์ของลูกค้าที่ดีขึ้นในวันพรุ่งนี้ ควรจะต้องเริ่มเตรียมตัวตั้งแต่วันนี้

*************************************

เทคโนโลยีเสียง

ความเห็น

บทความในวันเดียวกัน