เทคโนโลยีเสียง เป็นส่วนหนึ่งของการเปลี่ยนแปลงโดยรวมและเป็นบวก ของวิธีการที่องค์กรดำเนินการ วิธีที่นักธุรกิจเชื่อมโยงกับข้อมูลและบุคคลอื่น ๆ รวมถึงการให้บริการกับลูกค้า
เทคโนโลยีเสียง
Voice Technology
พลตรี มารวย ส่งทานินทร์
[email protected]
19 มกราคม 2562
บทความเรื่อง เทคโนโลยีเสียง (Voice Technology) นำมาจากบทความบนอินเตอร์เน็ตที่หลากหลาย เช่น Wikipedia, https://danielmiessler.com/blog/computer-voice-interfaces-are-a-combination-of-voice-recognition-and-nlp, https://www.forbes.com/sites/forbesagencycouncil/2018/07/27/how-voice-technology-is-changing-the-way-we-work/#7b988f114a4d เป็นต้น
ผู้ต้องการเอกสารนี้แบบ PowerPoint (PDF file) สามารถ Download ได้ที่ https://www.slideshare.net/maruay/voice-technology
เกริ่นนำ
- การยอมรับอย่างกว้างขวางของเทคโนโลยีเสียงโดยชาวอเมริกันนับล้าน จะเปลี่ยนวิธีที่ผู้คนค้นหา บริโภค และดำเนินการกับข้อมูล ในอนาคตข้างหน้า
- ในขณะนี้ เทคโนโลยีเสียง (voice technology) ได้สร้างผลกระทบต่อพฤติกรรมของผู้คน
- จากการวิจัยของ Google พบว่า 72% ของคนที่มีลำโพงเปิดใช้งานด้วยเสียง (voice-activated speaker) บอกว่า อุปกรณ์ของพวกเขา ถูกใช้เป็นส่วนหนึ่งของกิจวัตรประจำวัน
ผู้ช่วยเสมือนที่ใช้เสียง (Voice based virtual assistants)
- ผู้ช่วยเสมือนตามบ้านอย่าง Alexa และ Google Home ได้สร้างความมั่นใจในการสนทนา ทำให้ผู้บริโภคคุ้นเคยกับการโต้ตอบกับเทคโนโลยีที่ราบรื่น
-
Amazon และ Google ครองตำแหน่งสำคัญระหว่างตราสินค้าและลูกค้า โดยอาศัยประโยชน์จากความสะดวกของการสนทนานี้
เทคโนโลยีด้านเสียง
- ทุกวันนี้ เกือบทุกคนที่มีแล็ปท็อปหรือสมาร์ทโฟน จะมีประสบการณ์บางอย่างกับเทคโนโลยีเสียง
- บางทีคุณอาจใช้ Siri เพื่อตั้งเตือนการปลุก หรือขอเพลงบางเพลงระหว่างเดินทางไปทำงาน หรือบางทีคุณอาจขอให้ Cortana เตือนคุณเกี่ยวกับการประชุมที่กำลังจะมาถึง
- เทคโนโลยีเสียงมีวิวัฒนาการที่ช้าแต่แน่นอน ได้เปลี่ยนวิธีที่เราโต้ตอบกับอุปกรณ์ของเรา ทำให้เราทำงานหลายอย่างได้ เช่น ตรวจสอบสภาพอากาศหรือสั่งพิซซ่า โดยใช้เพียงเสียงของเรา
ทำไมต้องตอนนี้?
- เสียงคือ “ การเชื่อมต่อกับผู้ใช้ (user interface)” ที่ดั้งเดิมที่สุด
- พวกเราส่วนใหญ่ เติบโตขึ้นจากการเรียนรู้วิธีการสื่อสารด้วยวิธีนี้ ทำให้เป็นวิธีการสื่อสารที่ต้องการ เพราะเป็นสิ่งที่เราพอใจที่สุด
- ตอนนี้ เรากำลังเวียนกลับไปที่เสียง หลังจากใช้เวลาหลายปีกับอีเมล์ การส่งข้อความ และการพิมพ์ค้นหา เป็นต้น
-
Speech recognition รู้จำเสียงได้ถึง 99% (เทียบกับมนุษย์เข้าใจคำของกันและกัน เพียงแค่ประมาณ 92%)
- คาดว่าอุตสาหกรรมเทคโนโลยีเสียง จะเพิ่มรายได้เป็นสี่เท่าภายในปี ค.ศ. 2022
- และในที่สุด โลกก็กำลังใกล้เข้ามากับ "ระบบนิเวศของเทคโนโลยี (ecosystem of tech)" อย่างรวดเร็ว ซึ่งโทรศัพท์ แล็ปท็อป ทีวี รถยนต์ และอุปกรณ์ภายในบ้านของคุณ สามารถสื่อสารซึ่งกันและกันด้วย อินเทอร์เน็ตของสรรพสิ่ง (Internet of Things)
การเชื่อมต่อด้วยเสียง (Computer Voice Interfaces)
- การเชื่อมต่อด้วยเสียงของคอมพิวเตอร์ เป็นการผสมผสานระหว่าง การจดจำเสียง (Voice Recognition) และ การประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP)
- สำหรับผู้ใช้ อาจเข้าใจว่า"การเชื่อมต่อด้วยเสียง (voice interfaces)" กับคอมพิวเตอร์ เช่น Siri หรือ Alexa เป็นเทคโนโลยีเดียว
- อันที่จริงแล้ว มันเป็นสองเทคโนโลยีที่รวมกัน
- ประการแรก คอมพิวเตอร์ต้องเข้าใจอย่างถ่องแท้ในสิ่งที่คุณพูด นั่นหมายถึงการถอดรหัสเสียงพึมพำ ลบเสียงรบกวนรอบข้าง จัดการเสียงและสำเนียงต่างๆ ซึ่งในปัจจุบันนี้ทำได้ดีขึ้น
- ประการที่สอง คอมพิวเตอร์จำเป็นต้องเข้าใจสิ่งที่คุณตั้งใจให้ทำ สิ่งนี้เป็นเรื่องยาก เพราะมันหมายถึงการแปลและทำแผนที่คำสั่งนั้น ไปยังคำสั่งที่มีอยู่ แล้วจึงดำเนินการ
- ทั้งสองนี้แตกต่างกันมาก อย่างแรกเรียกว่า การจดจำเสียง (Voice Recognition) และอย่างที่สองเรียกว่า การประมวลผลภาษาธรรมชาติ (Natural Language Processing)
การประมวลด้วยเสียง (Voice computing)
- การประมวลด้วยเสียง เป็นการพัฒนาฮาร์ดแวร์หรือซอฟต์แวร์เพื่อประมวลผลของเสียงที่นำเข้า
- มันครอบคลุมหลายสาขาเช่น การปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ การสนทนาภาษาศาสตร์ด้วยคอมพิวเตอร์ การประมวลผลภาษาธรรมชาติ การรู้จำเสียงอัตโนมัติ การสังเคราะห์เสียงพูด วิศวกรรมเสียง การประมวลผลสัญญาณดิจิตอลคอมพิวเตอร์ ข้อมูลในคลาวด์ วิทยาศาสตร์ข้อมูล จริยธรรม กฎหมาย และความปลอดภัยของข้อมูล
- ประมาณปี ค.ศ. 2011 Siri ได้ปรากฏตัวบน Apple iPhones ในฐานะผู้ช่วยเสียงคนแรกที่เข้าถึงผู้บริโภค
-
Amazon เปิดตัว Amazon Echo ในปี ค.ศ. 2014 (30+ ล้านอุปกรณ์)
-
Microsoft เปิดตัว Cortana ค.ศ. 2015 (400 ล้านของผู้ใช้ Windows 10)
-
Google เปิดตัว Google Assistant ค.ศ. 2016 (2 พันล้านของผู้ใช้งานรายเดือนบนโทรศัพท์ Android)
- และ Apple เปิดตัว HomePod ค.ศ. 2018 (ยอดขาย 500,000 อุปกรณ์ และ 1 พันล้านอุปกรณ์ ที่ใช้งานกับ iOS/Siri)
การรู้จำเสียง (Speech recognition)
- การรู้จำเสียง เป็นสาขาย่อยสหวิทยาการของภาษาศาสตร์ด้านคอมพิวเตอร์ ที่พัฒนาวิธีการและเทคโนโลยี ช่วยให้การรู้จำและการแปลภาษาพูดเป็นข้อความด้วยคอมพิวเตอร์
- ซึ่งเป็นที่รู้จักกันคือ การรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition: ASR) และ การแปลงเสียงพูดเป็นข้อความ (Speech To Text: STT)
- เป็นการรวมความรู้และการวิจัย ด้านภาษาศาสตร์ วิทยาการคอมพิวเตอร์ และสาขาวิศวกรรมไฟฟ้า
- ระบบรู้จำเสียงบางระบบต้องการ"การฝึกอบรม" (หรือที่เรียกว่า "การลงทะเบียน") ซึ่งผู้พูดแต่ละคนต้องอ่านข้อความหรือคำศัพท์ที่มีอยู่ในระบบ ระบบจะวิเคราะห์เสียงเฉพาะของบุคคลและใช้ในการรู้จำเสียงพูดของบุคคลนั้นอย่างละเอียด ทำให้มีความแม่นยำมากขึ้น
- ระบบที่ไม่ใช้การฝึกอบรมจะเรียกว่าระบบ"ผู้พูดแบบอิสระ" ระบบที่ใช้การฝึกอบรมจะเรียกว่า"ผู้พูดที่เจาะจง"
การประมวลผลภาษาธรรมชาติ (Natural language processing: NLP)
- การประมวลผลภาษาธรรมชาติ เป็นสาขาย่อยของวิทยาการคอมพิวเตอร์ วิศวกรรมข้อมูล และปัญญาประดิษฐ์ ที่เกี่ยวข้องกับการปฏิสัมพันธ์ระหว่างคอมพิวเตอร์และภาษามนุษย์ โดยเฉพาะอย่างยิ่ง วิธีการที่โปรแกรมคอมพิวเตอร์ใช้ในการประมวลผล และวิเคราะห์ข้อมูลภาษาธรรมชาติจำนวนมาก
- ความท้าทายในการประมวลผลภาษาธรรมชาติ มักเกี่ยวข้องกับการรู้จำเสียงพูด ความเข้าใจภาษาธรรมชาติ และการสร้างภาษาของธรรมชาติ
การเชื่อมต่อกับผู้ใช้เสียง (Voice-User Interface: VUI)
- การเชื่อมต่อกับผู้ใช้เสียง ทำให้มนุษย์สามารถพูดโต้ตอบกับคอมพิวเตอร์ได้ โดยใช้การรู้จำเสียง เพื่อทำความเข้าใจกับคำสั่งและคำถามที่พูด
-
อุปกรณ์คำสั่งเสียง (Voice Command Device: VCD) เป็นอุปกรณ์ที่ควบคุมด้วยส่วนต่อประสานกับผู้ใช้เสียง
-
VCD รุ่นใหม่นั้น เป็นแบบผู้พูดอิสระ ดังนั้นจึงสามารถตอบสนองต่อเสียงที่หลากหลาย โดยไม่คำนึงถึงอิทธิพลของสำเนียงภาษา
- มีการเชื่อมต่อประสานกับผู้ใช้เสียง ในรถยนต์ ระบบอัตโนมัติภายในบ้าน ระบบปฏิบัติการคอมพิวเตอร์ เครื่องใช้ภายในบ้านเช่น เครื่องซักผ้า เตาไมโครเวฟ และรีโมทคอนโทรลของโทรทัศน์
- สิ่งเหล่านี้ ใช้เสียงเป็นวิธีหลักในการโต้ตอบกับผู้ช่วยเสมือน บนสมาร์ทโฟนและลำโพงอัจฉริยะ
เทคโนโลยีเสียงเปลี่ยนแปลงวิธีการทำงานของเราอย่างไร
- ที่ผ่านมา มีกี่ครั้งที่คุณตั้งระบบเตือน ส่งข้อความ หรือค้นหาคำตอบ เพียงแค่พูดลงในโทรศัพท์ของคุณ
- เทคโนโลยีเสียง เมื่อรวมกับผู้ช่วย AI (ปัญญาประดิษฐ์) ในตัว เช่น Siri และ Cortana ทำให้สถานการณ์เหล่านี้เป็นเรื่องธรรมดา และเปลี่ยนวิธีที่เราใช้ชีวิตประจำวัน
- แต่เทคโนโลยีเสียงนั้น ไม่ได้มีเพียงประโยชน์ในขอบเขตของผู้บริโภคเท่านั้น ในด้านธุรกิจก็ได้รับประโยชน์อย่างมาก จากความสามารถในการออกคำสั่งค้นหาข้อมูล และสั่งการบันทึก โดยใช้เพียงเสียงและอุปกรณ์อัจฉริยะ
ข้อที่ 1. ปรับปรุงการแบ่งปันข้อมูลภายในองค์กร
-
IBM Watson เป็นแอปพลิเคชั่นเสียง ที่ปรับแต่งสำหรับองค์กร
- ลองคิดดูว่า ในขณะที่ทำงานอยู่ในโรงงาน บุคลากรสามารถเข้าถึงอินทราเน็ตของบริษัท เอกสารกระบวนการ และเอกสารทรัพยากรบุคคลทั้งหมด โดยไม่ต้องยกนิ้ว
- การทำให้ทุกคนสามารถเข้าถึงข้อมูลได้ จะช่วยให้ทุกระดับขององค์กรมีประสิทธิภาพมากขึ้น
ข้อที่ 2. เพิ่มผลผลิตผ่านการทำงานได้หลายอย่าง
- ความสามารถในการถามคำถามง่าย ๆ กำหนดการประชุม จับเวลา การเตือน และอีกมากมาย โดยไม่ต้องหยุดในสิ่งที่คุณทำ จะมีประโยชน์อย่างเหลือเชื่อ และก็เป็นเช่นนั้นแล้ว
-
Alexa เป็นเครื่องมือสำคัญสำหรับสำนักงานในวันนี้ ที่สร้างความมั่นใจในการติดตามรายการดำเนินการ รายการที่ต้องทำ และเตือนการประชุมที่จะเกิดขึ้น
ข้อที่ 3. มีเวลาว่างมากขึ้นสำหรับผู้บริหารระดับสูง
- ความช่วยเหลือด้วยเสียง มีความเป็นไปได้ที่จะเพิ่มเวลาที่มีค่าให้กับผู้บริหารระดับสูง ซึ่งช่วยให้พวกเขาเปลี่ยนจุดเน้นไปยังลำดับความสำคัญที่สูงขึ้น ในรายการที่พวกเขามีอยู่
- การใส่การประชุมในปฏิทิน การส่งข้อความด่วน และงานอื่น ๆ ที่คล้ายกัน จะถูกแทนที่ด้วยเทคโนโลยีเสียง
ข้อที่ 4. ควบคุมสภาพแวดล้อมการทำงานได้ดีขึ้น
- เป็นที่คาดการณ์ว่า ในปี ค.ศ. 2020 จะมีถึง 30% ของการค้นหาในเว็บด้วยเสียง และภายใน 4 ปี การซื้อสินค้าออนไลน์ด้วยเสียง คาดว่าจะสูงถึง 4 หมื่นล้านดอลลาร์
- ในขณะที่เรากำลังเขียนอีเมล์ เราสามารถใช้ Alexa เพื่อสั่งของจากAmazon รับคำแนะนำร้านอาหาร ค้นหาสถิติล่าสุด และปรับเปลี่ยนอุณหภูมิในสำนักงาน
- เรายังสามารถขอให้ Alexa รับสายแทนได้
ข้อที่ 5. ระบบอัตโนมัติของกระบวนการประจำ
-
Alexa สำหรับธุรกิจ ใช้คำสั่งเสียงง่าย ๆ เพื่อควบคุมอุปกรณ์ในห้อง ตั้งค่าการประชุมโดยไม่มีปัญหาขัดแย้ง และประหยัดเวลาในโลกธุรกิจ
- นอกจากนี้ ยังสามารถรายงานไปยังแผนกไอที เกี่ยวกับเครื่องพิมพ์ที่เสียหาย ฯลฯ
- ในระยะยาว หนึ่งในข้อเสนอที่มีค่ามากที่สุดของผู้ช่วยด้านเสียงคือ ความสามารถในการทำให้กระบวนการประจำกลายเป็นอัตโนมัติ
ข้อที่ 6. ความคล่องตัวของการทำงานและลดแรงเสียดทานการสื่อสาร
-
Google ได้แนะนำความสามารถของเทคโนโลยีเสียง ในการกำหนดตารางนัดหมาย ที่ส่งผลกระทบต่อกระบวนการทำงานรายวันของเรา
- อีกไม่นาน เราจะสามารถพูดออกมาดัง ๆ ว่า "นัดประชุมกับทอมเวลา 14.00 น." เท่านั้น เป็นอันเสร็จสิ้น!
- การส่งอีเมล์ ข้อความโต้ตอบแบบทันที และเรื่องสำนักงานที่ไม่มีที่สิ้นสุด ซึ่งต้องใช้เวลาในแต่ละวัน เทคโนโลยีเสียงจะกลายเป็นเครื่องมืออันล้ำค่า สำหรับการปรับปรุงขั้นตอนการทำงานทั่วไปและช่วยลดแรงเสียดทาน
ข้อที่ 7. ข้อมูลเชิงลึกเกี่ยวกับแนวคิดผู้บริโภค
- นอกเหนือจากประโยชน์ของผู้ช่วยเสียงในที่ทำงาน ซึ่งสามารถใช้ในการจองการประชุม จัดการรายการที่ต้องทำ และส่งข้อความถึงเพื่อนร่วมงาน เทคโนโลยีเสียงสามารถช่วยนักการตลาดให้อยู่ในใจของผู้บริโภค ด้วยการสำรวจผลลัพธ์การค้นหาด้วยเสียง
- ตัวอย่างเช่นการเล่นเกมด้วยเสียง (Voice gaming) สามารถใช้เป็นแบบจำลองสำหรับวิธีที่ผู้บริโภค สำรวจเนื้อหาของเว็บไซต์ด้วยเสียง
ข้อที่ 8. เอกสารและจดบันทึกที่ง่ายขึ้น
- ทุกบริษัท ต้องการเอกสารเกี่ยวกับกระบวนการในระดับหนึ่ง ขั้นตอนการปฏิบัติงานมาตรฐาน และรูปแบบการสื่อสารที่ยาวนานและน่าเบื่อ
- ถ้ายังไม่มีใครมีเวลาเขียนให้กับพวกเขา ทำไมไม่บอกพวกเขาใช้เทคโนโลยีเสียง?
- การแก้ไขบางอย่างของข้อความ ง่ายกว่าการเขียนตั้งแต่เริ่มต้น
ข้อที่ 9. งานที่เป็นของมนุษย์โดยเฉพาะ
- เสียงได้เริ่มเข้ามามีบทบาทในสถานที่ทำงาน เพื่อปรับปรุงประสิทธิภาพของผู้ปฏิบัติงาน
- การเขียนตามคำบอก ช่วยให้การจดบันทึกรายละเอียดระหว่างการประชุมเป็นปัจจุบัน เป็นไปได้อย่างไม่มีความแตกต่าง
-
Cortana ช่วยให้คุณค้นหา กำหนดเวลาการนัดหมาย และตั้งค่าการเตือน
- เมื่อใช้อย่างมีประสิทธิภาพ เทคโนโลยีจะช่วยให้ผู้ปฏิบัติงานมุ่งเน้นไปที่กลยุทธ์ และความคิดสร้างสรรค์ ซึ่งเป็นองค์ประกอบที่ทำให้เราเป็นมนุษย์โดยเฉพาะ
สรุป
- สำหรับนักธุรกิจและผู้มีอำนาจตัดสินใจด้านสารสนเทศ ไม่ควรละเลยความพยายามที่จะเข้าใจการใช้ประโยชน์จากเสียงในแอพพลิเคชั่นที่หลากหลาย
- เทคโนโลยีเสียง เป็นส่วนหนึ่งของการเปลี่ยนแปลงโดยรวมและเป็นบวก ของวิธีการที่องค์กรดำเนินการ วิธีที่นักธุรกิจเชื่อมโยงกับข้อมูลและบุคคลอื่น ๆ รวมถึงการให้บริการกับลูกค้า
- หากองค์กรต้องการส่งมอบประสบการณ์ของลูกค้าที่ดีขึ้นในวันพรุ่งนี้ ควรจะต้องเริ่มเตรียมตัวตั้งแต่วันนี้
*************************************