จาก คลื่นเสียง สู่ ตัวอักษร ด้วย Speech-to-Text by WordSense ผู้ช่วยอัจฉริยะแปลงเสียงเป็นข้อความ

รู้หรือไม่!? เทคโนโลยีปัญญาประดิษฐ์ (AI) กำลังจะเข้ามาเปลี่ยนแปลงการทำงานของ ‘คอลเซ็นเตอร์’ อย่างสิ้นเชิง จากอดีตที่ลูกค้าต้องถือสายรอเป็นเวลานานเพื่อพูดคุยกับเจ้าหน้าที่ แต่ปัจจุบันเราสามารถได้รับคำตอบที่รวดเร็วและแม่นยำภายในไม่กี่วินาที พร้อมทั้งสามารถเพิ่มประสิทธิภาพในการขายของ telesales ด้วยการแนะนำผลิตภัณฑ์บน sale script แบบ real-time ช่วยทำให้ยอดขายเพิ่มขึ้นและ QC อัตโนมัติลดความผิดพลาดทางการขาย

ทั้งหมดนี้เกิดขึ้นได้เพราะเทคโนโลยี ‘Speech-to-Text’ หรือ Automatic Speech Recognition (ASR) ที่เข้ามามีบทบาทสำคัญในการแปลงเสียงพูดของลูกค้าเป็นข้อความอย่างแม่นยำ ทำให้การบริการลูกค้ารวดเร็วและมีประสิทธิภาพยิ่งขึ้น

หนึ่งในผู้เชี่ยวชาญด้านการพัฒนาเทคโนโลยี Speech-to-Text ในประเทศไทย อย่าง บริษัท เวิร์ดเซนส์ จำกัด (WordSense) ภายใต้การดูแลของบริษัท ลูลู่ เทคโนโลยี จำกัด กำลังนำเทคโนโลยีนี้เข้าสู่ตลาดในวงกว้าง ด้วยความสามารถของ Speech-to-Text ที่สามารถทำงานแทนมนุษย์ในหลากหลายด้าน ช่วยเพิ่มประสิทธิภาพการทำงาน ลดข้อผิดพลาด ลดจำนวนกำลังคนที่จำเป็น และช่วยประหยัดต้นทุนให้กับองค์กรได้อย่างมีนัยสำคัญ

วันนี้เราจึงจะมาทำความรู้จักกับเทคโนโลยีล้ำสมัยนี้ให้มากยิ่งขึ้น ผ่านการพูดคุยกับ สหพัฒณ์ ล้ำสมบัติ CEO ของบริษัท เวิร์ดเซนส์ จำกัด ที่จะพาทุกคนไปเจาะลึกและเข้าใจเทคโนโลยี Speech-to-Text อย่างละเอียดและชัดเจน

จาก ‘คลื่นเสียง’ สู่ ‘ตัวอักษร’ นวัตกรรมการสื่อสารยุคใหม่

สหพัฒณ์ เริ่มต้นบทสนทนาด้วยการอธิบายถึงกระบวนการทำงานของเทคโนโลยี Speech-to-Text หรือ Automatic Speech Recognition (ASR) โดยกล่าวว่า เทคโนโลยีนี้เป็น AI ที่ใช้จับเสียงแล้วนำมาแปลงเป็นข้อความ ซึ่งรองรับไฟล์ได้หลากหลายรูปแบบ สำหรับหลักการทำงานของเทคโนโลยีนี้ โปรแกรมจะวิเคราะห์ ‘คลื่นเสียง’ เป็นหลัก ซึ่งคลื่นเสียงจะแตกต่างกันไปตามภาษาและน้ำเสียงที่ผู้พูดเปล่งออกมา นี่คือเหตุผลว่าทำไมโปรแกรมอย่าง SIRI หรือ Google Assistant จึงมีความสามารถในการฟังและเข้าใจภาษาอังกฤษได้ดีกว่าภาษาไทย เนื่องจากถูกพัฒนาโดยบริษัทต่างชาติที่เน้นภาษาอังกฤษเป็นหลัก

“ในยุคเริ่มต้น เทคโนโลยี Speech-to-Text ยังไม่แม่นยำมากนัก การแปลงเสียงเป็นข้อความมักเกิดข้อผิดพลาด หากมีการออกเสียงผิดเพียงเล็กน้อย ข้อความที่ได้ก็อาจไม่ถูกต้อง ดังนั้น เทคโนโลยี Speech-to-Text จึงถูกพัฒนาควบคู่กับความสามารถในการเข้าใจภาษา เพื่อให้มั่นใจว่าข้อความที่แปลงออกมานั้นถูกต้องและสอดคล้องกับคำพูดจริงๆ ไม่ใช่แค่คำที่สุ่มขึ้นมา” คุณสหพัฒณ์ CEO ของเวิร์ดเซนส์ อธิบายเพิ่มเติม

‘แม่นยำ-รวดเร็ว-ชัดเจน’ จุดเด่นของ Speech-to-Text by WordSense

หลังจากปูพื้นฐานเกี่ยวกับเทคโนโลยี Speech-to-Text แล้ว สหพัฒณ์ ยังได้เล่าถึงจุดเด่นของเทคโนโลยีดังกล่าว ที่ WordSense ได้พัฒนาและคิดค้นอีกด้วยว่า โมเดล Speech-to-Text ของบริษัทเรา มีความโดดเด่นตรงที่เทคโนโลยีมีความแม่นยำสูงในการแปลงเสียงพูดเป็นข้อความ โดยเฉพาะภาษาไทย

อย่างไรก็ตาม เทคโนโลยีของเรายังสามารถถอดเสียงและแปลงเป็นข้อความได้ในเวลาใกล้เคียงกับการพูด และสามารถแยกแยะเสียงของแต่ละบุคคลในระหว่างการสนทนา ทำให้เข้าใจและวิเคราะห์บทสนทนาได้อย่างชัดเจน ตลอดจนสามารถปรับแต่งให้รองรับการใช้งานเฉพาะของอุตสาหกรรม เช่น การบริการลูกค้า การประชุม หรือการฝึกอบรม

“โดยทั่วไปแล้ว โมเดล Speech-to-Text มักจะเรียนรู้จากข้อมูลที่มีอยู่บนโลกออนไลน์ หากเปรียบเทียบโมเดลตัวนี้เป็นเด็กคนหนึ่ง การที่โมเดลได้เรียนรู้ข้อมูลทั้งหมด ก็เหมือนเด็กที่เรียนจบระดับมัธยมศึกษาตอนปลาย แต่ยังไม่มีความรู้เชิงลึกในด้านใดด้านหนึ่ง ซึ่งหลายแห่งที่พัฒนาและคิดค้น Speech-to-Text ก็ยังคงอยู่ในขั้นตอนนี้เท่านั้น

“แต่ WordSense ไม่หยุดคิดค้น เราเลือกที่จะพัฒนาโมเดลให้ตอบโจทย์ลูกค้าโดยตรง ด้วยการเจาะลึกไปในบางหมวดเฉพาะ และสร้างโมเดลที่เหมาะกับอุตสาหกรรมนั้นๆ อาทิ ด้านการแพทย์ การก่อสร้าง การขายประกัน ฯลฯ โดยเราเทรนโมเดลให้เรียนรู้และเข้าใจศัพท์เฉพาะในแต่ละอุตสาหกรรม เพื่อให้โมเดลทำงานได้อย่างมีประสิทธิภาพสูงสุด” สหพัฒณ์ กล่าว

ผู้ช่วยอัจฉริยะยกระดับการทำงานของ ‘คอลเซ็นเตอร์’

ไม่เพียงเท่านั้น CEO เวิร์ดเซนส์ ยังได้ยกตัวอย่างเคสที่น่าสนใจด้วยว่า เทคโนโลยี Speech-to-Text ถือได้ว่ามีบทบาทสำคัญอย่างมากในการทำงานของ ‘คอลเซ็นเตอร์’ ในปัจจุบัน เพราะโดยทั่วไปแล้ว คอลเซ็นเตอร์จะบันทึกบทสนทนาทางโทรศัพท์ระหว่างเจ้าหน้าที่และลูกค้า ต่อจากนั้นจะนำ Speech-to-Text เข้ามาช่วยถอดคำพูดในบทสนทนาออกมาเป็นข้อความ ทำให้สามารถนำข้อมูลไปใช้วิเคราะห์ปัญหาต่างๆ ปรับปรุงและพัฒนาธุรกิจให้มีประสิทธิภาพมากขึ้น

นอกจากนี้ หลายคนอาจเคยได้รับโทรศัพท์ที่ตัวแทนโทรมาเสนอขายประกัน ซึ่งตัวแทนมักจะแจ้งข้อมูลตัวเองและแนะนำเลขที่กรมธรรม์ต่างๆ คุณอาจสงสัยว่าทำไมต้องทำเช่นนี้ นั่นเป็นเพราะกฎหมายบังคับของสำนักงานคณะกรรมการกำกับและส่งเสริมการประกอบธุรกิจประกันภัย (คปภ.) ที่กำหนดให้เจ้าหน้าที่ต้องเปิดเผยรายละเอียดใบอนุญาตและข้อมูลที่จำเป็นให้กับลูกค้า

ต่อมาเจ้าหน้าที่ Broker จะทำการตรวจสอบคุณภาพของบริษัทนายหน้าประกันภัย ให้แน่ใจว่ามีการให้ข้อมูลที่ชัดเจนและครบถ้วนกับลูกค้า เพื่อป้องกันการร้องเรียนจากลูกค้า ซึ่งปกติแล้วกระบวนการตรวจสอบนี้ต้องใช้ทีมงานจำนวนมากในการฟังและตรวจสอบบทสนทนา จึงมีบางบริษัทที่นำเทคโนโลยี Speech-to-Text ไปปรับใช้ในการตรวจสอบบทสนทนาเหล่านี้ เพื่อลดภาระงานของทีมงานตรวจสอบและเพิ่มความแม่นยำในการดำเนินการ

จากการนำเทคโนโลยี Speech-to-Text มาใช้ในการตรวจสอบคุณภาพของบริษัทนายหน้าประกันภัย แสดงให้เห็นถึงการเพิ่มประสิทธิภาพในการดำเนินงาน ด้วยการถอดเสียงและตรวจสอบบทสนทนาการขายประกันแบบอัตโนมัติ ช่วยลดจำนวนคนในการทำงาน และลดเวลาที่ต้องใช้ในการป้อนข้อมูลและการตรวจสอบด้วยมือ รวมถึงสามารถรวมเข้ากับโครงสร้างพื้นฐานเดิมก็ได้อย่างราบรื่นและมีประสิทธิภาพ

ไขปัญหาการใช้งาน Speech-to-Text : ความท้าทายที่มาพร้อมกับโซลูชัน

นอกเหนือจากคุณสมบัติอันโดดเด่นของเทคโนโลยี Speech-to-Text จาก WordSense ที่ก้าวล้ำไปอย่างไม่หยุดยั้ง เมื่อใช้งานไปแล้วก็อาจเกิดความไม่ชำนาญ ทำให้พบปัญหาและความท้าทายจากการใช้เทคโนโลยีดังกล่าวนี้ได้

ซึ่ง สหพัฒณ์ อธิบายเพิ่มเติมว่า โมเดลของเราถูกฝึกให้ฟังและจำแนกภาษา ทั้งภาษาไทยและภาษาอังกฤษ ทำให้ไม่ค่อยมีปัญหามากนักหากออกสำเนียงไม่ชัดเจน แต่ถ้าสภาพแวดล้อมมีเสียงรบกวนหรือคุณภาพเสียงไม่ดี ก็อาจส่งผลต่อความแม่นยำของ Speech-to-Text ได้เช่นกัน ดังนั้น การพัฒนาอัลกอริทึมที่สามารถจัดการกับเสียงรบกวนและปรับปรุงคุณภาพเสียงจึงเป็นสิ่งสำคัญ

ขณะเดียวกัน ภาษาไทยมีสำเนียงและวิธีการออกเสียงที่แตกต่างกันในแต่ละภูมิภาค การพัฒนา Speech-to-Text ให้สามารถรับมือกับความหลากหลายนี้ต้องใช้ข้อมูล การฝึกฝน และความเชี่ยวชาญในการประมวลผลมากยิ่งขึ้น ซึ่งอาจส่งผลต่อความถูกต้องและความแม่นยำในการแปลงเสียงเป็นข้อความได้

อีกทั้งเมื่อมีการพูดพร้อมกันจากหลายบุคคล การแยกแยะเสียงพูดแต่ละบุคคลก็เป็นเรื่องท้าทาย ดังนั้น การใช้เทคนิค Diarization จะช่วยให้ Speech-to-Text สามารถแยกแยะเสียงของแต่ละบุคคลได้อย่างมีประสิทธิภาพ

ทำงานเร็วขึ้น ง่ายขึ้น ด้วย WordSense ตัวช่วยที่คุณต้องมี

เมื่อมีการแปลงเสียงเป็นข้อความ ทุกคนย่อมรู้ว่าอาจเกิดความผิดพลาดได้ง่ายมาก แต่ค่า Word Error Rate (WER) ซึ่งเป็นเปอร์เซ็นต์ของความผิดพลาดจากการแปลงเสียงเป็นข้อความของ Speech-to-Text จาก WordSense สามารถทำได้สูงถึงเฉลี่ย 90% กล่าวคือ เมื่อแปลงเสียงเป็นข้อความ 100 คำ จะมีการแปลงข้อความผิดเพียง 10 คำเท่านั้น

“ค่า WER ดังกล่าว เป็นเพียงการวัดเริ่มต้นเท่านั้น ผู้ใช้งานยังสามารถแก้ไขข้อความที่ผิดพลาดได้อย่างต่อเนื่อง ขณะที่โมเดลยังคงทำงานถอดเสียงอยู่ หากพบข้อความที่แปลงผิด ผู้ใช้งานสามารถแก้ไขเองได้ และโมเดลจะเรียนรู้จากการแก้ไขนั้น เพื่อให้การแปลงครั้งต่อไปไม่มีความผิดพลาดซ้ำอีก” CEO เวิร์ดเซนส์ เน้นย้ำ

WordSense ถือเป็นหนึ่งในผู้ให้บริการเทคโนโลยี Speech-to-Text ที่มีความเชี่ยวชาญในการพัฒนาโซลูชัน ด้วยเทคโนโลยี AI ทันสมัยที่มีความแม่นยำสูง ใช้งานได้หลากหลาย และมีฟีเจอร์ที่ตอบโจทย์ความต้องการของผู้ใช้งานอย่างครบถ้วน นับเป็นผู้ช่วยอัจฉริยะที่ไม่เพียงแค่แปลงเสียงเป็นข้อความเท่านั้น แต่ยังช่วยเสริมประสิทธิภาพในการทำงานของทุกคนให้ดียิ่งขึ้น

ที่มา : https://www.prachachat.net/advertorial/news-1651093

—————————————–

Looloo Technology is a leading AI consulting company, renowned for delivering cutting-edge and customized AI and Data Analytics solutions, with expertise in predictive analytics, natural language processing (NLP), intelligent document processing (IDP), and automatic speech recognition (ASR), Our application of design thinking methodology ensures a deep understanding of our clients, complemented by a strategic consulting approach to identify areas for maximal impact. Emphasizing rigorous user testing, we fine-tune our solutions to precisely meet the users needs.

Our team is a collective of exceptional individuals with global experience handpicked from top institutions. Their relentless pursuit of excellence and commitment to innovation is what sets us apart and help bring our clients substantial growth and profitability.

🌐 Website : www.loolootech.com

📱 Facebook : Looloo Technology

📸 Instagram : loolootech

🎥 TikTok: @loolootech

จาก คลื่นเสียง สู่ ตัวอักษร ด้วย Speech-to-Text by WordSense ผู้ช่วยอัจฉริยะแปลงเสียงเป็นข้อความ

จาก ‘คลื่นเสียง’ สู่ ‘ตัวอักษร’ นวัตกรรมการสื่อสารยุคใหม่

ผู้ช่วยอัจฉริยะยกระดับการทำงานของ ‘คอลเซ็นเตอร์’

ไขปัญหาการใช้งาน Speech-to-Text : ความท้าทายที่มาพร้อมกับโซลูชัน

SME ไทยต้องปรับตัว! เมื่อ AI ไม่ได้มาแทนที่คน แต่ทุกธุรกิจต้องมี AI เป็นตัวช่วย

ปลดล็อกเคล็ดลับ จับกระแสธุรกิจกับ The Unlock ถอดรหัสคนสร้างแบรนด์ กรุงเทพธุรกิจ เจาะระบบ AI ของ Looloo Technology

เจาะลึก 3 เทรนด์ AI พลิกโลก FMCG ปี 2026: เมื่อ “ข้อมูล” สำคัญกว่า “สินค้า” Predictive AI ทางรอดของธุรกิจไทย