จุฬาฯ เจ๋ง พัฒนา AI สัญชาติไทย “Gowajee” ช่วยคัดกรองผู้ป่วยซึมเศร้า

11 November 2022
11:45 am

แชร์บทความ

อาจารย์วิศวฯ จุฬาฯ ออกแบบ “Gowajee” (โก วา จี) นวัตกรรม AI ถอดความภาษาไทย แปลงเสียงเป็นข้อความ และข้อความเป็นเสียง แม่นยำเป็นธรรมชาติ เก็บข้อมูลปลอดภัย เริ่มใช้งานแล้วกับระบบคอลเซ็นเตอร์และการคัดกรองผู้ป่วยซึมเศร้า

ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่ง หรือ บอกให้โปรแกรม AI (Artificial Intelligence หรือ ปัญญาประดิษฐ์) อย่าง Google หรือ Siri ค้นหาหรือทำงานตามที่เราต้องการ แทนการสัมผัสแป้นพิมพ์อักษร แต่ AI voice เหล่านั้น ดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยมากนัก เพราะถูกพัฒนามาจากบริษัทต่างชาติ ซึ่งเน้นการใช้งานกับหลายภาษา โดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษ หลายครั้งแปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้ต้องปรับการออกเสียงภาษาไทย เพื่อให้เข้ากับ AI

จากปัญหาดังกล่าว อาจารย์ ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย และทีม ได้พัฒนา AI สัญชาติไทยแท้ “Gowajee” (อ่านว่า โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะ เพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำ และเป็นธรรมชาติมากขึ้น พิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9% เท่านั้น เมื่อเทียบกับ AI ถอดความอื่น ๆ ที่มีความผิดพลาดราว 15%

ดร.เอกพล และทีมงาน ของคณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน โดยเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบ ทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่ามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ ซึ่งการค้นความหมายในเสียง Gowajee ยังสามารถช่วยคัดกรองผู้ป่วยซึมเศร้า เพราะจากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่าง ๆ

นอกจากนี้ ทีม Gowajee ได้เข้าไปมีส่วนช่วยพัฒนาระบบของแอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า และยังได้พัฒนาให้ Gowajee ให้สามารถจำแนกอารมณ์จากเสียงพูด เพื่อนำไปวิเคราะห์คัดกรองกลุ่มเสี่ยงได้อีกด้วย บางครั้ง ผู้ป่วยจะพูดไป ร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee ก็ทำงานได้ค่อนข้างดี สามารถจับคำสำคัญให้ได้ และถอดความสำคัญออกมา ซึ่งเป็นอีกหนึ่งนวัตกรรมช่วยเหลือสังคม ของ คณะวิศวกรรมศาสตร์ จุฬาฯ

ดร.เอกพล กล่าวเพิ่มเติมว่า Gowajee สามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่
1. Automated Speech Recognition (ASR) เป็นการทำงานในลักษณะของการถอดความ คือ เมื่อเราพูดอะไรลงไป โปรแกรมจะแปลงสิ่งที่เราพูดให้ออกมาเป็นข้อความ โดยมีจุดเด่นที่สามารถถอดความภาษาไทยปนอังกฤษได้เป็นอย่างดี ยกตัวอย่าง การใช้งานในการเรียนรู้ เวลาเราฟังเลคเชอร์ หากเราบันทึกเสียงอาจารย์เอาไว้ โปรแกรมก็จะช่วยถอดความออกมาเป็นตัวหนังสือให้เราใช้ในการค้นหาส่วนที่ต้องการได้เลย ไม่ต้องคอยฟังทั้งหมด
2. Text-to-Speech (TTS) เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด อย่างที่เราคุ้นเคยในการใช้ Google หรือ Siri ในการช่วยอ่านข้อความ แต่สำหรับองค์กรหรือบริษัทแล้ว การมีเสียงที่เป็นตัวแทนขององค์กรโดยเฉพาะ จะเป็นการสร้างอัตลักษณ์ขององค์กร ซึ่งทาง Gowajee มีกระบวนการสร้างเสียงจำเพาะที่มีงานวิจัยรองรับว่าเสียงที่ออกมาจะสมจริง
3. Automatic Speaker Verification (ASV) เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือ นำมาใช้เพื่อบ่งบอกว่าใครพูด เมื่อใด

และอีกจุดเด่นของ Gowajee ที่เหนือกว่า AI ถอดความอื่น ๆ คือ “ความปลอดภัยของข้อมูล” เพราะโดยปกติแล้ว เวลาเราใช้โปรแกรมถอดความอื่น ๆ ข้อมูลจะถูกเก็บไว้บนคลาวด์ (Cloud) หรือ ทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการ แต่สำหรับ Gowajee ข้อมูลเหล่านี้จะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง สำหรับธุรกิจที่ต้องการความปลอดภัยของข้อมูล เช่น ธุรกิจธนาคาร หรือประกันภัย จะช่วยสร้างความอุ่นใจให้กับผู้ใช้บริการได้มากขึ้น