- หน้าแรก
- เจ้าพ่อเทคโนโลยีการทหาร
- บทที่ 69 : อุณหภูมิของน้ำเสียง
บทที่ 69 : อุณหภูมิของน้ำเสียง
บทที่ 69 : อุณหภูมิของน้ำเสียง
อู๋ฮ่าวส่ายหน้าพร้อมรอยยิ้มแล้วพูดว่า "ไม่ มันยังเป็นแค่สินค้าที่ยังไม่เสร็จสมบูรณ์ ยังมีปัญหาอีกมากที่เราต้องแก้ไข
อย่างเช่นในการสนทนาเมื่อครู่ การทำความเข้าใจบริบทที่คลุมเครือนั้นยังจัดการได้ค่อนข้างยาก"
"บริบทที่คลุมเครือ?"
โจวเสี่ยวตงชะงักไปครู่หนึ่ง ก่อนจะเข้าใจและพูดว่า "เรื่องนี้ดูเหมือนแม้แต่คนจริงๆ ก็ยังทำความเข้าใจได้ยากเลย ไม่ต้องพูดถึงโปรแกรมเครื่องจักรหรอก
ลูกพี่ ผมไม่ค่อยเข้าใจเท่าไหร่ ตอนนี้บริษัทเทคโนโลยีส่วนใหญ่ก็ทำเรื่องการจดจำเสียงและการสนทนาด้วยเสียงกันทั้งนั้น แถมผลลัพธ์ก็ไม่เลวเลย
ซอฟต์แวร์เสียงพวกนี้มีความแม่นยำในการจดจำคำพูดปกติของเราสูงมาก โดยพื้นฐานแล้วทำได้ถึงเก้าสิบเก้าเปอร์เซ็นต์ขึ้นไป
แต่ความเร็วในการตอบสนองของซอฟต์แวร์พวกนั้นเทียบไม่ได้เลยกับความเร็วของเทคโนโลยีชุดนี้ของเรา ความสามารถในการเข้าใจก็สู้ไม่ได้ การเชื่อมโยงความคิดก็เทียบไม่ติด
อีกอย่าง ในด้านการสนทนาด้วยเสียง คุณทำได้ยังไง ให้ภาษาของเครื่องจักรใกล้เคียงกับเสียงคนจริงขนาดนี้
ต้องรู้ก่อนนะว่าประสาทการรับรู้เสียงของมนุษย์นั้นไวมากว่าเป็นคนหรือเสียงโปรแกรมเครื่องจักร แป๊บเดียวก็แยกออกได้แล้ว"
เมื่อได้ยินคำถามร่ายยาวของโจวเสี่ยวตง อู๋ฮ่าวก็ถามกลับไปว่า "นายคิดว่าความแตกต่างที่ใหญ่ที่สุดระหว่างเสียงคนจริงกับเสียง AI คืออะไร?"
โจวเสี่ยวตงคิดอยู่ครู่หนึ่ง แล้วตอบว่า "ขาดจังหวะจะโคนหรือเปล่า?"
อู๋ฮ่าวส่ายหน้า "นั่นไม่ใช่จุดสำคัญที่สุด ความจริงแล้วซอฟต์แวร์เสียงที่มีอยู่ในตลาดตอนนี้สามารถทำจังหวะจะโคนง่ายๆ ได้แล้ว"
"งั้นก็คือ..."
อู๋ฮ่าวมองท่าทางที่คิดไม่ตกของโจวเสี่ยวตง แล้วยิ้มพลางพูดว่า "อารมณ์ความรู้สึก โปรแกรมซอฟต์แวร์เสียงที่มีอยู่ในตลาดทั้งหมดตอนนี้ขาดอารมณ์ความรู้สึก"
"อารมณ์ความรู้สึก? ล้อเล่นน่า โปรแกรมจะมีอารมณ์ได้ยังไง นั่นมันสิ่งที่มีแต่ในมนุษย์นะ" โจวเสี่ยวตงส่ายหน้าอย่างไม่เข้าใจ
อู๋ฮ่าวยิ้ม จากนั้นควบคุมคอมพิวเตอร์ให้แสดงแผนผังโครงสร้างขึ้นบนหน้าจอใหญ่และพูดว่า "จะเรียกว่าอารมณ์ความรู้สึกก็ไม่เชิง เรียกว่า 'อุณหภูมิของภาษา' จะดีกว่า
เวลาเราพูด อีกฝ่ายสามารถรับรู้ถึงการเปลี่ยนแปลงทางอารมณ์ของเราในขณะพูดได้อย่างชัดเจน นี่คืออารมณ์ความรู้สึก และนี่ก็คืออุณหภูมิของภาษา
ส่วนโปรแกรมภาษานั้น จะตอบสนองตามรูปแบบที่กำหนดไว้ตายตัว ดังนั้นมันจึงไม่สามารถเข้าใจอุณหภูมิของแต่ละประโยคได้ ส่งผลให้การสร้างเสียงออกมาไม่มีอุณหภูมิไปด้วย
สิ่งที่เราต้องทำคือ ในกระบวนการกำหนดรูปแบบการจดจำเสียง เราต้องใส่ความเข้าใจในสภาพแวดล้อมของคำศัพท์ทางภาษาลงไป และวิเคราะห์อุณหภูมิของคำพูดรวมถึงการเปลี่ยนแปลงทางอารมณ์ของผู้พูดจากระดับเสียงที่แตกต่างกัน"
"ผมก็ยังไม่เข้าใจอยู่ดี เวลาคนพูด อารมณ์ที่แสดงออกมามันเปลี่ยนแปลงได้เป็นพันเป็นหมื่นแบบ โปรแกรมจะจับจุดพวกนั้นได้ยังไง ต้องรู้นะว่าบางครั้งการเปลี่ยนแปลงเพียงเล็กน้อยในภาษาและน้ำเสียง ก็สามารถแสดงความหมายและอารมณ์ที่แตกต่างกันโดยสิ้นเชิงได้ เครื่องจักรจะแยกแยะยังไง" โจวเสี่ยวตงถามข้อสงสัยของเขา
อู๋ฮ่าวสาธิตเนื้อหาบนหน้าจอไปพลาง ยิ้มตอบเขาไปพลางว่า "ตรงนี้แหละที่ต้องใช้เทคโนโลยี AI น้ำเสียงและภาษาของแต่ละคนไม่เหมือนกัน การแสดงออกทางอารมณ์ก็เปลี่ยนแปลงได้หลากหลาย หากใช้วิธีแบบดั้งเดิม เราต้องดึงข้อมูล รวบรวม และวิเคราะห์บริบทภาษาและน้ำเสียงที่เปลี่ยนแปลงมากมายเหล่านี้เพื่อกำหนดนิยาม ถ้าทำแบบนั้น ปริมาณงานจะมหาศาลเกินไป
ดังนั้นความสามารถในการเรียนรู้และวิวัฒนาการของเทคโนโลยี AI จึงทำให้ผมพบแนวทาง เราสามารถฝึกฝนชุดโปรแกรมเสียง AI พื้นฐานขึ้นมาได้โดยการดึงข้อมูลเสียงจำนวนมหาศาลจากอินเทอร์เน็ต
แน่นอนว่า นี่เป็นเพียงตัวอย่างโปรแกรมพื้นฐาน เราจำเป็นต้องปรับเปลี่ยนให้เหมาะสมตามความเคยชินของผู้ใช้งาน ยิ่งผู้ใช้งานใช้นานเท่าไหร่ ระดับความเข้าใจและการจดจำของโปรแกรม AI ก็จะยิ่งแม่นยำมากขึ้นเท่านั้น"
พูดถึงตรงนี้ อู๋ฮ่าวก็หัวเราะ "จริงๆ แล้วมันเหมือนกับกระบวนการที่คนเราคบหากันในสังคมจริงเลย หลังจากคนแปลกหน้าสองคนได้รู้จักและคบหากัน ทั้งสองฝ่ายต่างก็ค่อยๆ เรียนรู้และปรับตัวเข้าหากัน
ยิ่งเวลานานไป ทั้งสองฝ่ายก็ยิ่งคุ้นเคยกันมากขึ้น ถึงขนาดที่ฝ่ายหนึ่งพูดคำง่ายๆ คำเดียว ทำท่าทาง หรือแค่ใช้สายตา อีกฝ่ายก็สามารถรับรู้และเข้าใจได้อย่างถูกต้อง นี่แหละคือสิ่งที่เรียกว่า 'ความรู้ใจ'
และสิ่งที่เราต้องทำคือการสร้างความรู้ใจระหว่างโปรแกรมกับมนุษย์ แต่ผู้ใช้งานนั้นเปลี่ยนแปลงยาก ทำได้แค่ค่อยๆ ซึมซับไป ดังนั้นเราต้องเริ่มจากซอฟต์แวร์โปรแกรม ให้มันปรับตัวเข้าหาผู้ใช้ และเปลี่ยนแปลงผู้ใช้ไปในตัวอย่างแนบเนียน
มีแค่แบบนี้เท่านั้น การปฏิสัมพันธ์ระหว่างมนุษย์และคอมพิวเตอร์ถึงจะรู้ใจกันมากยิ่งขึ้น
นี่ก็เป็นสาเหตุที่ก่อนหน้านี้ตอนที่ผมคุยกับ '10' มันไม่สามารถเข้าใจบริบทที่คลุมเครือของผมได้ มันยังไม่คุ้นเคยกับนิสัยการพูดของผม เลยไม่เข้าใจว่าคำพูดคลุมเครือไม่กี่ประโยคที่ผมพูดไปนั้นหมายความว่าอะไร
อย่างเช่นคำว่า นิดหน่อย, กี่อัน, เท่าไหร่, งั้นก็, ที่ไหน, แล้วแต่ คำศัพท์คลุมเครือที่ไม่ระบุชี้ชัดพวกนี้ โปรแกรมเข้าใจและจัดการได้ยากมาก ซึ่งตรงนี้เราต้องกำหนดนิยามพื้นฐานให้กับคำเหล่านี้ โดยนิยามนี้ต้องไม่ตายตัวแข็งทื่อ แต่ต้องปรับเปลี่ยนไปตามบริบทของผู้ใช้งานอย่างเหมาะสม"
พูดจบ อู๋ฮ่าวก็มองโจวเสี่ยวตงแล้วพูดด้วยสีหน้าจริงจังว่า "และมีเพียงโปรแกรมที่เข้าใจอุณหภูมิของอารมณ์ในคำพูดของคนเราแล้วเท่านั้น โปรแกรมถึงจะสามารถจำลองเสียงพูดที่คล้ายกับคนจริงออกมาได้"
"ไม่ว่าจะพูดยังไง นี่ก็ถือเป็นการค้นพบครั้งยิ่งใหญ่ในวงการเทคโนโลยีเสียง AI ผมคิดว่าพอเทคโนโลยีนี้เปิดตัวออกไป ต้องสั่นสะเทือนไปทั่วโลกแน่ๆ มันคือตัวแทนของการมาถึงของยุคเสียงอัจฉริยะอย่างแท้จริง
พูดตามตรง ผมแทบจะรอไม่ไหวแล้ว" โจวเสี่ยวตงเลียริมฝีปากที่แห้งผากเล็กน้อยด้วยความตื่นเต้น
อู๋ฮ่าวโบกมือ "ไม่ได้เวอร์ขนาดที่นายพูดหรอก แต่ในด้านเทคนิคแล้ว มันก็นับเป็นการค้นพบครั้งใหญ่จริงๆ"
"ลูกพี่ เทคโนโลยีนี้พี่ตั้งใจจะเจาะตลาดผู้บริโภคทั่วไปโดยตรง หรือจะร่วมมือกับลูกค้าองค์กร ขายเทคโนโลยีและสิทธิบัตรที่เกี่ยวข้อง หรือว่าจะให้บริการในรูปแบบโอเพ่นซอร์ส?" โจวเสี่ยวตงถามด้วยความอยากรู้ นี่เป็นเทคโนโลยีระดับเฮฟวี่เวท ไม่ว่าจะร่วมมือกับใคร ก็จะนำมาซึ่งแรงสั่นสะเทือนครั้งใหญ่ในวงการ
"นายคิดว่าไงล่ะ" อู๋ฮ่าวไม่ได้ตอบโดยตรง แต่ถามกลับไป
โจวเสี่ยวตงคิดอยู่ครู่หนึ่ง แล้วพูดกับอู๋ฮ่าวอย่างจริงจังว่า "บริษัทจะเติบโตและแข็งแกร่งได้ จะจำกัดอยู่แค่ในด้านเดียวไม่ได้ การร่วมมือกับองค์กรช่วยประหยัดเรื่องจุกจิกได้เยอะก็จริง แต่ความเสี่ยงสูง หากองค์กรคู่ค้าได้เทคโนโลยีที่ล้ำหน้ากว่า เราก็จะเสี่ยงถูกทิ้งทันที
ดังนั้นผมคิดว่า เราควรบุกตลาดมวลชน ใช้เทคโนโลยีนี้สร้างชื่อแบรนด์ของเราในหมู่ประชาชน และขยายอิทธิพลของเรา มีแต่ทำแบบนี้ ในการพัฒนาวันข้างหน้าเราถึงจะลดปัญหาและแรงต้านที่ไม่จำเป็นลงได้บ้าง"
"วิเคราะห์ได้ตรงจุดมาก แต่ศักยภาพของตลาดนี้มหาศาล พึ่งพาแค่การผูกขาดอย่างเดียวคงไม่ได้แน่ เรายังคงต้องร่วมมือกับองค์กรเหล่านั้น แต่แน่นอนว่า ในตลาดมวลชนเราก็ยอมล้าหลังไม่ได้เช่นกัน
ดังนั้นผมเลยตั้งใจจะทำทั้งสองอย่างควบคู่กันไป และผู้ช่วยเสียงอัจฉริยะตัวนี้ก็คือสิ่งที่ผมสร้างขึ้นมาเพื่อตลาดมวลชนโดยเฉพาะ เป็นไง ถ้าปล่อยคลิปวิดีโอที่ผมสาธิตเมื่อกี้ออกไป นายว่าสังคมและคนในวงการจะมีปฏิกิริยายังไง" อู๋ฮ่าวถามยิ้มๆ
"พี่หมายถึง... ฮ่าๆ ผมคาดหวังมากเลยล่ะ!"