Mati Staniszewski ซีอีโอ ElevenLabs เผยทิศทางอนาคต ‘โมเดลเสียง AI จะกลายเป็นสินค้าโภคภัณฑ์’ ย้ำบริษัทเร่งสร้างแพลตฟอร์ม “ผลิตภัณฑ์+AI” เพื่อสร้างความได้เปรียบระยะยาว
Mati Staniszewski ประธานเจ้าหน้าที่บริหารและผู้ร่วมก่อตั้ง ElevenLabs บริษัทเทคโนโลยีเสียงปัญญาประดิษฐ์ (Voice AI) ที่เติบโตเร็วที่สุดแห่งหนึ่งของโลก ได้เปิดเผยวิสัยทัศน์เชิงกลยุทธ์ของบริษัท พร้อมทั้งประเมินทิศทางอนาคตของอุตสาหกรรมปัญญาประดิษฐ์ด้านเสียง โดยเขามองว่าในระยะยาว ‘โมเดลเสียง AI’ (AI audio models) ที่เป็นหัวใจหลักของเทคโนโลยีจะกลายเป็นเพียง “สินค้าโภคภัณฑ์” ทั่วไป และความได้เปรียบที่แท้จริงจะอยู่ที่การสร้างผลิตภัณฑ์ที่ผสานรวม AI เข้ากับประสบการณ์ผู้ใช้อย่างไร้รอยต่อ
ElevenLabs ก่อตั้งขึ้นในปี 2022 โดยมุ่งเน้นการพัฒนาระบบสังเคราะห์เสียงจากข้อความ (Text-to-Speech) ที่มีความสมจริงสูง สามารถถ่ายทอดอารมณ์และบริบททางภาษาได้อย่างเป็นธรรมชาติ จนถูกประเมินมูลค่าบริษัทสูงถึง 6.6 พันล้านดอลลาร์สหรัฐฯ ในปัจจุบัน บริษัทได้สร้างความร่วมมือกับองค์กรใหญ่ ๆ อาทิ Epic Games และ Deutsche Telekom และมีการเติบโตในกลุ่มลูกค้าองค์กร (Enterprise) อย่างก้าวกระโดด จากเดิมที่มีสัดส่วนเพียง 10% เมื่อต้นปี 2024 เพิ่มขึ้นมาใกล้เคียง 40-50% ในปัจจุบัน ขณะที่ยอดรวมรายได้ประจำปีคาดว่าจะทะลุ 300 ล้านดอลลาร์สหรัฐฯ
การปรับยุทธศาสตร์จาก โมเดล สู่ ผลิตภัณฑ์
สตานิสเชฟสกี ยอมรับว่า ปัจจุบัน ความเหนือกว่าด้านโมเดล (Model Superiority) ยังคงเป็นข้อได้เปรียบทางเทคนิคที่สำคัญที่สุดของ ElevenLabs โดยเฉพาะอย่างยิ่งในการเอาชนะคู่แข่งรายใหญ่อย่าง OpenAI ในการวัดมาตรฐานเทคโนโลยีเสียง อย่างไรก็ตาม เขากล่าวในการประชุม TechCrunch Disrupt 2025 ว่า ความแตกต่างด้านประสิทธิภาพของโมเดลเสียง AI นั้นจะลดน้อยลงเรื่อย ๆ และจะกลายเป็นเทคโนโลยีพื้นฐานที่ทุกคนเข้าถึงได้ภายใน 1-2 ปีข้างหน้า
ด้วยเหตุนี้ ElevenLabs จึงเริ่มวางรากฐานสำหรับยุค “หลังโมเดล” (post-model era) โดยย้ายจุดเน้นไปที่การสร้าง AI + Product” ที่ครบวงจร ดังเช่นที่ Apple ประสบความสำเร็จในการผสานฮาร์ดแวร์และซอฟต์แวร์เพื่อสร้างประสบการณ์อันน่ามหัศจรรย์ ElevenLabs ต้องการใช้โมเดลที่พัฒนาขึ้นเองเป็น “เครื่องยนต์” ขับเคลื่อนแอปพลิเคชันที่มีมูลค่าสูงเฉพาะทาง โดยให้ความสำคัญกับความน่าเชื่อถือ (Reliability) การขยายขนาด (Scalability) และความสามารถในการปรับใช้ตามสถานการณ์ (Scenario Adaptability) มากกว่าแค่คุณภาพเสียงที่ดีที่สุด
Voice AI คืออินเทอร์เฟซหลักแห่งอนาคต
ซีอีโอ ElevenLabs ยังคงย้ำถึงความเชื่อที่ว่า เสียงจะเป็นอินเทอร์เฟซหลัก (Core Interface) สำหรับการปฏิสัมพันธ์กับเทคโนโลยี AI เนื่องจากเสียงเป็นรูปแบบการสื่อสารที่มนุษย์ใช้มาตั้งแต่ต้นกำเนิดและสามารถถ่ายทอดข้อมูลได้มากกว่าตัวอักษร ปัจจุบัน บริษัทกำลังเร่งพัฒนาทั้งเครื่องมือเชิงสร้างสรรค์ (Creative Tools) และระบบ AI สนทนา (Conversational AI) ซึ่งในขณะนี้ เทคโนโลยี AI สนทนาเป็นส่วนที่มีความก้าวหน้าเร็วกว่า
นอกจากนี้ ElevenLabs ยังเตรียมพร้อมสำหรับการเปลี่ยนแปลงสู่ AI แบบหลายโมดอล (Multi-modal AI) ซึ่งเป็นการรวมความสามารถในการประมวลผลสื่อหลายประเภทเข้าด้วยกัน เช่น การสร้างเสียงและวิดีโอไปพร้อมกัน หรือการเชื่อมโยงโมเดลภาษาขนาดใหญ่ (LLMs) กับกลไกเสียงแบบไดนามิกในการสนทนา ซึ่งจะเป็นการบุกเบิกในอีก 1-2 ปีข้างหน้า
โครงสร้างองค์กรแบบ Agile และการสร้าง Creator Economy
สตานิสเชฟสกี เปิดเผยว่า เพื่อรักษาความสามารถในการสร้างสรรค์นวัตกรรมด้วยความรวดเร็วและประสิทธิภาพสูง บริษัทได้ใช้โครงสร้างองค์กรที่แตกต่าง โดยแบ่งพนักงานออกเป็น “ไมโครทีม” (micro-teams) ประมาณ 20 ทีม แต่ละทีมมีสมาชิกเพียง 5 ถึง 10 คน แนวทางนี้ช่วยให้บริษัทหลีกเลี่ยงข้อจำกัดของระบบราชการแบบดั้งเดิม และส่งผลให้ ElevenLabs สามารถเซ็นสัญญาโครงการมูลค่าหลายล้านดอลลาร์ได้อย่างต่อเนื่อง
ในด้านเศรษฐกิจดิจิทัล ElevenLabs ได้สร้าง Voice Marketplace ซึ่งเป็นแพลตฟอร์มที่เปิดโอกาสให้ครีเอเตอร์สร้างรายได้จากเสียงของตนเอง โดยมีการจ่ายเงินรวมไปแล้วกว่า 10 ล้านดอลลาร์สหรัฐฯ ให้กับผู้สร้างสรรค์เนื้อหา นอกจากนี้ แม้บริษัทจะเติบโตอย่างรวดเร็วและมีพนักงานเกือบ 400 คน แต่สตานิสเชฟสกีและผู้ร่วมก่อตั้งยังคงยืนยันที่จะสัมภาษณ์ผู้สมัครงานทุกคนด้วยตนเอง เพื่อให้มั่นใจว่าบุคลากรใหม่จะมีความเหมาะสมกับวัฒนธรรมองค์กรที่เน้นความคล่องตัวและคุณภาพเป็นหลัก