شرکت استارتاپ هوش مصنوعی MyShell اخیرا یک مدل هوش مصنوعی به نام Open Voice را به صورت متنباز منتشر کرده که قادر به شبیهسازی بسیار واقعگرایانه و طبیعی صدای افراد است.
Open Voice یک پلتفرم پیشرفته یادگیری عمیق برای کپیبرداری از صدا محسوب میشود که با بهرهگیری از تنها چند نمونه صوتی کوتاه (حدود چند ثانیه) از صحبتهای یک شخص، میتواند بلافاصله صدای او را به طور بسیار طبیعی و حیرتانگیزی شبیهسازی کند. سپس با اعمال الگوریتمهای پیشرفته پردازش زبان طبیعی، امکان تبدیل هر متنی به صدای شبیهسازیشده فراهم میآید. به این ترتیب کاربر میتواند متون دلخواه خود را به صدای واقعی خودش یا شخص مورد نظر تبدیل کند.
مزیت اصلی Open Voice نسبت به مدلهای تجاری مشابه، متنباز بودن آن است که اجازه اصلاح، بهبود و توسعه بیشتر مدل را به همگان میدهد. همچنین به دلیل رایگان بودن، دسترسی به آن برای عموم کاربران و محققان بسیار آسان خواهد بود.
Open Voice ترکیبی هوشمندانه از دو مدل مجزای یادگیری عمیق است که یکی از آنها مسئول کنترل ویژگیهای صوتی مانند لحن، احساسات، سبک و لهجه و دیگری مسئول شبیهسازی دقیق و همخوانی با صدای اصلی فرد است.
این مدل برای آموزش از مجموعه دادههای عظیم و باکیقیتی شامل بیش از ۳۰۰ هزار نمونه صوتی از ۲۰ هزار و ۳۰ هزار جمله با برچسبهای دقیق احساسی استفاده کرده است. با ترکیب هوشمندانه نتایج این دو مدل، Open Voice موفق شده تا ضمن حفظ دقیق ویژگیهای فردی و شخصی صدا مانند تن و لحن، کنترل کامل و انعطافپذیری بسیار بالایی روی خصوصیات احساسی مانند شادی، غم، خشم، مهربانی و … داشته باشد.
بنیانگذاران MyShell معتقدند Open Voice میتواند انقلابی در صنعت شبیهسازی صدا و کاربردهای مرتبط ایجاد کند. زیرا نخستین مدلی است که به طور همزمان هر دو ویژگی مهم سفارشیسازی کاملا فردی صدا و تغییر گسترده خصوصیات احساسی آن را به طور انعطافپذیر در اختیار کاربر قرار میدهد.
پیشبینی میشود Open Voice بتواند کاربردها و قابلیتهای بسیار متنوعی را در حوزههای گوناگونی مانند سرگرمی، آموزش، بازاریابی، ارتباطات و فناوری اطلاعات فراهم آورد. به عنوان مثال سیستمهای پاسخگویی صوتی خودکار میتوانند با بهرهمندی از این مدل، پاسخهای خود را با صداهای طبیعی و انسانی ارائه دهند، یا شبکههای اجتماعی و پلتفرمهای آنلاین میتوانند امکان سفارشیسازی صدا برای هویت صوتی کاربرانشان را فراهم کنند.
البته هنوز لازم است تا عملکرد Open Voice در دنیای واقعی و کاربردهای گسترده آن مورد آزمایش و ارزیابی قرار گیرد، اما به هر حال انتشار آن گام مثبت و ارزشمندی در جهت پیشبرد فناوری شناخت و شبیهسازی صدا و کاربردهای نوآورانه آن به شمار میرود.
آیا فکر میکنید Open Voice بتواند صنعت پادکست و کتابهای صوتی را متحول کند؟