پرش به محتوا پرش به سایدبار پرش به فوتر

گام بلند Open Voice به سوی صداهای انسان‌نمای هوش مصنوعی

شرکت استارتاپ هوش مصنوعی MyShell اخیرا یک مدل هوش مصنوعی به نام Open Voice را به صورت متن‌باز منتشر کرده که قادر به شبیه‌سازی بسیار واقع‌گرایانه و طبیعی صدای افراد است.

Open Voice یک پلتفرم پیشرفته یادگیری عمیق برای کپی‌برداری از صدا محسوب می‌شود که با بهره‌گیری از تنها چند نمونه صوتی کوتاه (حدود چند ثانیه) از صحبت‌های یک شخص، می‌تواند بلافاصله صدای او را به طور بسیار طبیعی و حیرت‌انگیزی شبیه‌سازی کند. سپس با اعمال الگوریتم‌های پیشرفته پردازش زبان طبیعی، امکان تبدیل هر متنی به صدای شبیه‌سازی‌شده فراهم می‌آید. به این ترتیب کاربر می‌تواند متون دلخواه خود را به صدای واقعی خودش یا شخص مورد نظر تبدیل کند.

مزیت اصلی Open Voice نسبت به مدل‌های تجاری مشابه، متن‌باز بودن آن است که اجازه اصلاح، بهبود و توسعه بیشتر مدل را به همگان می‌دهد. همچنین به دلیل رایگان بودن، دسترسی به آن برای عموم کاربران و محققان بسیار آسان خواهد بود.

Open Voice ترکیبی هوشمندانه از دو مدل مجزای یادگیری عمیق است که یکی از آن‌ها مسئول کنترل ویژگی‌های صوتی مانند لحن، احساسات، سبک و لهجه و دیگری مسئول شبیه‌سازی دقیق و هم‌خوانی با صدای اصلی فرد است.

این مدل برای آموزش از مجموعه داده‌های عظیم و باکیقیتی شامل بیش از ۳۰۰ هزار نمونه صوتی از ۲۰ هزار و ۳۰ هزار جمله با برچسب‌های دقیق احساسی استفاده کرده است. با ترکیب هوشمندانه نتایج این دو مدل، Open Voice موفق شده تا ضمن حفظ دقیق ویژگی‌های فردی و شخصی صدا مانند تن و لحن، کنترل کامل و انعطاف‌پذیری بسیار بالایی روی خصوصیات احساسی مانند شادی، غم، خشم، مهربانی و … داشته باشد.

بنیان‌گذاران MyShell معتقدند Open Voice می‌تواند انقلابی در صنعت شبیه‌سازی صدا و کاربردهای مرتبط ایجاد کند. زیرا نخستین مدلی است که به طور همزمان هر دو ویژگی مهم سفارشی‌سازی کاملا فردی صدا و تغییر گسترده خصوصیات احساسی آن را به طور انعطاف‌پذیر در اختیار کاربر قرار می‌دهد.

پیش‌بینی می‌شود Open Voice بتواند کاربردها و قابلیت‌های بسیار متنوعی را در حوزه‌های گوناگونی مانند سرگرمی، آموزش، بازاریابی، ارتباطات و فناوری اطلاعات فراهم آورد. به عنوان مثال سیستم‌های پاسخگویی صوتی خودکار می‌توانند با بهره‌مندی از این مدل، پاسخ‌های خود را با صداهای طبیعی و انسانی ارائه دهند، یا شبکه‌های اجتماعی و پلتفرم‌های آنلاین می‌توانند امکان سفارشی‌سازی صدا برای هویت صوتی کاربرانشان را فراهم کنند.

البته هنوز لازم است تا عملکرد Open Voice در دنیای واقعی و کاربردهای گسترده آن مورد آزمایش و ارزیابی قرار گیرد، اما به هر حال انتشار آن گام مثبت و ارزشمندی در جهت پیشبرد فناوری شناخت و شبیه‌سازی صدا و کاربردهای نوآورانه آن به شمار می‌رود.

آیا فکر می‌کنید Open Voice بتواند صنعت پادکست و کتاب‌های صوتی را متحول کند؟

منبع

کامنت بگذارید