پیشرفت عظیم دیپ مایند گوگل در نزدیک شدن به گفتار ما انسان‌ها

محققان بخش هوش مصنوعی گوگل، دیپ مایند (DeepMind) ادعا می‌کنند، با تکنولوژی هوش مصنوعی خود روش بسیار طبیعی‌تری برای سنتز گفتار (تولید مصنوعی بیان طبیعی) نسبت به تکنیک‌های موجود توسعه داده‌اند، چیزی که می‌تواند راه را برای مکالمه‌های پیچیده‌ی ماشین‌ها هموار کند؛ شاید چیزی شبیه به فیلم‌های علمی تخیلی مانند او (Her-2013) و فرا ماشین (Ex Machina-2015).

این آزمایشگاه تحقیقاتی که در سال ۲۰۱۴ باقیمت ۴۰۰ میلیون دلار توسط گوگل خریداری شد، اعلام کرد، نرم‌افزار گویایی به نام “WaveNet” توسعه داده که فاصله‌ی کیفی بین گفتار انسان و گفتار کامپیوتری تکنیک‌های موجود را از میان برمی‌دارد.

blogpost-fig1-anim-160908-r01

آزمایش دیپ‌مایند

هارون ون دن آورد، محققی از دیپ مایند در این مورد گفت:

«تقلید گفتار واقعی همواره یک چالش عمده محسوب می‌شده است، بهترین سیستم‌های موجود که از ماژول‌های پیچیده و طولانی تشکیل‌شده‌اند، هنوز هم با گفتار انسانی فاصله زیادی دارند. تحقیقات ما نشان می‌دهد، شبکه‌های عصبی نه‌تنها یاد می‌گیرند چگونه گفتار تولید کنند بلکه می‌توانند شکاف موجود بین گفتار کامپیوتری و انسان را تا بیش از ۵۰ درصد از میان بردارند.»

وی در ادامه گفت:

«این موفقیت بزرگی برای سیستم‌های گفتار به متن محسوب می‌شود که پتانسیل استفاده در هر چیزی از گوشی‌های هوشمند تا فیلم‌های سینمایی را دارند.»

برخلاف تکنیک‌های تولید صدای موجود، تمرکز WaveNet  به‌جای خود زبان به امواج صوتی ایجادشده است. WaveNet از شبکه عصبی (تکنولوژی که تلاش می‌کند سازوکار مغز انسان را شبیه‌سازی کند) برای تجزیه‌وتحلیل امواج صوتی خام گرفته‌شده از سیگنال صوتی، بهره می‌برد و گفتار و انواع دیگر صدا ازجمله موسیقی را مدل‌سازی می‌کند.

دیپ مایند نمونه‌ای از گفتار WaveNet را که به زبان انگلیسی و چینی ماندارین صحبت می‌کند، منتشر کرده که نسبت به Google Now، آلکسای آمازون و سیری اپل بهبود قابل‌توجهی دارد. همچنین شرکت برخی از قطعات موسیقی که WaveNet  پس از مطالعه تک‌نوازی‌های پیانوی موجود در یوتیوب ایجاد نموده، منتشر کرده است.

مانند سایر سیستم‌های هوش مصنوعی، WaveNet برای آموزش خود نیاز به میزان زیادی داده دارد. دیپ مایند به این منظور از مجموعه داده‌های TTS موجود گوگل بهره برده است.

به گزارش فایننشال تایمز، اگرچه صدایی که WaveNet تولید می‌کند از تکنیک‌های تولید صدای موجود -سیستم‌های متن به گفتار (TTS)-  واقعی‌تر است اما برای عملی شدن به توان محاسباتی بالایی نیاز دارد. درواقع این به این معنی است که گوگل به این زودی امکان یکپارچه‌سازی این تکنیک را با محصولات خود نخواهد داشت.

Demis Hassabis بنیان‌گذار و مدیرعامل دیپ مایند

Demis Hassabis بنیان‌گذار و مدیرعامل دیپ مایند

مقاله منشر شده در این باره توسط تیم دیپ مایند.

منبع

۰
تکنولوژی ۲۱ شهریور ۱۳۹۵ فرید کریمی