هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شدهاست، طراحی و پیادهسازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج میکند. فناوری بازشناسی گفتار به رایانهای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را میدهد که گفتار کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورات مورد استفاده قرار میگیرد. سیستمهای واکافت کننده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط میتوانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را شناسایی کنند. همچنین سیستمها قادرند واژگان گفته شده توسط افراد مختلف و یا فقط توسط یک گوینده تشخیص دهند. بهر حال ایدهآلترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید. این سیستمها با بکار گیری روشهای مختلف طبقه بندی و شناسایی الگو قادرند به تشخیص واژگان هستند که البته برای افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم استفاده میشود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستمهای تشخیص گفتار مورد استفاده قرار میگیرند و در بخشهای انتهایی سیستم از هوش مصنوعی کمک گرفته میشود.
مدلهای زبانی و پردازش زبانهای طبیعی برای بسیاری از کاربردها مانند تشخیص گفتار، TTS،ترجمه، OCR و پیدا نمودن خطاهای تایپی، مدلهای زبانی از مهمترین ابزارهای مورد نیاز میباشد.
برقراری ارتباط گفتاری با کامپیوترها به جای استفاده از صفحه کلید و ماوس یکی از زمینههای تحقیقاتی مهم چند دههی اخیر بوده است و شرکتهای بزرگی چون IBM، ALIT، Philips و Microsoft سالانه هزینههای هنگفتی را برای این منظور پرداخت کرده و میکنند. به عنوان یک کاربر کامپیوتر، احتمالاً با قابلیت گفتاری مجموعه آفیس به عنوان یکی از ویژگیهای جذاب و تا حدی فانتزی برخورد کرده و یا با آن کار کردهاید. به کمک این قابلیت شما به جای استفاده از صفحه کلید برای تایپ مطالبتان، به راحتی با خواندن متن مورد نظر و انتقال گفتارتان به کمک یک میکروفون معمولی به کامپیوتر، آنرا در محیط Word تایپ شده میبینید. حتی برای ذخیره کردن، کپی کردن، گذاشتن عکس در متن و . . . به جای کلیکهای پشت سر هم و گاهی با تعداد بالا، میتوانید فرمان مربوطه را به کمک گفتار به نرمافزار داده تا کار شما را انجام دهد. جدای از اینکه توانایی درست کارکردن این قابلیت آفیس چقدر باشد، یک محدودیت بزرگ در سر راه استفاده از آن برای ما ایرانیان وجود دارد: این قابلیت فقط برای زبان انگلیسی است. (البته زبانهای چینی یا ژاپنی را نیز میتوان استفاده کرد!).
ایجاد چنینی سیستمی که آنرا تشخیص یا بازشناسی گفتار (Speech recognition) مینامند، در زبان فارسی، چندین سال از تحقیقات محققان، اساتید و دانشجویان دانشگاههای مختلف کشور را به خود اختصاص داده است. اما جدیترین جهشی که در حدود ده سال پیش در این زمینه ایجاد شد، ایجاد دادگان گفتاری فارسدات و یک سیستم اولیه تشخیص گفتار فارسی در مرکز هوشمند علائم بوده است. در ادامه و در طی یکی-دو سال اخیر، مهمترین دستاورد در این تکنولوژی برای زبان فارسی، سیستمهای تشخیص گفتار شرکت عصرگویش پرداز است. این شرکت که توسط گروهی از اساتید و دانشجویان دانشگاه صنعتی شریف ایجاد شده است، تنها فعالیت تخصصی خود را در زمینه پردازش سیگنال گفتار و بویژه تشخیصخودکار آن قرار داده است و نرمافزارهایی را برای انجام کار تشخیص خودکار گفتار توسعه داده است. نرمافزار نویسا که برای دیکته خودکار میباشد و نرمافزار نیوشا که جهت تشخیص گفتار از پشت خط تلفن توسعه داده شده است، از دستاوردهای آنهاست. از نظر فنی، معیارهایی چون وابسته یا متعلق بودن به گوینده سیستم، اندازه و تعداد واژگان، پیوسته یا گسسته بودن گفتار ورودی، استفاده از محدودیتهای زبانی و کارایی در محیطهای واقعی توانمندی سیستمهای تشخیص گفتار را مشخص میکند. در کاربردهایی مانند تشخیص گفتار تلفنی، اطن سیستم لزوماً باید مستقل از گوینده باشند اما سیستم دیکته میتواند وابسته به گوینده خاص باشد و برای آن گوینده سیستم بهترین کارایی را داشته باشد. در کاربردهای واقعی معمولاً سیستم را مستقل از گوینده میسازند و موقع استفاده به صدای گوینده خاصی آنرا اصطلاحاً تطبیق میکنند. این کار در قابلیت گفتاری مجموعه آفیس به کمک خواندن متون اولیه در ویزارد سیستم انجام میشود، چنین قابلیتی در سیستم نویسا نیز وجود دارد. هر چه تعداد واژگانی که سیستم میتواند تشخیص دهد بیشتر باشد، شباهت میان کلمات بیشتر شده و در نتیجه کارایی سیستم به علت افزایش اشتباهات کاهش پیدا میکند. از اینررو در کاربرداهای واقعی معمولآً فقط واژگان متناسب با کاربرد مورد نظر را انتخاب میکنند تا محدود شود. در قابلیت گفتاری آفیس هم که ادعا میشود اکثر کلمات انگلیسی را دارد، کارایی به شدت پایین است (کارایی پایین آن به علت این است که ما غیرانگلیسی زبان هستیم!) ولی در محصولات محدودتر این شرکت کارایی به مراتب بهتر است. گفتار کاربر میتواند پیوسته و طبیعی و یا با مکث میان کلمات همراه باشد، بدیهی است که حالت اول مطلوب هرکاربری است. یکی از مشکلاتی که محصولات نویسا و نیوشا تا حدی زیادی آن را حل کردهاند، استخراج و بهکارگیری قابلیتهای زبانی، زبان فارسی در حد نسبتاً کاملی است. این اطلاعات زبانی میتواند در سایر نرمافزارهایی که نیاز به اطلاعات زبانی دارند، مانند مترجمها و نرمافزارهای OCR نیز بکار گرفته شود. اثر صداهای اضافی و ناخواسته در کاربردهای واقعی نرمافزارهای تشخیص گفتار را در عمل دچار افت شدید کارایی مینماید، در محصولات فارسی ارائه شده با رویکردهای مختلفی این نقصان تا حد زیادی جبران شده است. برخی از محصولات مشتق شده از نرمافزارهای تشخیص گفتار فارسی نویسا و نیوشا که در حال حاضر توسعه داده شدهاند، بصورت زیر است:
151- بررسی طراحی یک نرم افزار مترجم هوشمند با تکنیکهای پردازش صوتی - 17 صفحه فایل ورد (word)