سال ساخت: —
اسم ربات: —
سازندگان: —
کاربرد ربات: —
توضیحات
نیاز شناسایی هویت افراد، در دنیای امروز بیش از پیش به چشم می آید. به طوری که شناسایی افراد در تمامی جوانب زندگی مورد استفاده قرار می گیرد. کاربردهای روزمره آن از کارتهای اعتباری گرفته تا جرمشناسی و رمزهای حساب به صورت تلفنی گسترش یافته است. مدتهاست که استفاده از شناسه های کاربردی مختلف برای تعیین هویت شخص مورد استفاده قرار میگیرد، از مرسوم ترین این شناسه ها میتوان به شماره شناسنامه، کدملی، نام، نام خانوادگی و … اشاره کرد. در حالت کلی، فرد می تواند توسط چیزی که مالك آن است و یا اطلاعات مخصوص به خود، شناسایی شود. این ابزارها که ابزار تعیین هویت سنتی می باشند در طول چندین قرن اخیر مورد استفاده قرار گرفته اند، دارای نواقص بسیاری می باشند. ممکن است گم، دزدیده یا فراموش شوند و یا مورد سوءاستفاده قرار گیرند. این مسئله خود، امنیت این شناسه ها را کمتر می نماید و پژوهشگران را به یافتن شناسه های قابل اطمینان مانند شناسه های زیست سنجی متمایل نموده است .
روش های جدیدتر شناسایی هویت مبتنی بر استفاده از خصوصیات فیزیولوژیکی و رفتاری منحصربفرد در شخص میباشند. این روشها به شناسایی هویت مبتنی بر زیست سنجی (بیومتریك) معروف هستند. این روش ها امروزه به عنوان جایگزینی مناسب برای شناسه های معمول در کانون توجهات قرار گرفته اند. این روش ها بعضی از مشکلات ذکرشده در روشهای سنتی را تا حدود زیادی مرتفع نموده اند. سیگنالها و معیارهای مختلفی برای سیستمهای شناسایی افراد از روی مشخصه های حیاتی آنها تا به حال مورد مطالعه قرار گرفته اند. از این میان معروفترین مشخصه های زیست سنجی، اثرانگشت، چهره، عنبیه چشم و صدای افراد میباشند. این شناسه های زیست سنجی کمتر قابل جعل بوده و قابلیت اطمینان این سیستمها قابل توجه میباشد.
شناسایی گوینده کاربردهای زیادی دارد بخصوص درمواردی که دوربین مورد استفاده نباشد برای مثال برای تعیین هویت توسط گجت هایی مانند الکسای آمازون و دستیار گوگل که ارتباط میان سیستم و انسان صوتی هست و باید شناسایی کنند که آیا فرد دستور دهنده صاحب دستگاه است یا خیر، همچنین در مواردی مانند تشخیص فرد از روی مکالمات تلفنی و نیز در جرم شناسی از شناسایی گوینده استفاده میگردد.
روش های متعددی برای شناسایی گوینده مورد بررسی قرارگرفته این روش ها شامل دو گروه كلی میشوند:
1- وابسته به متن
2- مستقل از متن
برای این روش ها از مدل ها و شیوه های مختلفی برای دسته بندی گوینده ها استفاده میشود از جمله GMM (مدل مخلوط گوسی) ،HMM (مدل مخفی ماركوف) ، SVM (ماشین بردارپشتیبان) و DNN (شبکه عصبی عمیق) كه از معروفترین آنها هستند.
در آزمایشگاه تعامل انسان و ربات نیز کار بر روی موضوع شناسایی گوینده و بازشناسی صوت به تازگی آغاز شده است؛ وجود ربات اجتماعی ای مانند ربات سن بات و نیاز آن به تعامل با کاربری که می تواند خریدار یک پاساژ، مشتری بانک و یا یک توریست باشد سبب شده در زمینه موارد مختلف تعاملی انسان با ربات از روش های تصویری و صوتی و … پژوهش های گوناگونی آغاز گردد.
در اولین پژوهشی که در زمینه شناسایی گوینده در آزمایشگاه آغاز شده و هم اکنون ادامه دارد، قصد بر این است كه با استفاده از شبکه های عصبی عمیق و با طراحی شبکه ای كه مبنای یادگیری در لایه های مختلف آن براساس شاخص جداسازی (Separation Index) می باشد، شبکه و روش جدیدی را برای انجام شناسایی گوینده مستقل از متن و وابسته به متن را به كارگرفته شود .
برای انجام این كار ابتدا به طراحی و پیاده سازی شبکه مورد بحث پرداخته می شود، كه این شبکه باید به گونه ای باشد كه با حركت رو به جلو در لایه ها، میزان شاخص جداسازی افزایش یابد و كلاس های مختلف به شکل مناسب تری از یکدیگر جداشوند. پس از آزمایش این شبکه برروی داده های مختلفی مانند داده های معروف تصویری، به سراغ شناسایی گوینده رفته و پس از استخراج ویژگیهای مناسب از جمله MFCC (ضرایب كپسترال فركانس مل) از صوت افراد، كار دسته بندی افراد برمبنای صدای آنها توسط شبکه مذكور انجام میگیرد.
توضیحات
نیاز شناسایی هویت افراد، در دنیای امروز بیش از پیش به چشم می آید. به طوری که شناسایی افراد در تمامی جوانب زندگی مورد استفاده قرار می گیرد. کاربردهای روزمره آن از کارتهای اعتباری گرفته تا جرمشناسی و رمزهای حساب به صورت تلفنی گسترش یافته است. مدتهاست که استفاده از شناسه های کاربردی مختلف برای تعیین هویت شخص مورد استفاده قرار میگیرد، از مرسوم ترین این شناسه ها میتوان به شماره شناسنامه، کدملی، نام، نام خانوادگی و … اشاره کرد. در حالت کلی، فرد می تواند توسط چیزی که مالك آن است و یا اطلاعات مخصوص به خود، شناسایی شود. این ابزارها که ابزار تعیین هویت سنتی می باشند در طول چندین قرن اخیر مورد استفاده قرار گرفته اند، دارای نواقص بسیاری می باشند. ممکن است گم، دزدیده یا فراموش شوند و یا مورد سوءاستفاده قرار گیرند. این مسئله خود، امنیت این شناسه ها را کمتر می نماید و پژوهشگران را به یافتن شناسه های قابل اطمینان مانند شناسه های زیست سنجی متمایل نموده است .
روش های جدیدتر شناسایی هویت مبتنی بر استفاده از خصوصیات فیزیولوژیکی و رفتاری منحصربفرد در شخص میباشند. این روشها به شناسایی هویت مبتنی بر زیست سنجی (بیومتریك) معروف هستند. این روش ها امروزه به عنوان جایگزینی مناسب برای شناسه های معمول در کانون توجهات قرار گرفته اند. این روش ها بعضی از مشکلات ذکرشده در روشهای سنتی را تا حدود زیادی مرتفع نموده اند. سیگنالها و معیارهای مختلفی برای سیستمهای شناسایی افراد از روی مشخصه های حیاتی آنها تا به حال مورد مطالعه قرار گرفته اند. از این میان معروفترین مشخصه های زیست سنجی، اثرانگشت، چهره، عنبیه چشم و صدای افراد میباشند. این شناسه های زیست سنجی کمتر قابل جعل بوده و قابلیت اطمینان این سیستمها قابل توجه میباشد.
روش های متعددی برای شناسایی گوینده مورد بررسی قرارگرفته این روش ها شامل دو گروه كلی میشوند:
1- وابسته به متن
2- مستقل از متن
برای این روش ها از مدل ها و شیوه های مختلفی برای دسته بندی گوینده ها استفاده میشود از جمله GMM (مدل مخلوط گوسی) ،HMM (مدل مخفی ماركوف) ، SVM (ماشین بردارپشتیبان) و DNN (شبکه عصبی عمیق) كه از معروفترین آنها هستند. در این پژوهش قصد براین است كه با استفاده از شبکه های عصبی عمیق و با طراحی شبکه ای كه مبنای یادگیری در لایه های مختلف آن براساس شاخص جداسازی (Separation Index) می باشد، شبکه و روش جدیدی را برای انجام شناسایی گوینده مستقل از متن و وابسته به متن را به كارگیریم .
برای انجام این كار ابتدا به طراحی و پیاده سازی شبکه مورد بحث پرداخته می شود، كه این شبکه باید به گونه ای باشد كه با حركت رو به جلو در لایه ها، میزان شاخص جداسازی افزایش یابد و كلاس های مختلف به شکل مناسب تری از یکدیگر جداشوند. پس از آزمایش این شبکه برروی داده های مختلفی مانند داده های معروف تصویری، به سراغ شناسایی گوینده رفته و پس از استخراج ویژگیهای مناسب از جمله MFCC (ضرایب كپسترال فركانس مل) از صوت افراد، كار دسته بندی افراد برمبنای صدای آنها توسط شبکه مذكور انجام میگیرد.
پژوهشگران
عرفان اشتری
کلمات کلیدی
تشخیص صوت، بازشناسی صوت، بازشناسی گوینده، شبکههای عصبی عمیق، رباتهای خدمتکار