Google telah membangun teknologi baru untuk memperkuat pencarian suaranya, yang menurut perusahaan akan membuatnya lebih cepat dan lebih akurat. Teknologi baru ini menggunakan Classification Temporal Classification (CTC) dan teknik pelatihan diskriminatif urutan. Pada 2012, Google beralih dari Gaussian Mixture Model (GMM) ke Deep Neural Networks (DNNs), yang memungkinkan perusahaan untuk menilai lebih baik suara yang dihasilkan pengguna pada waktu itu, dan memberikan akurasi pengenalan suara yang meningkat.
Model akustik kami yang ditingkatkan bergantung pada Recurrent Neural Networks (RNN). RNN memiliki loop umpan balik dalam topologi mereka, yang memungkinkan mereka untuk memodelkan dependensi temporal: ketika pengguna berbicara / u / dalam contoh sebelumnya, alat artikulasi mereka datang dari / j / suara dan dari / m / suara sebelumnya. Coba ucapkan dengan keras - "museum" - itu mengalir sangat alami dalam satu tarikan napas, dan RNN dapat menangkapnya. Jenis RNN yang digunakan di sini adalah RNN Long Short-Term Memory (LSTM) yang, melalui sel-sel memori dan mekanisme gating yang canggih, menghafal informasi lebih baik daripada RNN lain. Mengadopsi model seperti itu telah meningkatkan kualitas pengenal kami secara signifikan.
Perubahan dalam teknologi telah dilakukan oleh Google, dan sekarang digunakan untuk menggerakkan pencarian suara di aplikasi Google di iOS dan Android, serta dikte pada perangkat Android.
Sumber: Google Research Blog