新手入門深度學習做語音識別？Google免費開源語言指令數據集！

由 DIY MAKER 於 09/08/2018 發表收藏文章

Google的工程師們經常被問到這樣的一個問題——怎麼上手用深度學習做語音識別或其他音頻識別，比如關鍵字或指令？

目前，出現了一些很優秀的開源語音識別系統，例如Kaldi，就能把神經系統作為其中的一個模組。但其的高度複雜性，並不適合解決簡單問題的指南。更重要的是，對於新手而言，免費、公開可獲取到的數據並不多，適合簡單的關鍵字也不是很多。

https://pic.pimg.tw/diymaker/1531463634-2603090355_n.jpg

圖片來源：pic.pimg.tw

為解決這一問題，Google 的TensorFlow 和 AIY 團隊創建了TensorFlow 和 AIY 團隊創建了Speech Commands Dataset，即“語音命令數據集”。據瞭解，穀歌也開源該數據集。

TensorFlow和AIY團隊開源的數據集包含65000個錄音，每個錄音時長幾秒鐘，包含30個左右的單詞。它們是通過網站採集而來的，參與人數達到了數千人。團隊貼心地附上了訓練和預測的TensorFlow示例代碼。數據集基於署名4.0 國際（CC By 4.0）許可發佈，Google表示將繼續擴充這個數據集。Google還指出，這個數據集特別適合新手入門。此外，他們也開源了收集錄音的工具。

AIY團隊同時將改款語音數據集應用Google人工智慧一個新的開源硬體產品上，AIY Projects，AIY 專案（AIY Projects）全稱為 Artificial Intelligence Yourself，意為動手創造你的人工智慧。該專案由 Google 於 2017 年啟動，目標是讓每個 Maker（創客）都可以 DIY 自己的 AI 人工智慧產品。

https://pic.pimg.tw/diymaker/1531203698-3043664754_n.png

圖片來源：pic.pimg.tw

Google 先後在 5 月、12 月份分別推出該專案代表的兩組套件 Voice Kit 和 Vision Kit。

Voice Kit 是 Google 首個推出的 DIY 人工智慧產品。它可借助 Google Assistant SDK 和 Cloud Speech API，將樹莓派 3 轉換為語音數字助理。用戶可在此基礎上創建虛擬語音助手，為自己的專案添加語音交互功能。
Vision Kit 則是 Google 推出的第二彈 DIY 人工產品。它是一套簡單的電腦視覺系統，可運行 3 種基於 TensorFlow 的類神經網路模型應用程式。

除了工作應用及個人開發愛好，Google AIY 套件也已經逐漸被運用到教育科學領域中，用來培養學生對電腦科學的興趣。

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

DIY MAKER DIY人工智慧，Geek, make world better

編輯簡介

一颗花椰菜

快捷鍵：←

快捷鍵：→

新手入門深度學習做語音識別？Google免費開源語言指令數據集！

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App