喬布斯一手打造的GUI要輸了?虛擬助理將開啟電腦新紀元!

雷鋒網 於 19/04/2016 發表 收藏文章

接下來,我要給你講兩個簡單的故事,其中一個你可能已經聽過,另外一個你應該還沒有。 1979年,年輕的史蒂夫·喬布斯去參觀了Xerox PARC,傳説中的在加利福尼亞州帕洛阿爾託R&D實驗室,並目睹了現在所稱的圖形用户界面的一些示範。一位PARC的工程師,使用一個原型鼠標來導航,計算機屏幕雲集了圖標,下拉菜單以及在桌面上相互重疊像紙張的“窗口”。這和喬布斯以前見過的東西完全不同。 他説,“很明顯,以後每台計算機都會以這種方式來工作。”

傳説是,喬布斯跑回蘋果總部,指揮一個團隊着手複製和提高,他剛剛在PARC所看到的東西。就是這樣,個人計算近40年發展迅速,經歷了很多,從第一台Macintosh一路攀升到iPhone。這種計算視覺方式結束了命令行的苛刻、文字為主的界面的暴政;並把我們帶進一個電腦越來越簡單易用的世界裏——只需用鼠標定位、單擊並拖動。

在不太遙遠的未來,我們回頭想想和PARC有關創世神話,可能會感到興奮。在喬布斯訪問PARC的時候,一個獨立的團隊正在研發一種完全不同的人機交互模式,今天我們稱之為對話用户界面。這些科學家設想了一個世界,可能在幾十年以後,這種電腦將變得超強大,以至於需要用户記住針對每一個動作的,一組特殊的命令或工作流,否則將用不了電腦。他們想象,我們會用你來我往的對話框來把事情做好,而不是讓計算機協同工作。而其頁面將是普通的人類語言。

該組其中一名科學家叫羅恩·卡普蘭,一個粗壯、説話輕聲細語、留着山羊鬍子和頭髮稀疏的人。卡普蘭是相等部分的語言學家、心理學家和計算機科學家。他説,早在上世紀70年代,他的團隊在草擬對話用户界面的一個關鍵組成部分的工作走得相當遠;他們七拼八湊出了一個系統,允許你通過正常的英語計算機交換信息類型,來預訂機票。但是,該技術還不能大規模、系統地工作。 “這樣的成本太高了,可能,每個用户將要花費一百萬美元。”他説。他們需要更快、更分佈的處理方式和更智能、更高效的電腦。卡普蘭認為這將需要大約15年。

“四十年後,”卡普蘭説,“我們準備好了。”事實上,世界也準備好了。

今天,卡普蘭是Nuance通訊的副總裁和傑出的科學家,也許還是語音界面業務的最大功臣:福特的汽車同步系統是基於其發展的,還對Siri的發展至關重要,和幾乎所有行業都具有合作關係。但Nuance如今發現自己身處一個擁擠的市場。幾乎每個大的高科技公司,亞馬遜、英特爾、微軟和Google,都在追求對話用户界面:卡普蘭和他的同事們幾十年前在PARC設想。幾十家初創公司也參與其中。所有公司都希望在人類與技術的關係強大的轉變之中拔得頭籌。這些公司相信,不久後的一天,你會跟你的小工具説話,就像你跟朋友説話一樣。而你的小工具會回答你。他們將能夠聽到你説什麼,弄清楚你的意思。

如果你已經在今天的技術浸淫,這些新的工具將延長你的數字生活,到圖形用户界面不能安全、愉快、禮貌使用之外。而你和設備之間日益劇增的對話性質,將使你和技術的關係,變得更親近、更忠實、更私人。

但這種轉變影響最大的將是矽谷的核心受眾,其他人則會感覺很好。史蒂夫·喬布斯在在1979年看到的圖形用户界面(以下簡稱GUI),是擴大計算機市場的一種方式。但即使是GUI的作用下,仍留有大量的人沒有使用計算機。雖然GUI是優雅和高效的,人們仍然需要學習計算機語言。如今電腦終於學會如何説我們的語言,數以億計的人將高科技有新的認識。

語音界面雖然已經存在了多年,事實上,迄今為止,它們都非常愚蠢。我們不必糾纏於自動電話分支系統,例如:如果你是打電話來進行付款的,請説“支付”。甚至我們更先進的語音界面都依賴講話,但不知何故缺席語言的力量。如果你問Google Now,紐約市的人口有多少,它會乖乖告訴你。如果問帝國大廈的位置,它會乖乖回答。但加上邏輯的一步,問它有帝國大廈的城市的人口是多少,它答不上來。同樣,把Siri逼的太緊,它也會讓你參考Google搜索。任何人看過柯克船長和進取號的計算機對話,或託尼·斯塔克與虛擬助手賈維斯戲謔的電影場景,都忍不住會對現實失望。

可是現今,問問矽谷周圍的人,你聽到同樣的答案:現在不同了。

六月初炎熱的一天,SoundHound首席執行官Keyvan Mohajer,向我展示了一個原型,近10年來他的公司一直在祕密研究的新應用程序。你印象中的SoundHound,是一個流行音樂識別的應用程序,如果你對着它哼唱一首歌,它可以識別出歌的名字。事實上,該應用主要是助長Mohajer真實的夢想只是一種方法:創造世界上最好的基於語音的人工智能助手。

該原型叫Hound,其能力是相當驚人的。Mohajer拿着一個黑色的Nexus,點擊了一個藍色和白色的麥克風圖標,然後開始問問題。他從簡單入手,問了柏林的時間和日本的人口。很基本的搜索問題,接下來,畫風就變了:“它們之間的距離是多少?”該應用程序理解了上下文並回答,“大約5536英里。”

然後Mohajer微笑着,緊張兮兮地開始了複雜性不斷升級的問題攻勢。他要求Hound計算一百萬美元的房子,每月按揭付款多少錢,然後應用程序立即問他利率和貸款額,然後説出了答案:4,270.84美元。

“太空針塔所在國首都的人口是多少?”他問。Hound比我還快得知,Mohajer在問華盛頓特區的人口,用其機器人的聲音道出了正確的答案。 “日本和中國人口和首都是哪裏,他們的領土是多少平方英里和多少平方公里?另外告訴我有多少人生活在印度,德國、法國和意大利的區號是多少?”Mohajer一直不斷在問問題,導致上氣不接下氣。而Hound正確回答了每一個問題

Hound現在處於測試階段,可能是迄今推出的速度最快、功能最全的語音識別系統。雖然目前它有顯著優勢,因為它可以同時執行語音識別和自然語言處理。但是,被其他系統趕超,只是時間問題。

畢竟,其基本成分——強大對話界面必需的卡普蘭所稱的“門控技術”,現在基本上有錢就能購買。這是一個技術融合的經典故事:在處理能力、語音識別、移動通信、雲計算的發展和神經網絡在大致相同的時間都飆升至臨界點。這些工具終於夠好、價格便宜、容易訪問,使對話界面實時、無處不在。

但不只是對話技術終於可以構建,還有持續增長的需求。隨着越來越多的設備上線,尤其是那些沒有屏幕的,例如你的燈具、煙霧報警器,我們需要一種方法來與它們進行交互,不需要按鈕,菜單和圖標的方法。

同時,喬布斯用GUI建立的世界正在達到瓶頸期。我們非常強大的屏幕界面,每一個可以想象的特點都需要通過手工編碼、圖標或菜單選項。想想Photoshop或Excel:兩者都十分強大,使用起來需要通過正確的鍵盤快捷鍵、菜單樹和超難找的工具欄。如果你只是想坐下來悠閒地裁剪照片,那麼祝你好運。 “圖形用户界面已經到頂,”卡普蘭説, “現在已經是超負荷了。”

這就是在虛擬助理市場蓬勃發展的原因:它是來拯救你的,當你淹沒在屏幕上打開的七個窗口,五工具欄和30個頁面裏,並作為應用程序和設備之間的聯絡人。

至少在開始的時候,這些新的增強型虛擬助理背後的想法是,他們將簡化複雜的,讓人疲倦的多步驟:通過下拉菜單,複雜的工作流程,並在應用程序間切換。你的助手會知道手機上每一個應用程序的每一個角落,並在你的口語命令下切換它們。而隨着時間的推移,他們也將了解新的信息:你。

讓我們快速解除一些誤會:對話技術是不會滅了觸摸屏,甚至是鼠標和鍵盤。如果你是桌面計算機的忠實用户,你可能不會變。 雖然你可能會經常問虛擬助理,裁剪工具在哪裏來着?
但是,對於某些羣體的人,對話界面的崛起可能會在很大程度上,會成為繞過熟練GUI技術的理由。例如,年輕人已經跳過鍵盤,通過麥克風來輸入文本。 “他們就是不打字。”語音消息應用Cord的CEO和聯合創始人Thomas Gayno稱。結合其他地方的年齡譜,對有些人來説,圖形用户界面從來就不管用。對視障人士、老人而言,聽見有人形容現代計算機界面為“直觀的”,一直是有點可笑的。


克里斯·莫里很艱辛才明白了這個道理。在2010年的夏天,當時24歲的他在帕洛阿爾託的朋友家借住,並在一個叫ImageShack的創業公司實習,剛剛輟學博士課程來這裏追逐矽谷夢。一天晚上,在他下班回家的漫長路上,他意識到自己的處方眼鏡不管用了。醫生告訴他,他患了斯特格氏症,一個視力下降,最終會失明的疾病。

曾經想在高科技公司創一番事業的莫里,立刻不得不考慮,如果失明瞭他將如何使用電腦。但對於美國20 多萬盲人來説,使用電腦只有一個選擇:一個30多年前的技術:屏幕閲讀器。

屏幕閲讀器系統要花費數千美元,並通過需要幾十個小時的培訓。 “你需要上兩個課程,才能學會用Google搜索。”莫里告訴我。隨着數字環境變得越來越複雜,屏幕閲讀器就變得越來越難用。“他們太可怕了。”莫里説。

隨着他的視力開始走下坡路,莫里把自己沉浸在盲推特(沒錯,有盲推特這玩意)和輔助運動裏。而在同一時間,他隱隱意識到,更好的東西——首次專為語音設計的界面,將在矽谷出現。

於是,他開始着手為盲人研究技術。莫里創辦了一家公司:Conversant Labs,希望打造以聲音為先的應用和服務。該公司的第一個產品,是一個名為SayShopping的iPhone應用程序,它提供了一種完全通過語音就可以從Target.com買東西的服務。

2014年秋天的某一天,毫無預兆,亞馬遜宣佈了一項名為回聲的新產品。該產品的角色被命名為Alexa。回聲使用所謂的遠場語音識別到呼喚它的聲音,甚至在有點嘈雜的房間沒問題。這個想法是,迴音屬於你的客廳、廚房、或者卧室裏,你會和它説各種事情。

這十分有趣,試圖讓沒有內置可視界面的科技成功。科技媒體都對亞馬遜這個“神祕”的新產品感到不解。

當我在2014年開始使用Alexa時,它可以告訴我天氣,回答基本的事實問題,列一個後來將出現在我智能手機上購物清單,聽我的命令播放音樂,沒有什麼太超然。但是Alexa迅速增長,變得更聰明更好。它熟悉了我的聲音,學會了有趣的笑話,並開始能夠同時運行多個計時器(當你在煮滿漢全席的時候,就非常方便了)。從最初測試版的發佈,到2015年公開發布的短短7個月裏,Alexa從可愛卻無奈,到真正、一直實用。我認識了它,它也認識了我。

這引出了對話高科技更深的道理:你只有在與它個人關係的過程中,才能發現它的功能。在同行業中的大玩家都意識到這一點,並試圖給他們的助手個性、魅力、適當的距離,簡而言之使他們,討人喜歡。

在研究中,微軟、Nuance和其他公司都得到了同樣的結論:一個好的對話助理,只有當它無處不在,當它可以在多種環境裏了解你:你的習慣、你的好惡、你的日常和時間表,它才是真正實用的。

via wired


資料來源:雷鋒網
作者/編輯:潔穎
標籤: GUI  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→