百度在人工智慧基準測試中取得了全球第一!
據《華爾街日報》報道,百度公司發布消息稱,它取得了近來備受關注的人工智慧基準測試的全球最好成績。這歸功於百度研發的秘密武器: Minwa 超級計算機。
Minwa 超級計算機通過掃描 ImageNet 取得了這一成績,這是一個超過百萬張圖片的資料庫,需要將其分類到1000個不同的類別裡面。這意味著計算機需要學習法國麵包和烤肉卷之間的區別,更棘手的是,甚至還要能區分來克蘭小獵犬和獵狐犬之間的不同!(百度的 Minwa 包含36個伺服器節點,每個節點由2個六核英特爾Xeon E5-2620處理器和4個NVIDIA Tesla K40m GPU構成。Minwa超級電腦有1.7TB設備內存和6.9TB主內存,今年初它在ImageNet測試中的錯誤率為5.98%。)
在五年前,計算機在這方面想要超越人類似乎還很遙遠,但是最近幾個月以來,來自微軟、谷歌,以及現在的百度的計算機已經能做的比人更好了。
通過練習,人類能正確識別除了大約 5% 之外的所有 ImageNet 圖片。而現在,微軟已經取得了 4.94% 的錯誤率的成績,谷歌達到了 4.8%,百度則表示它將錯誤率降到了 4.58%!
百度和其它公司通過該測試所用的深度學習演算法最近才從學術界飛躍到矽谷,但是它們已經開始在我們的日常生活中產生了影響。
兩年前,谷歌使用深度學習來大幅提升 Android 手機的語音識別系統。而百度則在使用一個更大的超級計算機來分析14000小時的語音數據,以提升它的中英文語音識別能力。
「我對整個社區在計算機視覺方面取得的進展感到非常興奮!」 百度首席科學家吳恩達說,「計算機能如此好的理解圖像,不像一年前,它能做更多的事情了!」。
在未來的18個月,百度計劃打造一個更大的、計算能力可達 7Pflop/s 的超級計算機!雖然這比不上世界上最頂級的超級計算機,但是依然能夠排進全球前十。
深度學習站在了這項發展潮流的巔峰,越來越多的財大氣粗的公司們僱傭頂尖的人工智慧專家、積累龐大的數據、然後用大量的計算機資源來分析它們。
「有趣的是,處理 ImageNet 圖像排名前三的隊伍無一例外的都是具有大量計算機資源的大型技術公司,」吳恩達說。他的公司設計這個超級計算機的技術來自中國及其矽谷實驗室建造 Minwa 的經驗,他補充道。
來自 Facebook 的 Yann LeCun 領導著類似的團隊,他說他的公司也在部署大型計算資源,不過他沒有提到 Facebook 的計算機系統規模大小。
對於深度計算方面的能力, 谷歌、微軟和百度把 ImageNet 測試當做一個「基準測試」,Yann LeCun 說。人們越來越關注更大的數據集和更有挑戰性的任務,比如,目標檢測和定位等。
更新(來自:http://tech.sina.com.cn/it/2015-06-05/doc-icrvvrak2731186.shtml ):
人工智慧測試領域剛剛曝出了第一起作弊醜聞。上月,中國搜索引擎公司百度宣布其圖片識別軟體在精確度標準化測試中領先於谷歌。但本周二,該公司承諾是通過違反測試規則實現的這一成績。
負責維護該測試的學術專家表示,這導致百度之前的聲明毫無意義。作為該項目的負責人,百度研究員Ren Wu已經公開道歉,並表示該公司正在評估結果。百度也對該軟體的技術論文進行了修訂。
目前並不清楚此舉是個人行為還是整個團隊所為,但一家擁有數十億美元收入的科技公司為什麼要在這樣一次測試中作弊呢?
百度、谷歌、Facebook等大型科技公司最近幾年都投入巨資組建研發團隊,專門研究深度學習技術,他們開發的機器學習軟體已經在語音和圖像識別領域實現了重大進展。這些公司都在不遺餘力地聘請這個小領域的頂尖專家,經常會相互挖角。雖然學術界目前的人工智慧標準測試數量不多,但卻可以幫助這些研究團隊與其他團隊的成就進行對比,並向公眾展開宣傳。
百度通過作弊獲得了不公平的優勢。要進行ImageNet Challenge測試,首先需要用150萬張標準圖片對其進行訓練,然後將代碼提交給ImageNet Challenge伺服器,針對這些軟體之前沒有見過的10萬張「驗證」圖片進行測試。
按照規定,每周只能對代碼進行兩次測試,因為最終的結果包含概率因素。
百度承認,該公司使用多個電子郵件帳號在短短6個月的測試期內對其代碼展開了大約200次測試——超過規定測試數量的4倍。
艾倫人工智慧學院CEO表示,百度此舉相當於購買了多張彩票。「如果你一周購買2張彩票,你大概有一個中獎概率。但如果你一周買200張彩票,概率就會增加。」他說。這樣一來,用略有不同的代碼展開多次測試,便可幫助研究團隊針對一組獨特的驗證圖片進行優化。
在這種測試中,很小的優勢也會產生巨大的不同。百度曾經表示,該公司的錯誤率僅為4.58%,擊敗了谷歌3月的4.82%。但一些專家指出,這麼小的領先差距在這項測試中變得越來越沒有意義。但百度和其他公司仍在努力吹噓自己的結果,甚至不惜違反規則,足以表明在機器學習領域獲得領先優勢對他們而言的確意義非凡。
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive