Linux中國

Python 機器學習的必備技巧

想要入門機器學習並不難。除了 大規模網路公開課 Massive Open Online Courses (MOOC)之外,還有很多其它優秀的免費資源。下面我分享一些我覺得比較有用的方法。

  1. 從一些 YouTube 上的好視頻開始,閱覽一些關於這方面的文章或者書籍,例如 《主演算法:終極學習機器的探索將如何重塑我們的世界》,而且我覺得你肯定會喜歡這些關於機器學習的很酷的互動頁面
  2. 對於「 機器學習 machine learning 」、「 人工智慧 artificial intelligence 」、「 深度學習 deep learning 」、「 數據科學 data science 」、「 計算機視覺 computer vision 」和「 機器人技術 robotics 」這一堆新名詞,你需要知道它們之間的區別。你可以閱覽或聆聽這些領域的專家們的演講,例如這位有影響力的數據科學家 Brandon Rohrer 的精彩視頻。或者這個講述了數據科學相關的各種角色之間的區別的視頻。
  3. 明確你自己的學習目標,並選擇合適的 Coursera 課程,或者參加高校的網路公開課,例如華盛頓大學的課程就很不錯。
  4. 關注優秀的博客:例如 KDnuggets 的博客、Mark Meloon 的博客、Brandon Rohrer 的博客、Open AI 的研究博客,這些都值得推薦。
  5. 如果你熱衷於在線課程,後文中會有如何正確選擇 MOOC 課程的指導。
  6. 最重要的是,培養自己對這些技術的興趣。加入一些優秀的社交論壇,不要被那些聳人聽聞的頭條和新聞所吸引,專註於閱讀和了解,將這些技術的背景知識和發展方向理解透徹,並積極思考在日常生活和工作中如何應用機器學習或數據科學的原理。例如建立一個簡單的回歸模型來預測下一次午餐的成本,又或者是從電力公司的網站上下載歷史電費數據,在 Excel 中進行簡單的時序分析以發現某種規律。在你對這些技術產生了濃厚興趣之後,可以觀看以下這個視頻。

Python 是機器學習和人工智慧方面的最佳語言嗎?

除非你是一名專業的研究一些複雜演算法純理論證明的研究人員,否則,對於一個機器學習的入門者來說,需要熟悉至少一種高級編程語言。因為大多數情況下都是需要考慮如何將現有的機器學習演算法應用於解決實際問題,而這需要有一定的編程能力作為基礎。

哪一種語言是數據科學的最佳語言?這個討論一直沒有停息過。對於這方面,你可以提起精神來看一下 FreeCodeCamp 上這一篇關於數據科學語言的文章,又或者是 KDnuggets 關於 Python 和 R 之爭的深入探討。

目前人們普遍認為 Python 在開發、部署、維護各方面的效率都是比較高的。與 Java、C 和 C++ 這些較為傳統的語言相比,Python 的語法更為簡單和高級。而且 Python 擁有活躍的社區群體、廣泛的開源文化、數百個專用於機器學習的優質代碼庫,以及來自業界巨頭(包括 Google、Dropbox、Airbnb 等)的強大技術支持。

基礎 Python 庫

如果你打算使用 Python 實施機器學習,你必須掌握一些 Python 包和庫的使用方法。

NumPy

NumPy 的完整名稱是 Numerical Python,它是 Python 生態里高性能科學計算和數據分析都需要用到的基礎包,幾乎所有高級工具(例如 Pandasscikit-learn)都依賴於它。TensorFlow 使用了 NumPy 數組作為基礎構建塊以支持 Tensor 對象和深度學習的圖形流。很多 NumPy 操作的速度都非常快,因為它們都是通過 C 實現的。高性能對於數據科學和現代機器學習來說是一個非常寶貴的優勢。

Pandas

Pandas 是 Python 生態中用於進行通用數據分析的最受歡迎的庫。Pandas 基於 NumPy 數組構建,在保證了可觀的執行速度的同時,還提供了許多數據工程方面的功能,包括:

  • 對多種不同數據格式的讀寫操作
  • 選擇數據子集
  • 跨行列計算
  • 查找並補充缺失的數據
  • 將操作應用於數據中的獨立分組
  • 按照多種格式轉換數據
  • 組合多個數據集
  • 高級時間序列功能
  • 通過 Matplotlib 和 Seaborn 進行可視化

Matplotlib 和 Seaborn

數據可視化和數據分析是數據科學家的必備技能,畢竟僅憑一堆枯燥的數據是無法有效地將背後蘊含的信息向受眾傳達的。這兩項技能對於機器學習來說同樣重要,因為首先要對數據集進行一個探索性分析,才能更準確地選擇合適的機器學習演算法。

Matplotlib 是應用最廣泛的 2D Python 可視化庫。它包含海量的命令和介面,可以讓你根據數據生成高質量的圖表。要學習使用 Matplotlib,可以參考這篇詳盡的文章

Seaborn 也是一個強大的用於統計和繪圖的可視化庫。它在 Matplotlib 的基礎上提供樣式靈活的 API、用於統計和繪圖的常見高級函數,還可以和 Pandas 提供的功能相結合。要學習使用 Seaborn,可以參考這篇優秀的教程

Scikit-learn

Scikit-learn 是機器學習方面通用的重要 Python 包。它實現了多種分類回歸聚類演算法,包括支持向量機隨機森林梯度增強k-means 演算法DBSCAN 演算法,可以與 Python 的數值庫 NumPy 和科學計算庫 SciPy 結合使用。它通過兼容的介面提供了有監督和無監督的學習演算法。Scikit-learn 的強壯性讓它可以穩定運行在生產環境中,同時它在易用性、代碼質量、團隊協作、文檔和性能等各個方面都有良好的表現。可以參考這篇基於 Scikit-learn 的機器學習入門,或者這篇基於 Scikit-learn 的簡單機器學慣用例演示

本文使用 CC BY-SA 4.0 許可,在 Heartbeat 上首發。

via: https://opensource.com/article/18/10/machine-learning-python-essential-hacks-and-tricks

作者:Tirthajyoti Sarkar 選題:lujun9972 譯者:HankChow 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的電子郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國