RStudio IDE 入門
從我記事起,我就一直喜歡擺弄數字。作為 20 世紀 70 年代後期的大學生,我上過統計學的課程,學習了如何檢查和分析數據以揭示其意義。
那時候,我有一部科學計算器,它讓統計計算變得比以往更容易。在 90 年代早期,作為一名從事 t 檢驗 、相關性以及 ANOVA 研究的教育心理學研究生,我開始通過精心編寫輸入到 IBM 主機的文本文件來進行計算。這個主機遠超我的手持計算器,但是一個小的空格錯誤就會導致整個過程無效,而且這個過程仍然有點乏味。
撰寫論文時,尤其是我的畢業論文,我需要一種方法能夠根據我的數據來創建圖表,並將它們嵌入到文字處理文檔中。我著迷於 Microsoft Excel 及其數字運算能力以及可以用計算結果創建出的大量圖表。但這條路每一步都有成本。在 20 世紀 90 年代,除了 Excel,還有其他專有軟體包,比如 SAS 和 SPSS+,但對於我那已經滿滿的研究生時間表來說,學習曲線是一項艱巨的任務。
快速回到現在
最近,由於我對數據科學的興趣濃厚,加上對 Linux 和開源軟體感興趣,我閱讀了大量的數據科學文章,並在 Linux 會議上聽了許多數據科學演講者談論他們的工作。因此,我開始對編程語言 R(一種開源的統計計算軟體)非常感興趣。
起初,這只是一個偶發的一個想法。當我和我的朋友 Michael J. Gallagher 博士談論他如何在他的 博士論文 研究中使用 R 時,這個火花便增大了。最後,我訪問了 R 項目 的網站,並了解到我可以輕鬆地安裝 R for Linux。遊戲開始!
安裝 R
根據你的操作系統和發行版情況,安裝 R 會稍有不同。請參閱 Comprehensive R Archive Network (CRAN)網站上的安裝指南。CRAN 提供了在 各種 Linux 發行版,Fedora,RHEL,及其衍生版,MacOS 和 Windows 上的安裝指示。
我在使用 Ubuntu,按照 CRAN 的指示,將以下行加入到我的 /etc/apt/sources.list
文件中:
deb https://<my.favorite.cran.mirror>/bin/linux/ubuntu artful/
接著我在終端運行下面命令:
$ sudo apt-get update
$ sudo apt-get install r-base
根據 CRAN 說明,「需要從源碼編譯 R 的用戶[如包的維護者,或者任何通過 install.packages()
安裝包的用戶]也應該安裝 r-base-dev
的包。」
使用 R 和 RStudio
安裝好了 R,我就準備了解更多關於使用這個強大的工具的信息。Gallagher 博士推薦了 DataCamp 上的 「R 語言入門」,並且我也在 Code School 找到了適用於 R 新手的免費課程。兩門課程都幫助我學習了 R 的命令和語法。我還參加了 Udemy 上的 R 在線編程課程,並從 No Starch 出版社 上購買了 R 之書。
在閱讀更多內容並觀看 YouTube 視頻後,我意識到我還應該安裝 RStudio。Rstudio 是 R 語言的開源 IDE,易於在 Debian、Ubuntu、 Fedora 和 RHEL 上安裝。它也可以安裝在 MacOS 和 Windows 上。
根據 RStudio 網站的說明,可以根據你的偏好對 IDE 進行自定義,具體方法是選擇工具菜單,然後從中選擇全局選項。
R 提供了一些很棒的演示例子,可以通過在提示符處輸入 demo()
從控制台訪問。demo(plotmath)
和 demo(perspective)
選項為 R 強大的功能提供了很好的例證。我嘗試過一些簡單的 vectors 並在 R 控制台的命令行中繪製,如下所示。
你可能想要開始學習如何將 R 和一些樣本數據結合起來使用,然後將這些知識應用到自己的數據上得到描述性統計。我自己沒有豐富的數據來分析,但我搜索了可以使用的數據集 datasets;有一個這樣的數據集(我並沒有用這個例子)是由聖路易斯聯邦儲備銀行提供的 經濟研究數據。我對一個題為「美國商業航空公司的乘客里程(1937-1960)」很感興趣,因此我將它導入 RStudio 以測試 IDE 的功能。RStudio 可以接受各種格式的數據,包括 CSV、Excel、SPSS 和 SAS。
數據導入後,我使用 summary(AirPassengers)
命令獲取數據的一些初始描述性統計信息。按回車鍵後,我得到了 1949-1960 年的每月航空公司旅客的摘要以及其他數據,包括飛機乘客數量的最小值、最大值、四分之一位數、四分之三位數、中位數以及平均數。
我從摘要統計信息中知道航空乘客樣本的均值為 280.3。在命令行中輸入 sd(AirPassengers)
會得到標準偏差,在 RStudio 控制台中可以看到:
接下來,我生成了一個數據直方圖,通過輸入 hist(AirPassengers);
得到,這會以圖形的方式顯示此數據集;RStudio 可以將數據導出為 PNG、PDF、JPEG、TIFF、SVG、EPS 或 BMP。
除了生成統計數據和圖形數據外,R 還記錄了我所有的歷史操作。這使得我能夠返回先前的操作,並且我可以保存此歷史記錄以供將來參考。
在 RStudio 的腳本編輯器中,我可以編寫我發出的所有命令的腳本,然後保存該腳本以便在我的數據更改後能再次運行,或者想重新訪問它。
獲得幫助
在 R 提示符下輸入 help()
可以很容易找到幫助信息。輸入你正在尋找的信息的特定主題可以找到具體的幫助信息,例如 help(sd)
可以獲得有關標準差的幫助。通過在提示符處輸入 contributors()
可以獲得有關 R 項目貢獻者的信息。您可以通過在提示符處輸入 citation()
來了解如何引用 R。通過在提示符出輸入 license()
可以很容易地獲得 R 的許可證信息。
R 是在 GNU General Public License(1991 年 6 月的版本 2,或者 2007 年 6 月的版本 3)的條款下發布的。有關 R 許可證的更多信息,請參考 R 項目官網。
另外,RStudio 在 GUI 中提供了完美的幫助菜單。該區域包括 RStudio 快捷表(可作為 PDF 下載),RStudio的在線學習、RStudio 文檔、支持和 許可證信息。
via: https://opensource.com/article/18/2/getting-started-RStudio-IDE
作者:Don Watkins 譯者:szcf-weiya 校對:wxy
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive