機器學習個案研究I-環境設定


簡介

本系列文章主要為記錄Coursera上的Machine Learning Foundations: A Case Study Approach,主要分為理論與實作兩個部分。實作的部分,使用的語言為Python。課程分為六周,我會盡量紀錄並補充相關資訊。

環境設定

本系列課程主要需要使用到的套件為GraphLab Create,有一年的免費授權可以使用,若為教育用途,則每年可免費更新授權。使用的開發工具為IPyhon Notebook

取得GraphLab Create授權

GraphLab Create為Dato公司的一項產品,非常方便的使用Python來進行Machine Learning。

首先,先到官網進行註冊,
註冊頁面

安裝

註冊完之後會取得自己的Product Key,註冊之後可以取得下載連結。
基本上有三種方式可以安裝GraphLab Create

  1. Dato Luancher
  2. Anaconda Python Environment
  3. virtualenv Python Environment

大家平常可能比較常使用virtualenv來建立python的環境,但為了簡單方便起見,我使用Dato Luancher這個整合安裝包來進行。(如果你是使用Linux的環境只有2, 3可以選了)

安裝好之後,輸入剛剛註冊的Email與Key,就會帶到以下畫面。點選右方IPYTHON NOTEBOOK按鈕就會在瀏覽器打開IPython notebook的頁面。
Data Luancher

IPython notebook

Python的基本語法在此就不多提了,注意一下IPython是由一個一個的cell所組成的,cell有分code, markdown等,可以在上面的選單列進行調整。要執行code cell內的python程式碼,就按下Shift + Enter即可。

基本python語法複習看這裡,把這個檔案移到IPython的home資料夾就打開它就可以了。

GraphLab Create

把以下兩個檔案放到Home底下的資料夾,可以自行建立一個Machine Learning的資料夾來管理自己的資料夾。

下載範例資料people-example.csv

下載notebook檔W1-GraphLab-SFrame.ipynb

ipynb這個檔案源自於該堂課程,我加入了部分的中文註解,方便大家了解。建議自行開啟一個新的notebook來練習。