Google Colaboratory とは?
Google Colaboratory(略称 :Colab)とは、ブラウザでPythonのコードを直接実行できるサービスです。
基本無料なので、Googleアカウントさえあれば、初心者でもすぐに使うことができます。
※高性能なコンピューティング機能を使いたい場合は有料プランもあります。
【参考】Colab 基本無料、有料プラン
Google Colaboratory のメリット
- Pythonの環境を構築しなくてもいい(インストール不要)
- 一行毎に実行結果がすぐに返ってくる(動作が分かりやすい)
- AIに教えてもらえる(AIがコードを書いてくれる)
- 無料でGPUが使える(PCのスペックを気にしなくていい)
- 他の人に簡単にコードを共有できる
PythonとRの分析について
PythonとRを使うメリット
Pythonはプログラミング言語ですが、Rは統計解析に特化した言語です。
Pythonだけでデータ分析はできますが、Rは統計解析や可視化に特化したツール群が豊富にあります。
また、個人的な意見ですが、Rの記述はパイプ演算子(%>%)を使うことで、プログラミングに慣れていない人にとっても、それぞれの関数毎に「どんな順番で」「何をやっているのか」を理解しやすくすることができます。
※パイプ演算子を使うにはRのtidyverseパッケージ(magrittr、dplyr)を読み込む必要があります
Pythonを使うべきか、Rを使うべきか、ということがよく議論されがちですが、データ分析をするなら、どちらか一方ではなく、用途に合わせてそれぞれのメリットを生かせる二刀流をおススメします。
ソフトウェアエンジニアまたはシステムエンジニアなのか、それとも研究者またはビジネスの企画・開発・マーケターなのかで、分析や解析の目的、用途はそれぞれ異なると思いますが、いずれにしてもPython、Rの両方のメリットを知っていれば、効率的に分析作業が進むでしょう。
PythonとRの比較
Google Colaboratory でコードを実行してみよう
Google Colaboratory にログイン
まず最初にGoogle Colaboratoryの公式サイトからGoogleアカウントでログインしてみましょう。
【参考】公式サイト
ノートブックの新規作成
左上の「ファイル」から「ノートブックを新規作成」をクリックして、ノートブックを作成します。
左上の「Untitled0.ipynb」をクリックして、ノートブックの名前を変更します。
ここでは、「R_TEST.ipynb」としました。
コードの実行
簡単なコードを書いて、動作確認してみます。
ためしに以下のコードを実行してみましょう。
print("Hello World!")
矢印マーク「▶」をクリックするか、「Ctrl」+「Enter」で実行します。
「Hello World!」の出力が確認できました。
これでPythonを使う準備は完了です。
PythonからRを使えるようにする
次にPythonからRを使えるようにしてみましょう。
簡単なやり方を紹介します。まずはGoogle Colaboratoryで新しいコード入力欄を追加しましょう。
新しいコード入力欄に以下のように入力して実行しましょう。
import rpy2
%load_ext rpy2.ipython
これで、Rのコードを使えるようになりました。(簡単すぎ?)
Rのコードの入力方法は簡単です。コード入力欄(セル)の頭に「%%R」を記述すれば、そのセル内はRのコードとして認識され、実行されます。
試しに以下のRのコードを実行してみます。
%%R
print("Hello R-World!")
“Hello R-World!”と出力が返ってくれば成功です。
でもこれだけだと、本当にRで実行できたのか不安になりますよね。
「iris」のデータセットを使って、Python、R、それぞれの記述で出力してみましょう。
と、その前に準備があります。
以下の2つのPythonとRのコードを実行してみてください。データ分析やグラフ作成するための基本的な準備になります。
ちなみに、コード入力欄のセル内で、「Enter」すると、セル内が改行されます。
# Pythonの分析の準備
import numpy as np
import pandas as pd
import seaborn as sns
pd.options.plotting.backend = "plotly"
import rpy2.robjects as robjects
# Rの分析の準備
%%R
library(tidyverse)
これで基本的な分析の準備は完了です。
PythonとR、それぞの記述で、データセット「iris」を出力してみましう。
以下のコードをそれぞれ実行してみてください。
# Pythonでirisのデータセットを出力する
iris = sns.load_dataset('iris') # irisのデータセットを読み込む
print(iris.head()) # irisのデータセットの5行目までを出力する
# Rでirisのデータセットを出力する
%%R
iris %>% head() # irisのデータセットの6行目までを出力する
実行結果
問題なければ、上記のように出力できると思います。
irisはアヤメのsetosa、versicolor、virginicaという3種類の花の寸法に関するデータセットです。
3種類のアヤメの花のがく片(sepal)と花弁(petal)の長さと幅(Length, Width)のデータがそれぞれ50行、合計150行のデータが入っています。
※今回は、最初の数行を出力するhead()を使って出力しています
以上、PythonとRを両方とも使えることが確認できました。
Rのライブラリー(パッケージ)は、上記のtidyveseのようにデフォルトで読み込めるものと、インストールしないと読み込めないものがあります。毎回インストールしていると、都度、かなり時間がかかってしまうので、一度インストールしたものを保存しておいて、読み出すことで時間短縮になります。
その時間短縮の方法はまた次回、ご紹介します。
今後、PythonとRの連携方法、Rの便利なライブラリー(パッケージ)も紹介していこうと思います。
お疲れさまでした。