【Googleデータポータル入門第1回】Googleデータポータルのセットアップ&データの取り込み
Googleデータポータルを使ってみたところ簡単に使えてとても便利だったため、使い方を何回かに分けて説明します。
この記事では実際に分析を行う準備として、Googleデータポータルのセットアップとサンプルデータの取り込みまでを説明します。
Googleデータポータルとは
Googleデータポータルとは、様々なデータをブラウザ上で分析、可視化し、レポートとしてまとめることができるBIツールです。
Googleが提供するサービスなので、GmailやGoogleドライブと同様、ブラウザだけで作業を行うことができます。
また、特筆すべきはなんと言っても 無料であるということ。 素晴らしいですね。
類似のツールとしては有名なものでは Tableau、Qlik sense などがあります。
これらは基本有料であるため、なかなか個人では手を出せないかもしれません(無料で使える部分もあります)。
他には Microsoft の Power BI / Power BI Desktop があります。
Power BI Desktop であれば個人でインストールして使用する分には無料なので、Googleデータポータルに近いと言えるかもしれません。
ただし、Power BI Desktopでレポートの共有機能を使うは有料版が必要です。
Power BI Desktop は自分のコンピュータ上で動作し、Googleデータポータルはウェブ上で動作するという違いがあります。
どちらも素晴らしいツールですが、ウェブ上で動作するGoogleデータポータルはアカウントさえ持っていれば別のコンピュータからも同じ作業ができる、という利点があります。
自分がどのように使いたいかでツールを選択すると良いでしょう。
この連載ではサンプルデータを用いながらGoogleデータポータルの使い方を簡単に説明します。この記事を読んで皆様も身の回りのデータを分析してみてくださいね。
サンプルデータの準備
今回は簡単にGoogleスプレッドシートとしてデータを用意し、Googleデータポータルで分析、可視化してみます。
そのためにまずはデータをGoogleドライブに用意します。
サンプルデータをGoogleドライブに格納し、Googleスプレッドシートとして開けるようにしておきます。
Googleドライブ上に分析対象のファイル (csv, tsv, エクセルファイル) をアップロードします。
- 今回はKaggle上のデータセット Movies on Netflix, Prime Video, Hulu and Disney+ を題材として分析してみます。
このデータを使う場合はリンク先の “Download” をクリックするとzipがダウンロードされるので、適当なディレクトリで展開します。
その後、展開したcsvファイルをGoogleドライブ上の任意のフォルダにアップします。
- 今回はKaggle上のデータセット Movies on Netflix, Prime Video, Hulu and Disney+ を題材として分析してみます。
Googleドライブ上で分析対象のファイルを右クリック → “アプリで開く” → “Googleスプレッドシート” を選択して、スプレッドシート上でファイルを開きます。
自動でスプレッドシートが保存されます。
Googleデータポータルにログイン
Googleデータポータルにログインする方法について説明します。
ここで説明する内容はログインする最初の一回のみ必要な手順です。
Googleアカウントを持っていない場合は作成しておきます。
Googleデータポータル ページを開き、右上の “データポータルにログイン” ボタンをクリックします。
“Google データポータルへようこそ” という画面が出てくるので、 “使ってみる” をクリックします。
国名と使用許諾へのチェックを入れる画面が開く。国を選択し、使用許諾へチェックを入れます。
- “日本"がすごい下の方にあります。
おすすめ情報などのメールを受け取るか選択する画面になります。
欲しい情報がある場合はお好みの情報の “はい” にチェックを入れて下さい。これでGoogleデータポータルの画面が開きます。
テンプレートが用意されていますね。自分でレポートを作成する際はこのテンプレートを用いたほうが良さそうです。
Googleデータポータルへのデータの取り込み
Googleデータポータルにデータを取り込みます。
今回は先程作成したGoogleスプレッドシートからデータを取り込みます。
他にも様々な方法でデータを取り込むことが可能なので、使いたい方法をググってみて下さい。
個人的には Google Analyticsや Big Query が気になりました。
巨大なファイルはBig Queryに取り込んでおけばGoogleデータポータルで好きに分析できるようになりそうですね。
他にはこのブログのアクセスが伸びてきたら Google Analytics のデータを取り込んでサイト分析してみても面白そうです。
先程のログイン画面左上の “作成” ボタン → “データソース” をクリックします。
たくさんのデータ取り込みのための接続先が表示されます。
ここから必要な接続先を選びデータをデータポータルに取り込みます。
今回はこの中から “Googleスプレッドシート” を選びます。
実際は画像より下にたくさんの3rd partyの接続先が表示されています。Googleドライブへのアクセスの許可を求められたら許可します。
すると、画面上で先ほど作ったスプレッドシートが選択できるようになっているはずです。スプレッドシートを選択すると、ワークシート選択ができるようになります。
ワークシートを選択すると右上の接続ボタンがクリックできるようになるので、クリックします。- 今回のスプレッドシートはcsvから作成したので、ワークシートは1つしかありません。
複数ワークシートがある場合は必要なものを選択して下さい。
- 今回のスプレッドシートはcsvから作成したので、ワークシートは1つしかありません。
データに接続すると、諸々の設定を行う画面に移ります。
今回はオープンデータでただのスプレッドシートなので何も設定しなくても良いです。
他のデータソーズの場合は気にする必要がありそうなので、以下に設定ポイントを挙げます。
ちなみにここで設定しなくともあとで同じ画面を開いて設定することができます。- データの更新間隔 : データの取得先からどれくらいの時間間隔でデータを取得するかを設定します。
取得先が有料サービスの場合(BIG Queryなど)はデータを取得する度に料金がかかる可能性があるので、注意したほうが良さそうです。 - コミュニティにおける視覚化へのアクセス : コミュニティビジュアライゼーション 機能を使用するか否かを設定します。
この機能は今はβ版です。第三者が作成した可視化用の設定やアプリを使えるようにするかどうかのようです。
自分のデータがサードパーティ側にも表示される?ようになるっぽいので、使用する場合は認定されたディベロッパーのビジュアライゼーションのみを使うのが無難そうです。 - レポートのフィールド編集 : 元になっているデータの定義(整数か、文字列かなど)をグラフごとなどで変更できるようにするかどうかを設定します。
特に問題がない場合は柔軟な集計や可視化ができるのでオンにしておいた方が良さそうです。 - 真ん中の画面でデータの定義やデフォルトの集計方法を変更できます。
IDなど、整数だけど文字列として扱いたいなどの場合があれば変更します。
- データの更新間隔 : データの取得先からどれくらいの時間間隔でデータを取得するかを設定します。
これでレポートを作成する準備が整いました。
右上の “レポートを作成” をクリックすれば様々な可視化を駆使したレポートを作成できます。
今回の記事はここまでです。次回から実際にデータ分析を行ってみます。