2024.09.19

Tableau Prep Builderの製品紹介

Tableau Prep BuilderとはTableauの製品群の中のデータを加工(ETL処理など)を行う製品のことです。
ドラッグ&ドロップを中心とした直感的な操作やフローを作成しながら実際のデータをリアルタイムで確認することができるユーザーライクなツールです。

今回はTableau Prep Builderについて実際の画面と合わせて紹介したいと思います。

1.Tableau Prep Builderの使い方の流れ

はじめに、Tableau Prep Builderでの使い方の流れは以下になります。
①データを準備する
②準備したデータをTableau Prep Builderで読み込み・確認する
③読み込んだデータを加工(ETL処理)する
④加工したデータを出力する

詳細部分については実際の画面と合わせて紹介したいと思います。

2.Tableau Prep Builderの画面紹介

次に、実際のTableau Prep Builderの画面について紹介したいと思います。

■起動後初期画面

Tableau Prep Builderを起動すると初期画面として画像のような画面が表示されます。

■データの接続先画面

初期画面の左上部にある接続やデータに接続などをクリックするとデータの接続先を選択することができます。
Tableau Prep Builderの接続先は多種多様ですがバージョンによっては廃止済みや廃止予定になるものもあるので注意が必要です。
主な接続先としてはCSVファイルやMicrosoftのAccess、Excel、Amazon系、Azure系、PostgreSQL、Oracle、SAP系など幅広い接続先があります。
また、Tableauに特化したファイル形式である.hyperファイルを接続することもできます。

■Tableau Prep Builderでのフロー作成画面

Tableau Prep Builderではデータを加工(ETL処理)する流れをフローを呼びます。
フローの画面では各処理の単位であるステップとデータの接続先を確認することができます。
各ステップは任意の色や名前に設定できるのでフローの流れを把握しやすいです。

3.各ステップの紹介

主にTableau Prep Builderで使用する機会が多いステップについて紹介したいと思います。

■インプットステップ(入力ステップ)

Tableau Prep Builderでデータを加工する際はインプットステップから始まります。ここでは加工したいデータを読み込むことができます。
インプットステップで設定できることは以下になります。(赤枠部分)
①設定タブ

データソースの接続先の表示と編集、ヘッダーのオプション設定、データを増分更新するかなどのデータを読み込む際の設定をすることができます。

②テーブルタブ

接続されたデータソースの具体的なテーブルの選択や、複数テーブルのユニオンなどの設定をすることができます。

③データサンプルタブ

各ステップで表示されるデータの行数やサンプリング方法の指定をすることができます。

④変更タブ

データに対して行った変更(フィールドの追加・削除、データ型の変更など)を一覧として表示することができます。

またデータペイン(青枠部分)では変更した設定内容を含めた実際のデータが可視化されているため、フローを実行する前にどのようなデータになっているのかとても分かりやすいです。
データペインは後続で紹介するステップにも存在するのでTableau Prep Builderは非エンジニアでも使いやすい製品だと思います。

■クリーニングステップ

クリーニングステップではデータを整形することに特化したステップになります。
他のステップでも同じく設定できる内容はありますが、フローを分かりやすくする意味でもクリーニングステップは良く使われます。

■集計ステップ

複数のデータソースを使用した際のデータの粒度を揃えたり、Tableau Desktopで表示するためあらかじめ集計しておきたい場合は集計ステップを使用します。
集計ステップではグループ化したい項目(SQL文でいえばGROUP BYに使用する項目)と集計フィールドを設定することができます。
集計フィールドでは各項目ごとに集計タイプ(SUM、AVG、MAX、MINなど)を設定することができます。

■ピボットステップ

Tableau Desktopで最適な表示をするために、データを縦持ちから横持ちに変更したいやその逆がしたい場合があります。
列から行にしたい項目もしくは行から列にしたい項目をピボットステップで設定することでデータの持ち方を変更することができます。

■結合ステップ

他のデータソースの関連データを組み合わせたい場合は結合ステップを使用します。
結合ステップではSQL文と同様で結合する際のキー項目と結合のタイプを設定すること必要があります。
Tableau Prep Builderでは結合結果のサマリーで不一致の値などの件数等を確認することができます。

■ユニオンステップ

複数のデータソースを一つにまとめたい場合はユニオンステップを使用します。
ただし、ユニオンステップでは項目名やデータ型の微妙な違いがあると正しくユニオンすることができないので不一致のフィールドや各データソースの色などを確認する必要があります。

■出力ステップ

Tableau Prep Builderでデータを加工する際は最後に出力ステップを使用します。
ここでは加工したデータの内容をどんな出力タイプでどこに出力するのかを設定します。

また、フローの出力先としてファイルとしてTableauに特化したファイル形式の.hyperや一般的なファイル形式の.xlsxや.csvに保存できます。
保存先をデータベースやクラウドストレージで選択して別の接続先に出力することもできます。

4.各ステップのクリーニング機能まとめとその他の機能

各ステップでは可能なクリーニング内容が微妙に異なるので以下に一覧としてまとまりました。

クリーニング内容各ステップ
インプットクリーニング集計ピボット結合ユニオン新しい行出力
フィルター
値のグループ化
クリーニング
日付の変換
値の分割
フィールド名の変更
フィールド名の一括変更
フィールドの複製
保持するフィールド
フィールドの削除
計算フィールドの作成
値の編集
データ型の変更

また、Tableau Prep Builderではパラメータを設定して使用することができます。

5.注意点

サンプリングする行数が多かったり、フローに配置しているステップや処理が多いとTableau Prep Builder自体が重くなり、データペインを表示するのに時間がかかったり、フローを実行完了するまでの時間が長くなってしまったりします。
処理が複雑になった場合は無駄な処理をへらしたり、フローを分割したりする方が良いと思います。

RECRUIT

エンジニアが主役となり、未来を明るく照らしていく100年企業へ。

採用情報へ