背景

Dataflow now supports custom containers in GA. ※ このカスタム コンテナ機能は、Python で一般提供が開始されました。Java ではプレビューで利用できます。

になってから、もうすぐ半年が経ちます。一方、初心者にやさしいBigQuery MLのクラスタリングはK平均法(k-means)のみサポートしています。DBSCANはk-meansより優れるように見えますので、Dataflowカスタムコンテナで回してみることにしました。

準備

Dataflow でのカスタム コンテナの使用には詳しい内容がありますから、Apache Beam SDK (>2.30.0)とDockerインストールの説明は割愛させていただきます。

---

投稿先で全ての内容を読む...