【Python】pandas join を利用して DataFrame をシンプルに結合する

Python でデータ解析を行うための高性能なライブラリとして、これまでも pandas の使い方をサンプルソースを使って説明してきました。

以前、2つのデータフレームを結合するために、高性能な merge() 関数の使い方を紹介しました。ここではより簡単に、特定の場合に利用できる join() 関数について、サンプルソースとともに使い方を確認していきます。

インストール

pandas ライブラリを利用しますので、インストールされていない場合には、pip install pandas を実行しておく必要があります。

merge() の記事で利用した、ExcelのVLOOKUPを使う処理としてやりそうな病院の名寄せ処理を見ていきます。

サンプルの実装です。

2つのデータフレームに病院の情報が入っています。
1つ目のデータフレームのキー（病院）と2つ目のデータフレームのキー（病院）で名寄せを行い、表を結合したデータフレームを作成します。
- 1つ目のデータフレームは「病院A」と「病院C」です。
- 2つ目のデータフレームは「病院A」「病院B」「病院C」「病院D」です。
- インデックスが同じデータを結合して、新しい行を作りました。