【構造学習】CausalNexで有向非循環グラフ(DAG)推定 -説明変数(テーブルデータ)の因果推論に挑戦-

こんにちは。

現役エンジニアの”はやぶさ”@Cpp_Learningです。最近、因果推論・因果探索を勉強してます。

今回は有向非循環グラフ（DAG：Directed Acyclic Graph）を推定する構造学習（Structure Learning）について勉強しました。

実践としてテーブルデータから説明変数を定義し、変数間の因果関係を推論するソースコード作成にも挑戦たので、備忘録も兼ねて本記事も書きます。

Contents

1 因果ダイアグラム -グラフ表現と因果関係について-
2 構造学習とは
- 2.1 構造学習用のPythonライブラリ CausalNex
3 実践！構造学習 -テーブルデータからDAGを推定-
4 【おまけ】モデル説明性・解釈性と因果推論の紐づけ
5 まとめ

因果ダイアグラム -グラフ表現と因果関係について-

変数間の因果関係をグラフで表現したものを因果ダイアグラムと呼びます。下図は変数xと変数yの因果関係を表現した因果ダイアグラムです。

有向グラフ

無向グラフ

変数xが変数yに影響を与えるなど、向きが明確な場合は矢印（有向エッジ）を用います。一方、因果はあるけど、向きが分からない場合は線のみ（無向エッジ）で結合します。

ここでいう変数（青●）をノード、矢印をエッジと呼ぶこともあります。グラフ関連の用語については、以下の記事で紹介しています。

PyTorch GeometricでGraph Neural Network（GNN）入門グラフニューラルネットワーク(GNN：graph neural network)とグラフ畳込みネットワーク(GCN：graph convolutional network)について勉強したので、内容をまとめました。PyTorch Geometricを使ったノード分類のソースコードも公開しています。...

循環グラフとは

下図のように、あるノード（変数zなど）を起点としたとき、巡り巡って変数zに戻ってくるグラフのことを循環グラフ（または巡回グラフ）と呼びます。

有向非循環グラフ（DAG：Directed Acyclic Graph）とは

本記事では代表的な因果ダイアグラムの有向非循環グラフを扱います（下図参照）。

有向は矢印、非循環はループ無しというの意味です。つまり有向非循環グラフとは、因果関係を有向エッジで表現し、かつ（非循環なので）ループせずに必ずどこかのノードが終点となるグラフのことです。

ベイジアンネットワーク

ノード間の因果関係をグラフと条件付き確率表(CPT：Conditional Probability Table)で表現したものをベイジアンネットワークと呼びます。

構造学習とは

今まで説明したグラフ構造（またはネットワーク構造）を推定する手法に構造学習があります。

本記事の後半で、構造学習による観測データの因果関係を考慮したネットワーク構造（DAG）推定に挑戦します。

DAG推定後、条件付き確率まで算出することも可能です。つまり構造学習でベイジアンネットワーク推定もできます。

構造学習用のPythonライブラリ CausalNex

今回は構造学習用のPythonライブラリ CausalNex を使います。

CausalNexの特徴

最先端の構造学習手法 DAG with NO TEARS を使用できる
ドメイン知識によるグラフ補正機能あり
各変数の因果関係を考慮したグラフ構造を推定できる
推定結果のグラフを簡単に可視化(変数間の因果関係を目視確認)できる
条件付き確率も算出できる

など

公式Githubに書いてありますが、以下のコマンドで簡単にインストールできます。

pip install causalnex

実践！構造学習 -テーブルデータからDAGを推定-

機械学習チュートリアルでお馴染みのボストンの住宅価格データセットを採用し、目的変数の住宅価格（PRICE）と各説明変数との因果推論に挑戦します。

Import

まずはimportから

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import networkx as nx

from sklearn.datasets import load_boston

from causalnex.structure.notears import from_pandas
from causalnex.structure import StructureModel

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import networkx as nx

from sklearn.datasets import load_boston

from causalnex.structure.notears import from_pandas

from causalnex.structure import StructureModel

データセットをダウンロード

データセットをダウンロードし、テーブルデータの中身を確認しておきます。

boston = load_boston()
 
boston_df = pd.DataFrame(boston.data, columns=boston.feature_names) # 説明変数
boston_df['PRICE'] = boston.target # 目的変数を追加
boston_df.head(3)

boston = load_boston()

boston_df = pd.DataFrame(boston.data, columns=boston.feature_names) # 説明変数

boston_df['PRICE'] = boston.target # 目的変数を追加

boston_df.head(3)

ボストン市の住宅価格データセット

構造学習によるDAG推定

CausalNexを使えば、わずか1行でテーブルデータからDAGを推定できます。


SM = from_pandas(boston_df)

SM = from_pandas(boston_df)

DAG（ネットワーク）可視化

推定結果のグラフ（ネットワーク）構造を NetworkX で可視化します。

plt.figure(figsize=(18,10))
pos = nx.spring_layout(SM, k=60)

edge_width = [ d['weight']*0.3 for (u,v,d) in SM.edges(data=True)]
nx.draw_networkx_labels(SM, pos, fontsize=16, font_family="Yu Gothic", font_weight="bold")
nx.draw_networkx(SM,
                 pos,
                 node_size=4000,
                 arrowsize=20,
                 alpha=0.6,
                 edge_color='b',
                 width=edge_width)

plt.figure(figsize=(18,10))

pos = nx.spring_layout(SM, k=60)

edge_width = [ d['weight']*0.3 for (u,v,d) in SM.edges(data=True)]

nx.draw_networkx_labels(SM, pos, fontsize=16, font_family="Yu Gothic", font_weight="bold")

nx.draw_networkx(SM,

pos,

node_size=4000,

arrowsize=20,

alpha=0.6,

edge_color='b',

width=edge_width)

CausalNexで因果推論

因果関係の強弱をエッジ（矢印）の太さで表現しています。例えば、NOXはB/AGE/TAXと強い因果関係があることが分かります。

因果関係の弱いエッジを削除

因果関係の弱いエッジ（線が細い矢印）を削除してから、再び可視化します。

# グラフをコピー
COPY_SM = SM.copy()

# 因果関係の弱いエッジを削除
COPY_SM.remove_edges_below_threshold(0.5)

# 可視化
plt.figure(figsize=(18,10))
pos = nx.spring_layout(COPY_SM, k=60)

edge_width = [ d['weight']*0.3 for (u,v,d) in COPY_SM.edges(data=True)]
nx.draw_networkx_labels(COPY_SM, pos, fontsize=16, font_family="Yu Gothic", font_weight="bold")
nx.draw_networkx(COPY_SM,
                 pos,
                 node_size=4000,
                 arrowsize=20,
                 alpha=0.6,
                 edge_color='b',
                 width=edge_width)

# グラフをコピー

COPY_SM = SM.copy()

# 因果関係の弱いエッジを削除

COPY_SM.remove_edges_below_threshold(0.5)

# 可視化

plt.figure(figsize=(18,10))

pos = nx.spring_layout(COPY_SM, k=60)

edge_width = [ d['weight']*0.3 for (u,v,d) in COPY_SM.edges(data=True)]

nx.draw_networkx_labels(COPY_SM, pos, fontsize=16, font_family="Yu Gothic", font_weight="bold")

nx.draw_networkx(COPY_SM,

pos,

node_size=4000,

arrowsize=20,

alpha=0.6,

edge_color='b',

width=edge_width)

CausalNexで因果推論

スッキリしたグラフになりました。さてエッジを確認すると、目的変数のPRICEと因果関係のある説明変数がRM/CHAS/NOX/DISだと分かります。

特にRM（部屋数）から伸びるエッジは太いので「部屋数が住宅価格に強い影響を与える」という推定結果です。

そのグラフ推定結果は適切か？

データを活用して何かするとき、手元にある観測データのみから、各種検討している点について、常に意識する必要があります。

例えば、機械学習（本記事では構造学習）などを使う際、観測データのみからモデル生成している点について、注意が必要です。

改めて上図のグラフを見ると、CHAS ⇒ PRICE を確認できますが、CHAS（川辺の家か否か）が住宅価格に直接影響を与えるものでしょうか？

美味しい魚が大量にとれる川なら、その土地の価値は高そうですし、川の氾濫などの災害を考慮した丈夫な住宅なら、住宅価格は高そうです。他にも文化的に価値の高い川とか…

要するに 川（特徴的な土地）⇒ ○○ ⇒ 住宅価格という因果関係が常識的な気がします。

また PRICE ⇒ TAX/B という因果関係も確認できます。今回は住宅価格に影響を与える説明変数を知りたいので、HOGE ⇒ PRICE と逆向きのエッジあるいはノードは削除して良いと思います。

ドメイン知識・常識的な知識・モデル生成に使用しなかった情報なども考慮して、推定結果を考察することが重要です。

私は住宅価格に関するドメイン知識を持っていません(*･ω･)ﾉ♪

ドメイン知識によるグラフ補正

CausalNex にはドメイン知識によるグラフ補正機能があります。今回は TAXとBのノード削除 と CHAS ⇒ PRICE のエッジ削除 をしてみます。

# グラフをコピー
D_SM = SM.copy()

# 因果関係の弱いエッジを削除
D_SM.remove_edges_below_threshold(0.5)

# ノード削除
D_SM.remove_nodes_from(['TAX', 'B'])

# エッジ削除
D_SM.remove_edge('CHAS', 'PRICE')

# 可視化
plt.figure(figsize=(18,10))
pos = nx.spring_layout(D_SM, k=60)

edge_width = [ d['weight']*0.6 for (u,v,d) in D_SM.edges(data=True)]
nx.draw_networkx_labels(D_SM, pos, fontsize=16, font_family="Yu Gothic", font_weight="bold")
nx.draw_networkx(D_SM,
                 pos,
                 node_size=4000,
                 arrowsize=20,
                 alpha=0.6,
                 edge_color='b',
                 width=edge_width)