そのMiddle-out approach、大丈夫ですか?(5) 数学部分のまとめ

2023-12-08
前回のブログから少し時間が空いてしまいましたので、数学的な部分を、まとめておきたいと思います。
https://www.c-sqr.net/c/pcfj/reports/525329
https://www.c-sqr.net/c/pcfj/reports/525457

すこし、数学的な用語の説明も加えました。

Middle-outは、PBPKモデルの中の1つあるいは複数のパラメータを、血中濃度推移から逆算する、ということでした。
そこで、まずは「逆算」について、考えましたよね。
------------------------------------------------------------------
中学校の時に、方程式の数(データの数)と未知パラメータ(係数)の数が同じ場合には、データからの逆算でパラメータが一意に求まることを習いました。また、データの数がパラメータの数よりも少ない場合には、解を一意に求めることができないことも習いました(不定と呼ばれていまいたね。)。さらに、大学では、データの数がパラメータの数よりも多い場合について習いました(最小二乗法)(たとえば、HPLCの検量線なら、3点以上の濃度で直線近似(y = ax + b)する場合。)。

これらをまとめると

データ数=パラメータ数の場合: パラメータが一意に定まる(決定系)。(モデル式が決定されるのではない点に注意)

データ数<パラメータ数の場合: パラメータが一意に定らない(劣決定系・不定)。

データ数>パラメータ数の場合: すべてのデータを満足できるパラメータはない(優決定系・不能)。この場合、二乗誤差を最小にするパラメータを求める(最小二乗法)。

となります。
https://www.slideshare.net/wosugi/ss-79624897

たとえば、モデル式を

w = ax + by + cz + d 

とします。未知パラメータの数は、4つです。入力データ(x,y,z)と、出力データ(w)から、パラメータ(a,b,c,d)を逆算する場合、

データ数 = 4: パラメータが一意に定まる
データ数 > 4: 最小二乗法
データ数 < 4: ???

ですね。

ただし、以下のような注意点があります。

・データ数=パラメータ数の場合(決定)
パラメータが一意に定まるのですが、モデル式が決定されるのではありません。候補となるモデル式が2つ以上ある場合、どちらが正しいのかは定まりません。
たとえば、
y = ax + b
y = ax^b
という2つのモデル式の候補がある場合、どちらでも、(x,y) = (1,2), (5,3)を満たすパラメータが一意に定まります。

・データ数>パラメータ数の場合(優決定・不定)
パラメータ数を増やせば、逆算に用いた既存データに対する相関係数は必ず良くなります。しかし、未知データに対する予測性は、必ずしも良くはなりません。(むしろパラメータ数をなるべく少なくする方が予測性が良くなる場合が多い。(これが「オッカムの剃刀」と言う考え方です。数学的には、赤池情報量基準の考え方に対応します。))

・データ数<パラメータ数の場合(劣決定・不能)
すべてのパラメータを決定することはできませんが、あるパラメータだけは一意に定まる場合があります。たとえば、介入試験のデータが含まれる場合です。PBPKによるDDI予測がこれに該当します。
先ほど議論した、w = ax + by + cz +dというモデルを考えましょう (わかりやすいように、w = ax + (by + cz +d)とします。)
xは介入因子、 (by + cz +d)は背景因子として同じに設定して実験します。結果、以下のようなデータが得られました。

x = 2 or 0 (介入)
w = 10 or 50 (実験結果)

したがって、

50 = 2a + (by + cz +d)
10 = by + cz +d     (a0 = 0です)

上の式から、下の式を引くと、by + cz + dは打ち消されるので、
40 = 2a
したがって、a = 20と求まりました。

ここで、パラメータ数は4(a,b,c,d)であり、データは2組なので、不定(劣決定)です。実際、b,c,dは求まりません。しかし、aだけは求まります。劣決定だからと言って、すべてのパラメータが求まらないわけではないです。

------------------------------------------------------------------
次に、血中濃度推移データから、いくつのパラメータを決定できるのか?を考えました。
静脈内投与の場合、血中濃度推移を血中濃度を対数にしてプロットした際に、直線1つになれば2つ、直線2つならば4つでした。血中濃度推移データはバラツキを持っていますから、これ以上はオーバーフィッテイング(過剰適合)になってしまうのでした。

したがって、基本的な考え方としては、非常に多くのパラメータを持つPBPKモデルについて、血中濃度推移データだけからの逆算により、すべてのパラメータを決定(決定あるいは優決定)することはできません。

そもそも、PBPKモデルの基本的な考え方は、メカニズムベースのモデル式をもとに、別途に測定したパラメータ(例えば、血流量やタンパク結合率など)からボトムアップで構築するというものです。
しかし、現在のサイエンスのレベルでは、ボトムアップでは血中濃度推移を正確に(Absolute average fold error < 0.80-1.25)、「予測」することはできません。

そこで、PBPKモデルのいくつかのパラメータを血中濃度推移から逆算する、すなわちmiddle-outという考え方が出てきました。それと同時に、middle-outに関する様々な「誤謬」も始まりました(middle-outと言う用語の功罪は、考えたほうが良いと思います。)