1次元での生成作用素の形の証明

Spike-and-Slab prior からの効率的なサンプリング

ノート
著者

司馬博文

\[ p_\epsilon(x)=(1-\gamma)p(x)+\frac{\gamma}{\epsilon}p\left(\frac{x}{\epsilon}\right) \] を continuous spike-and-slab prior とする.

1 イベント時刻

1.1 生存関数

\((x,v)=(0,\pm1)\) から開始したサンプラーのイベント時刻 \(T_\epsilon\) の生存関数は \[ S_\epsilon(t)=\frac{p_\epsilon(t)}{p_\epsilon(0)}=\frac{1-\gamma}{1-\gamma+\gamma/\epsilon}\frac{p(t)}{p(0)}+\frac{\gamma}{\epsilon(1-\gamma)+\gamma}\frac{p\left(\frac{t}{\epsilon}\right)}{p(0)} \] で与えられる.次の収束に注意: \[ S_\epsilon(t)\xrightarrow{\epsilon\to0}1_{\left\{0\right\}}(t),\qquad t\in\mathbb{R}_+. \]

1.2 密度

\(T_\epsilon\) の密度 \(f_\epsilon\)\[ f_\epsilon(t)=-S_\epsilon'(t)=\frac{1-\gamma}{1-\gamma+\gamma/\epsilon}\frac{p'(t)}{p(0)}+\frac{\gamma}{\epsilon(1-\gamma)+\gamma}\frac{1}{\epsilon}\frac{p'\left(\frac{t}{\epsilon}\right)}{p(0)} \] と表される.\(p\) が Gauss である場合は,\(\epsilon\to0\) の極限で \(t=0\) において \(\infty\) に発散し,\(t>0\) において \(0\) に収束する: \[ f_\epsilon(t)=-S_\epsilon'(t)=\frac{\frac{(1-\gamma)\epsilon^3t}{\sigma^2}e^{-\frac{t^2}{2\sigma^2}}+\frac{\gamma t}{\sigma^2}e^{-\frac{t^2}{2\sigma^2\epsilon^2}}}{(1-\gamma)\epsilon^3+\gamma\epsilon^2}. \]

つまりイベント時刻 \(T_\epsilon\) は全変動収束先は持たず,\(T_\epsilon\) そのままを解析することは難しいようである.これは \(\epsilon\to0\) の極限で「イベント」の概念(スケール)が変化するためである.

実は到着時刻 \(\tau_\epsilon^a\) を見ると,\(\epsilon,a\) どの極限でも全変動収束する.この \(\tau_\epsilon^a\) に着目することが今回の解析の鍵となる.

1.3 \(0\) への集積の速さ

\(\epsilon\to0\) の極限を取ると,\(T_\epsilon\)\(0\) に集積していく.

区間 \([0,\epsilon]\) で見ると,ある値 \(\left(1-\frac{p(1)}{p(0)}\right)\in(0,1)\) に収束する割合でイベントが起こる.

\([0,\epsilon^p]\;(p>1)\) には確率1で入らず,\([0,\epsilon^p]\;(0<p<1)\) には確率1で入る.

\[ \operatorname{P}[T_\epsilon\le\epsilon^p]\xrightarrow{\epsilon\to0}\begin{cases} 0,&1<p,\\ 1-\frac{p(1)}{p(0)},&p=1,\\ 1,&0<p<1. \end{cases} \]

\(p>1\) のときの収束の速さは \(O(\epsilon^{(p-1)\land1})\) である.

\(p=1\) のときは \(O(\epsilon)\)\(0<p<1\) のときは \(p(x)\)\(\lvert x\rvert\to\infty\) での減衰の速さに依存する.

一般に \[ \operatorname{P}[T_\epsilon\le\epsilon^p]=1-S_\epsilon(\epsilon^p) \] が成り立つ. \[\begin{align*} S_\epsilon(\epsilon^p)&=\frac{p_\epsilon(\epsilon^p)}{p_\epsilon(0)}\\ &=\frac{1-\gamma}{1-\gamma+\gamma/\epsilon}\frac{p(\epsilon^p)}{p(0)}+\frac{\gamma}{\epsilon(1-\gamma)+\gamma}\frac{p(\epsilon^{p-1})}{p(0)}\\ \end{align*}\]

第一項は Taylor 展開により \(O(\epsilon)\) と判る.第二項の最初の因子は \[ \frac{\gamma}{\epsilon(1-\gamma)+\gamma}=1-\frac{1-\gamma}{\gamma}\epsilon+O(\epsilon^2) \] に注意すると,\(p\ge1\) の場合が従う.

1.4 \(\tau_\epsilon^a\) への着目

\(T_\epsilon\)\(\epsilon\) と同じスケールで \(0\) に収束していくタイムスケールの事象であり,Sticky PDMP の振る舞いを見るには1段階遅いスケールを見る必要がある.

これが \(\tau_\epsilon^a\) である.この量は \[ \operatorname{P}[\tau_\epsilon^a\le t]= \operatorname{P}[\tau_\epsilon^a\le t]-\operatorname{P}[\tau^a_0\le t]+\operatorname{P}[\tau^a_0\le t]-\operatorname{P}[\tau^0_0\le t]+\operatorname{P}[\tau_0^0\le t]-\operatorname{P}[\tau_0^0\le 0] \] と表示ができる.\(\epsilon,t,a\to0\) の極限を考えたとき,最初の2項は \[ \int^t_0\biggr(f^a_\epsilon(s)-f^a_0(s)\biggl)\,ds \] という表示を持つために,

  1. 第1項 \(\operatorname{P}[\tau^a_\epsilon\le t]-\operatorname{P}[\tau^a_0\le t]\)\(O(\epsilon^p)O(t)\) のオーダーで収束する.
  2. 第2項 \(\operatorname{P}[\tau^a_0\le t]-\operatorname{P}[\tau^0_0\le t]\)\(O(a^q)O(t)\) のオーダーで収束する.
  3. 第3項 \(\operatorname{P}[\tau_0^0\le t]-\operatorname{P}[\tau_0^0\le 0]\)\(O(t)\) のオーダーで収束する Section 3.3

と予想される.

このために第3項が \(a,\epsilon\) を(\(t\) に比べて)どのスピードで \(0\) に近づけようとも,同じオーダーで \(0\) に収束するのである.

\(\tau_\epsilon^a\) で見た際,\(\epsilon\to0\) 収束による \(0\) への集積は起こらないために,上式の \(\epsilon,t\to0\) での極限は安定したスピードを持つ.

1.5 \(N_\epsilon\) への着目

さらに \(0\) への密度の集積を見るために,計数過程 \[ N_\epsilon(t):=\max\left\{n\ge 1\,\middle|\,\sum_{i=1}^{n-1}2T_\epsilon^{(i)}+T_\epsilon^{(n)}\le t\right\} \] を考える Section 2.2

\(N_\epsilon(\epsilon)\) という確率変数は \(\epsilon\to0\) の極限で安定した分布を持つ Section 2.7

\(\tau_\epsilon^a\) という粗視化をしない場合は \(N_\epsilon\) の解析が必要になるだろう.

2 遷移核

2.1 初等的観察

\(P^t_\epsilon(0,-)\)\(S_\epsilon(t)\delta_t\) という非絶対連続部分と,\((-t,t)\) 上に重み \(F_\epsilon(t)\) の絶対連続部分とを持つ.

総じてコンパクト台を持つ: \[ \mathrm{supp}\;P^t_\epsilon(0,-)\subset[-t,t]. \]

2.2 定性的議論

\(T_\epsilon^{(i)}\)\(\displaystyle S_\epsilon(t)=\frac{p_\epsilon(t)}{p_\epsilon(0)}\) からの i.i.d. 確率変数列とする.

\(N_\epsilon(t)\)\(0\) からスタートした場合の時刻 \(t\) でのイベント発生回数とする: \[ N_\epsilon(t):=\max\left\{n\ge 1\,\middle|\,\sum_{i=1}^{n-1}2T_\epsilon^{(i)}+T_\epsilon^{(n)}\le t\right\}. \]

\(t\) 時間後に \(x\in(-t,t)\) に居る場合

\(N_\epsilon(t)=0\) の事象では \(x\ne t\) には到達できないことに注意.

  1. \(N_\epsilon(t)=1\) で,\(\displaystyle T_\epsilon^{(1)}=\frac{t+x}{2}\) にて折り返した場合.
  2. \(N_\epsilon(t)=2\) で,次を満たす時刻 \(T_\epsilon^{(1)},2T_\epsilon^{(1)}+T_\epsilon^{(2)}\) で折り返した場合: \[ T_\epsilon^{(1)}+T_\epsilon^{(2)}=\frac{t-x}{2}. \]
  3. \(N_\epsilon(t)=3\) で,次を満たす時刻 \(T_\epsilon^{(1)},2T_\epsilon^{(1)}+T_\epsilon^{(2)},2T_\epsilon^{(1)}+2T_\epsilon^{(2)}+T_\epsilon^{(3)}\) で折り返した場合: \[ T_\epsilon^{(1)}+T_\epsilon^{(2)}+T_\epsilon^{(3)}=\frac{t+x}{2}. \]

これらの事象は互いに排反である.

以上を式にすると,\(P^t_\epsilon\)\((-t,t)\) 上の密度 \(p_\epsilon^t\) は, \[\begin{align*} p^t_\epsilon(x)&\,\propto\,\operatorname{P}[N_\epsilon(t)=1]f_\epsilon\left(\frac{t+x}{2}\right)+\operatorname{P}[N_\epsilon(t)=2]f^{*2}_\epsilon\left(\frac{t-x}{2}\right)\\ &\qquad +\operatorname{P}[N_\epsilon(t)=3]f^{*3}_\epsilon\left(\frac{t+x}{2}\right)+\cdots,\qquad x\in(-t,t), \end{align*}\] と表せる.あとは規格化条件 \(\displaystyle\int^t_{-t}p^t_\epsilon(x)\,dx=F_\epsilon(t)\) を満たせば良い.

2.3 定量的議論

\[\begin{align*} P^t_\epsilon(0,dx)&=S_\epsilon(t)\delta_t(dx)+\operatorname{P}[N_\epsilon(t)=1]\frac{1}{2}f_\epsilon\left(\frac{t+x}{2}\right)\,dx\\ &\qquad+\operatorname{P}[N_\epsilon(t)=2]\frac{1}{2}f^{*2}_\epsilon\left(\frac{t-x}{2}\right)\,dx\\ &\qquad+\operatorname{P}[N_\epsilon(t)=3]\frac{1}{2}f^{*3}_\epsilon\left(\frac{t+x}{2}\right)\,dx\\ &\qquad+\qquad\cdots\qquad\qquad x\in[-t,t]. \end{align*}\]

ということがわかる.

\(N_\epsilon(t)=n\ge1\) のときのサンプラーの位置 \(X_\epsilon(t)\) の分布は \(\frac{1}{2}f_\epsilon^{*n}\left(\frac{t-(-1)^nx}{2}\right)\,dx\) になるのである.

\(f_\epsilon\left(\frac{t+x}{2}\right)/2\)\(2T_\epsilon^{(1)}-t\) の密度,\(f_\epsilon^{*2}\left(\frac{t-x}{2}\right)/2\)\(t-2T_\epsilon^{(1)}-2T_\epsilon^{(2)}\) の密度の反転であることに注意.

2.4 作用

\[\begin{align*} P^t_\epsilon\varphi(0)&=\int^t_{-t}P^t_\epsilon(0,dx)\varphi(x)\\ &=S_\epsilon(t)\int^t_{-t}\varphi(x)\delta_t(dx)+\operatorname{P}[N_\epsilon(t)=1]\int^t_{-t}\varphi(x)\frac{1}{2}f_\epsilon\left(\frac{t+x}{2}\right)\,dx\\ &\qquad+\operatorname{P}[N_\epsilon(t)=2]\int^t_{-t}\varphi(x)\frac{1}{2}f^{*2}_\epsilon\left(\frac{t-x}{2}\right)\,dx\\ &\qquad+\operatorname{P}[N_\epsilon(t)=3]\int^t_{-t}\varphi(x)\frac{1}{2}f^{*3}_\epsilon\left(\frac{t+x}{2}\right)\,dx\\ &\qquad+\qquad\cdots\\ &=S_\epsilon(t)\varphi(t)+\operatorname{P}[N_\epsilon(t)=1]\operatorname{E}[\varphi(2T_\epsilon^{(1)}-t)]\\ &\qquad-\operatorname{P}[N_\epsilon(t)=2]\operatorname{E}[\varphi(t-2T_\epsilon^{(1)}-2T_\epsilon^{(2)})]\\ &\qquad+\operatorname{P}[N_\epsilon(t)=3]\operatorname{E}[\varphi(2T_\epsilon^{(1)}+2T_\epsilon^{(2)}+2T_\epsilon^{(3)}-t)]\\ &\qquad-\qquad\cdots \end{align*}\]

\(\varphi\in C^1_0(\mathbb{R})\) の場合のみを考えれば良い (Prop. 23 Durmus et al., 2021, p. 1469)

\(N_\epsilon(t)\) が奇数のときは \(V_\epsilon(t)=-1\)\(0\) や偶数のときは \(V_\epsilon(t)=1\) であることに注意.

\(S_\epsilon(\epsilon)\xrightarrow{\epsilon\to0}e^{-\frac{1}{2\sigma^2}}\) に注意.一方で \(S_\epsilon(\sqrt{\epsilon})\xrightarrow{\epsilon\to0}0\)

今後の展望としては, \[\begin{align*} \frac{P^t_\epsilon\varphi(0)-\varphi(0)}{t}&=S_\epsilon(t)\frac{\varphi(t)-\varphi(0)}{t}\\ &\qquad+\operatorname{P}[N_\epsilon(t)=1]\frac{\operatorname{E}[\varphi(2T_\epsilon^{(1)}-t)]-\varphi(0)}{t}\\ &\qquad-\operatorname{P}[N_\epsilon(t)=2]\frac{\operatorname{E}[\varphi(t-2T_\epsilon^{(1)}-2T_\epsilon^{(2)})]-\varphi(0)}{t}\\ &\qquad+\operatorname{P}[N_\epsilon(t)=3]\frac{\operatorname{E}[\varphi(2T_\epsilon^{(1)}+2T_\epsilon^{(2)}+2T_\epsilon^{(3)}-t)]-\varphi(0)}{t}\\ &\qquad-\qquad\cdots \end{align*}\] という量の,\(t\to0,\epsilon\to0\) の極限を考えることになる.

2.5 生成作用素の初等的考察

\[ L_\epsilon\varphi(0)=\lim_{t\to0}\frac{P^t_\epsilon\varphi(0)-\varphi(0)}{t} \] という極限を考えると,\(p_\epsilon(t)\) をターゲットとした1次元の Zig-Zag 過程の生成作用素: \[ L_\epsilon\varphi(0,1)=\varphi'(x)+0\cdot\biggr(\varphi(0,-1)-\varphi(0,1)\biggl) \] を得るはずである.これは \(\operatorname{P}[N_\epsilon(t)\ge1]\xrightarrow{t\to0}0\) かつ \(S_\epsilon(t)\xrightarrow{t\to0}1\) であるから確かに確認できる.

問題は \(\epsilon\to0\) にもっていった場合である.この場合は極限過程の遷移作用素 \(P_0^t\) の形が見えるはずであるが,上の表示はこの極限の分析には向かないことがわかる.

まず,任意の \(t>0\) に対して \(S_\epsilon(t)\xrightarrow{\epsilon\to0}0\) になる.ドリフト項は消えてなくなる.これは良いだろうが,続いて \[ \operatorname{P}[N_\epsilon(t)\ge1]=F_\epsilon(t)\xrightarrow{\epsilon\to0}1, \] \[ \operatorname{P}[N_\epsilon(t)\ge2]=\int^t_0F_\epsilon\left(\frac{t-t_1}{2}\right)f_\epsilon(t_1)\,dt_1\xrightarrow{\epsilon\to0}1 \] となる.2式目は正当化が難しい.すなわち \(N_\epsilon(t)\) の mass は無限遠に向かって逃げていく.実際,分数の項もドリフト項が出てくるが,これが消えてなくなることになる: \[ \frac{\operatorname{E}[\varphi(2T_\epsilon^{(1)}-t)]-\varphi(0)}{t}\xrightarrow{\epsilon\to0}\frac{\varphi(-t)-\varphi(0)}{t}\xrightarrow{t\to0}-\varphi'(0). \] これは \(\varphi\in C_0^1(\mathbb{R})\subset C_b(\mathbb{R})\) であることと \(T_\epsilon^{(1)}\Rightarrow0\) が分布収束することを用いた.

したがって,\(\epsilon\to0\) を取ってから \(t\to0\) を取るためには,\(\operatorname{P}[N_\epsilon(t)\ge n]\) の係数を見る必要がある.

(Zig-Zag 過程としての)遷移核 \(P_\epsilon^t\) の形さえよくわかっていない中で,\(P_0^t\) の形を考えることは難しいと思われる.\(\delta_0\) 成分を持ちながらも,Zig-Zag 過程としての遷移核の成分も持つはずであるためである.

そこで,\(t,\epsilon\) を同時に \(0\) に向かわせる極限を取り,\(L_0\varphi(0)\) の形の特定を狙う.

2.6 時間内に起こるイベント計数過程 \(N_\epsilon\)

そこで \(N_\epsilon(t)=n\) という事象の確率の評価が必要になるが,これが難しい.

\(N_\epsilon(t)=1\) という場合は次のように初等的に計算できる: \[\begin{align*} \operatorname{P}[N_\epsilon(t)=1]&=\operatorname{P}[T_\epsilon^{(1)}\le t/2,T_\epsilon^{(2)}>t-2T_\epsilon^{(1)}]+\operatorname{P}[t/2<T_\epsilon^{(1)}\le t]\\ &=\int^{t/2}_0f_\epsilon(t_1)\biggr(1-F_\epsilon(t-2t_1)\biggl)\,dt_1+\biggr(F_\epsilon(t)-F_\epsilon(t/2)\biggl)\\ &=F_\epsilon(t)-\int^{t/2}_0f_\epsilon(t_1)F_\epsilon(t-2t_1)\,dt_1 \end{align*}\]

この結果は \[ \operatorname{P}[N_\epsilon(t)\ge1]=\operatorname{P}[T_\epsilon^{(1)}\le t]=F_\epsilon(t) \] \[\begin{align*} \operatorname{P}[N_\epsilon(t)\ge2]&=\operatorname{P}[2T_\epsilon^{(1)}+T_\epsilon^{(2)}\le t]\\ &=\int^t_0\left(\int^t_{-t}f_\epsilon(x-y)\frac{1}{2}f_\epsilon\left(\frac{y}{2}\right)\,dy\right)dx\\ &=\int^t_{-t}\left(\int^t_0f_\epsilon(x-y)\,dx\right)\frac{1}{2}f_\epsilon\left(\frac{y}{2}\right)\,dy\\ &=\int^t_{-t}\biggr(F_\epsilon(t-y)-F_\epsilon(-y)\biggl)\frac{1}{2}f_\epsilon\left(\frac{y}{2}\right)\,dy\\ &=\int^{t/2}_{-t/2}\biggr(F_\epsilon(t-2z)+F_\epsilon(-2z)\biggl)f_\epsilon(z)\,dz\\ &=\int^{t/2}_0F_\epsilon(t-2z)f_\epsilon(z)\,dz+\underbrace{\int^{t/2}_{-t/2}F_\epsilon(-2z)f_\epsilon(z)\,dz}_{=0}\\ &=\int^{t/2}_0f_\epsilon(t_1)F_\epsilon(t-2t_1)\,dt_1 \end{align*}\] という観点から \[ \operatorname{P}[N_\epsilon(t)=1]=\operatorname{P}[N_\epsilon(t)\ge1]-\operatorname{P}[N_\epsilon(t)\ge2] \] の式であると解釈でき,こちらの公式は一般の \(n\) に簡単に拡張できる.ただし,こちらの計算では,\(f_\epsilon\) の台が \([0,\infty)\) にしかないことに注意する.

また,部分積分により,次の表示も持つ: \[\begin{align*} \operatorname{P}[N_\epsilon(t)\ge2]&=\int^t_0F_\epsilon\left(\frac{t-t_1}{2}\right)f_\epsilon(t_1)\,dt_1\\ &=\biggl[F_\epsilon\left(\frac{t-t_1}{2}\right)F_\epsilon(t_1)\biggr]^{t}_0+\frac{1}{2}\int^t_0f_\epsilon\left(\frac{t-t_1}{2}\right)F_\epsilon(t_1)\,dt_1\\ &=\int^{t/2}_0f_\epsilon(t_1)F_\epsilon(t-2t_1)\,dt_1. \end{align*}\]

\(2\sum_{i=1}^{n-1}T_\epsilon^{(i)}\) の密度は \(\frac{1}{2}f_\epsilon^{*(n-1)}\left(\frac{-}{2}\right)\) と表せる.よって, \[\begin{align*} \operatorname{P}[N_\epsilon(t)\ge n]&=\int^t_0\int^t_0\frac{1}{2}f_\epsilon^{*(n-1)}\left(\frac{x-t_1}{2}\right)f_\epsilon(t_1)\,dt_1dx\\ &=\int^t_0\left(\int^t_0\frac{1}{2}f_\epsilon^{*(n-1)}\left(\frac{x-t_1}{2}\right)\,dx\right)f_\epsilon(t_1)\,dt_1\\ &=\int^t_0\biggr(F_\epsilon^{*(n-1)}\left(\frac{t-t_1}{2}\right)-F_\epsilon^{*(n-1)}\biggr(-\frac{t_1}{2}\biggl)\biggl)f_\epsilon(t_1)\,dt_1\\ &=\int^t_0F_\epsilon^{*(n-1)}\left(\frac{t-t_1}{2}\right)f_\epsilon(t_1)\,dt_1. \end{align*}\] と表せる.

2.7 どの収束レジーム?

\[\begin{align*} \frac{P^t_\epsilon\varphi(0)-\varphi(0)}{t}&=S_\epsilon(t)\frac{\varphi(t)-\varphi(0)}{t}\\ &\qquad+\operatorname{P}[N_\epsilon(t)=1]\frac{\operatorname{E}[\varphi(2T_\epsilon^{(1)}-t)]-\varphi(0)}{t}\\ &\qquad-\operatorname{P}[N_\epsilon(t)=2]\frac{\operatorname{E}[\varphi(t-2T_\epsilon^{(1)}-2T_\epsilon^{(2)})]-\varphi(0)}{t}\\ &\qquad+\operatorname{P}[N_\epsilon(t)=3]\frac{\operatorname{E}[\varphi(2T_\epsilon^{(1)}+2T_\epsilon^{(2)}+2T_\epsilon^{(3)}-t)]-\varphi(0)}{t}\\ &\qquad-\qquad\cdots \end{align*}\]

という式において, \[\begin{align*} \operatorname{P}[N_\epsilon(\sqrt{\epsilon})\ge2]&=\int^{\sqrt{\epsilon}}_0F_\epsilon\left(\frac{\sqrt{\epsilon}-t_1}{2}\right)f_\epsilon(t_1)\,dt_1\\ &=F_\epsilon(\sqrt{\epsilon})-F_\epsilon(0)-\int^1_0S_\epsilon\left(\frac{\sqrt{\epsilon}}{2}(1-s)\right)f_\epsilon(\sqrt{\epsilon}s)\sqrt{\epsilon}\,ds\\ &=F_\epsilon(\sqrt{\epsilon})-\int^1_0\frac{(1-\gamma)\epsilon e^{-\frac{(1-s)^2}{2\sigma^2}\frac{\epsilon}{4}}+\gamma e^{-\frac{(1-s)^2}{2\sigma^2}\frac{1}{4\epsilon}}}{(1-\gamma)\epsilon+\gamma}\\ &\qquad\qquad\times\frac{\frac{(1-\gamma)\epsilon^3s}{2\sigma^2}e^{-\frac{s^2}{2\sigma^2}\epsilon}+\frac{\gamma s}{\sigma^2}e^{-\frac{s^2}{2\sigma^2}\frac{1}{\epsilon}}}{(1-\gamma)\epsilon^2+\gamma\epsilon}\,ds\\ &\xrightarrow{\epsilon\to0}1. \end{align*}\]

だと mass が逃げる.

一方で,次の場合は有限値を持つ: \[\begin{align*} \operatorname{P}[N_\epsilon(\epsilon)\ge2]&=\int^\epsilon_0F_\epsilon\left(\frac{\epsilon-t_1}{2}\right)f_\epsilon(t_1)\,dt_1\\ &=F_\epsilon(\epsilon)-\int^1_0S_\epsilon\left(\frac{\epsilon}{2}(1-s)\right)f_\epsilon(\epsilon s)\epsilon\,ds\\ &=F_\epsilon(\epsilon)-\int^1_0\frac{(1-\gamma)\epsilon e^{-\frac{(1-s)^2}{2\sigma^2}\frac{\epsilon}{4}}+\gamma e^{-\frac{(1-s)^2}{2\sigma^2}\frac{1}{4}}}{(1-\gamma)\epsilon+\gamma}\\ &\qquad\qquad\times\frac{\frac{(1-\gamma)\epsilon^3s}{\sigma^2}e^{-\frac{s^2}{2\sigma^2}\epsilon^2}+\frac{\gamma s}{\sigma^2}e^{-\frac{s^2}{2\sigma^2}}}{(1-\gamma)\epsilon+\gamma}\,ds\\ &\xrightarrow{\epsilon\to0}1-e^{-\frac{1}{2\sigma^2}}-\int^1_0e^{-\frac{(1-s)^2}{2\sigma^2}\frac{1}{4}}\frac{s}{\sigma^2}e^{-\frac{s^2}{2\sigma^2}}\,ds \end{align*}\]

最後の積分を計算すると \(e^{-\frac{1}{10\sigma^2}}\frac{2}{5\sigma}\sqrt{\frac{2\pi}{5}}\) となるはずである.

2.8 分布収束先

\(P^t_\epsilon\varphi(0)\)\(\epsilon\to0\) での極限を見たい場合,\(T_\epsilon^{(1)}\) やその独立和の,\(\epsilon\to0\) での分布収束極限を考える必要がある.

まず \(t=\epsilon\) とした場合, \[\begin{align*} \frac{\operatorname{E}[\varphi(2T_\epsilon^{(1)}-\epsilon)]-\varphi(0)}{\epsilon}&=\int_0^\infty\frac{\varphi(2s-\epsilon)-\varphi(0)}{\epsilon}f_\epsilon(s)\,ds\\ &= \end{align*}\]\(0\) になるようである.

サンプラーの最初のイベント時刻の平均は \[ \operatorname{E}[T_\epsilon]=\frac{1}{2p_\epsilon(0)}=\frac{1}{2}\frac{\sqrt{2\pi\sigma^2}}{1-\gamma+\gamma/\epsilon} \] である.

3 生成作用素

3.1 はじめに:定義に戻る

今回は生成作用素 \(L_\epsilon\varphi(0)\) を見ても \(0\) しか出ない.どこかから新しい動きが創発される.これを見るには,時間と空間のスケールを同一にした極限 \[ L_0\varphi(0,1)=\lim_{t,\epsilon\to0}\frac{P_\epsilon^t \varphi(0,1)-\varphi(0,1)}{t} \] を見る必要がある.これは,上式で登場した \(0\) に新しい点 \(0_+\) を加えて, \[ L_0\varphi(0,1)=\kappa\left(\frac{1}{2}\varphi(0_+,1)+\frac{1}{2}\varphi(0,-1)-\varphi(0,1)\right) \] となるはずである.

原点の複製

すなわち,状態空間の原点を \(0_-,0_+,0\) の3つの分ける必要がある.これは \(\tau_\epsilon^a\) などの量で,\(a=0\) の状態で取った極限と \(a\ne0\)\(\epsilon\to0\) の極限を取り,その後に \(a\to0\) と取った場合とで収束先が違うことに起因する.

Sticky PDMP は \((0_-,1),(0_+,-1)\) での挙動を決定論的なジャンプに取ることで,追加の状態 \(0\) を不必要にした場合に当たる.

3.2 停止時による分解

\(P^t_\epsilon\) の表示はわからないと言って良いが,収束先は停止時による分解を通じて判明する.

具体的には,\(\tau_\epsilon^{a+},\tau_\epsilon^{a-}\) をそれぞれ上側 \(x=a>0\) と下側 \(x=-a\) の脱出時刻とすると,\(0<a<t\) のとき,

\[\begin{align*} P^{t}_\epsilon((0,1),dx)&=\operatorname{P}[\tau_\epsilon^{a+}\le\tau_\epsilon^{a-},\tau_\epsilon^a\le t]\mu_{a+}(dx)\\ &\quad+\operatorname{P}[\tau_\epsilon^{a-}\le\tau_\epsilon^{a+},\tau_\epsilon^a\le t]\mu_{a-}(dx)+\operatorname{P}[\tau^a_\epsilon>t]\mu_a(dx), \end{align*}\] \[ \mu_{t\pm}:=\mathcal{L}[X_\epsilon(t)\,|\,\tau^{t\pm}_\epsilon\le t],\quad\mu_t:=\mathcal{L}[X_\epsilon(t)\,|\,\tau^t_\epsilon>t], \]

と分解できる.これを用いると,

\[\begin{align*} &\qquad\frac{P^{t}_\epsilon\varphi(0,1)-\varphi(0,1)}{t}\\ &=\frac{\operatorname{E}_{(0,1)}[\varphi(X_\epsilon(t),V_\epsilon(t))]-\varphi(0,1)}{t}\\ &=\operatorname{E}_{(0,1)}\left[\varphi(X_\epsilon(t),V_\epsilon(t))\frac{1_{\left\{\tau_\epsilon^{a}\le t\right\}}1_{\left\{\tau_\epsilon^{a+}\le\tau_\epsilon^{a-}\right\}}}{t}\right]+\operatorname{E}_{(0,1)}\left[\varphi(X_\epsilon(t),V_\epsilon(t))\frac{1_{\left\{\tau_\epsilon^{a}\le t\right\}}1_{\left\{\tau_\epsilon^{a-}\le\tau_\epsilon^{a+}\right\}}}{t}\right]\\ &\qquad+\operatorname{E}_{(0,1)}\left[\frac{\varphi(X_\epsilon(t),V_\epsilon(t))-\varphi(0,1)}{t}1_{\left\{\tau_\epsilon^a>t\right\}}\right]-\varphi(0,1)\operatorname{E}_{(0,1)}\left[\frac{1_{\left\{\tau_\epsilon^a\le t\right\}}}{t}\right] \end{align*}\]

なお,\(\frac{t}{2}<a\) のときは \([0,t]\) 以内に \(a\)\(-a\) の両方に到達することはないため, \[ \left\{\tau_\epsilon^{a+}\le t\right\}=\left\{\tau_\epsilon^{a+}\le t\right\}\cap\left\{\tau_\epsilon^{a-}>t\right\}=\left\{\tau_\epsilon^{a+}\le\tau_{\epsilon}^{a-}\right\}\cap\left\{\tau_\epsilon^a\le t\right\} \] が成り立つ.

第四項 Section 3.3,第一二項 Section 3.4,第三項 Section 3.5 の順に考える.

  • 第四項は,\(\epsilon,a\to0\) の近づけ方に依らず,\(-\kappa^{-1}\varphi(0,1)\) に収束する.
  • 第一二項は,\(\epsilon,a\)\(0\) への近づけ方に依らず,そもそも \(\pm a\) に到達するという確率が \(O(t)\) で小さくなっていくため,その成分だけが \(\kappa^{-1}\varphi(0_+,1),\kappa^{-1}\varphi(0,-1)\) として残る.
  • 第三項では,\(\epsilon\to0\) の近づけ方に応じて,\(a\to0\) を適切に速く取ることが必要になる.

3.3 第四項 \(\operatorname{E}_{(0,1)}\left[1_{\left\{\tau_\epsilon^a\le t\right\}}\right]/t\)

\(\tau^a_\epsilon\xrightarrow{\epsilon\to0}\tau_0^a\xrightarrow{a\to0}\tau_0^0\) は弱収束するから, \[ \frac{\operatorname{P}[\tau_\epsilon^a\le t]}{t}\xrightarrow{\epsilon\to0}\frac{\operatorname{P}[\tau_0^a\le t]}{t} \] は分布関数の連続点における収束から従う.続いて, \[\begin{align*} \frac{\operatorname{P}[\tau_0^a\le t]}{t}&=\frac{\operatorname{P}[\tau_0^a\le t]-\operatorname{P}[\tau_0^0\le t]}{t}+\frac{\operatorname{P}[\tau_0^0\le t]-\operatorname{P}[\tau_0^0\le0]}{t} \end{align*}\] という分解を考えると,\(\tau^a_0\) の密度を \(f_a\) とすれば,\(t\to0\) の極限で第二項は \(f_0(0)=\kappa^{-1}\) に収束する.

しかし第一項の \(0\) への収束には問題がある.

第一項の収束には密度の概収束が必要

第一項の収束は弱収束 \(\tau^{a}_0\Rightarrow\tau^0_0\) のみからは従わない.密度が局所一様収束することが示せたならば, \[ \frac{1}{t}\int^t_0\biggr(f_a(s)-f_0(s)\biggl)\,ds\xrightarrow{a,t\to0}0 \] が従う.

\([0,1]\) 上の密度関数 \[ f_n(x):=1+\sin(2\pi nx) \]\(n\to\infty\) の極限で,一様分布の密度 \(f(x)=1\) に弱収束するが,密度関数自体は概収束どころか測度収束もしない.

その結果, \[ F_n(t)=\int^t_0f_n(s)\,ds=t+\frac{1-\cos(2\pi nt)}{2\pi n} \] という分布関数に対して, \[ \frac{F_n(t)-F(t)}{t}=\frac{1-\cos(2\pi nt)}{2\pi nt}\xrightarrow{n\to\infty}\infty \] となり収束しない.

今回は積分区間が小さくなっていくと同時に \(t\) によってスケーリングされるために,密度の概収束と Egorov の定理では不十分であり,局所一様収束が必要になる.

任意の \(\epsilon>0\) について,Egorov の定理より, \[ \ell(A)<\frac{\epsilon}{2}\frac{1}{\|f_t\|_{[0,2t]}+\|f_0\|_{[0,2t]}} \] を満たす可測集合 \(A\subset[0,2t]\) が存在して,\([0,2t]\setminus A\) 上で \(f_t\to f\) が一様収束する.例えば, \[ \|f_t-f\|_{[0,2t]\setminus A}<\frac{\epsilon}{2},\qquad t>t_\epsilon. \]

以上の設定の下では, \[\begin{align*} \left|\frac{1}{2t}\int^{2t}_0\biggr(f_t(s)-f_0(s)\biggl)\,ds\right|&\le\frac{1}{2t}\int_{[0,2t]\setminus A}\lvert f_t(s)-f_0(s)\rvert\,ds+\ell(A)\biggr(\|f_t\|_{[0,2t]}+\|f_0\|_{[0,2t]}\biggl)\\ &\le\frac{\epsilon}{2}+\frac{\epsilon}{2}=\epsilon. \end{align*}\]

あるいは,仮に \(\partial_af\) が存在して局所有界であるならば,\(a\)\(t\) 以上急速に,例えば \(a=t^p\;(p\ge1)\) と取ることで収束させることができる.

仮に \(\partial_a^2 f\) も存在して局所有界であるならば, \[ \frac{1}{t}\int^t_0\biggr(f_a(s)-f_0(s)\biggl)\,ds=\frac{1}{t}\int^t_0\biggr(\|\partial_af_a(s)\|_{[0,t]}a+O(a^2)\biggl)\,ds \] の変形により収束を示せる.

そうでなくとも, \[ \frac{1}{t}\int^t_0\biggr(f_a(s)-f_0(s)\biggl)\,ds\le\int_{A\cap[0,t]}\frac{f_a(s)-f_0(s)}{t}\,ds+\frac{1}{t}\int_0^t\frac{\epsilon}{2}\,ds \] と見ることができる.

3.4 第一項(上から脱出した場合)の解析

この解析を上手く活かせる秘訣は, \[ \Delta X_\epsilon:=\biggr(X_\epsilon(2t)-X_\epsilon(\tau_\epsilon^t)\biggl)1_{\left\{\tau_\epsilon^t\le 2t\right\}}, \] \[ \Delta V_\epsilon:=\biggr(V_\epsilon(2t)-V_\epsilon(\tau_\epsilon^t)\biggl)1_{\left\{\tau_\epsilon^t\le 2t\right\}}, \] と定めた場合,\(\Delta X_\epsilon\)\(\epsilon\to0\) の極限での収束先 \(\Delta X_0\) を持つということである.

特に証明では積率の収束 \[ \operatorname{E}_{(0,1)}[\lvert\Delta X_\epsilon\rvert]\xrightarrow{\epsilon\to0}\operatorname{E}_{(0,1)}[\lvert\Delta X_0\rvert] \] \[ \operatorname{E}_{(0,1)}[\lvert\Delta X_\epsilon\rvert\lvert\Delta V_\epsilon\rvert]\xrightarrow{\epsilon\to0}\operatorname{E}_{(0,1)}[\lvert\Delta X_0\rvert\lvert\Delta V_0\rvert] \] を用いる.

\(\left\{\tau_\epsilon^t\le 2t\right\}\) 上では,時刻 \(2t\) までに再び原点を越すことはない.従って,イベントが起こる回数は高々1回である: \[ \biggr(N_\epsilon(2t)-N_\epsilon(\tau^t_\epsilon)\biggl)1_{\left\{\tau_\epsilon^t\le 2t\right\}}\le1. \]

到着時刻 \(\tau_\epsilon^{t+}\) で条件づけた上では,イベントが1度も起こらない確率は \[ \frac{S_\epsilon(3t-\tau_\epsilon^{t+})}{S_\epsilon(t)} \] で表せる.この値の,事象 \(\left\{\tau_\epsilon^t\le 2t\right\}\) 上での条件付き平均は \[\begin{align*} \operatorname{E}[N_\epsilon(2t)-N_\epsilon(\tau_\epsilon^{t+})\,|\,\tau_\epsilon^{t+}\le2t]&=\frac{\operatorname{E}\biggl[\biggr(N_\epsilon(2t)-N_\epsilon(\tau_\epsilon^{t+})\biggl)1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}\biggr]}{\operatorname{P}[\tau_\epsilon^{t+}\le2t]}=:\Delta N_\epsilon^{t+}\\ &\xrightarrow{\epsilon\to0}\frac{\operatorname{E}\biggl[\biggr(N_0(2t)-N_0(\tau_0^{t+})\biggl)1_{\left\{\tau_0^{t+}\le 2t\right\}}\biggr]}{\operatorname{P}[\tau_0^{t+}\le2t]}\\ &=\frac{\operatorname{E}\left[\frac{S_0(3t-\tau_0^{t+})}{S_0(t)}1_{\left\{\tau_0^{t+}\le 2t\right\}}\right]}{\operatorname{P}[\tau_0^{t+}\le2t]}\\ &=\qquad\cdots \end{align*}\] となりうまく計算できない.

過程 \(X_\epsilon,V_\epsilon\)\(\epsilon\to0\) の極限を取る際は注意すべきである.過程 \(\{(X_\epsilon(t),V_\epsilon(t))\}_{t=0}^\infty\) が全体として収束先を持つかは現時点では不明であるが,\(\tau_\epsilon^{t+}\) は収束先を持ち,過程 \((N_\epsilon(s))_{s=\tau_\epsilon^{t+}}^{2t}\) も原点を通過しないので収束先 \((N_0(s))_{s=\tau_0^{t+}}^{2t}\) は存在するはずである.

第1項は \[\begin{align*} &\qquad\operatorname{E}_{(0,1)}\left[\varphi(X_\epsilon(2t),V_\epsilon(2t))\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\right]\\ &=\operatorname{E}_{(0,1)}\left[\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\operatorname{E}_{(0,1)}\left[\varphi(X_\epsilon(2t),V_\epsilon(2t))\,|\,\mathcal{F}_{\tau_\epsilon^{t+}}\right]\right]\\ &=\operatorname{E}_{(0,1)}\left[\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\operatorname{E}_{(t,1)}\biggl[\varphi\biggr(X_\epsilon(2t-\tau_\epsilon^{t+}),V_\epsilon(2t-\tau_\epsilon^{t+})\biggl)\biggr]\right] \end{align*}\]

本当は \(\left\{\tau_\epsilon^{t+}\le 2t\right\}\)\(\left\{\tau_\epsilon^{t+}<\tau_\epsilon^{t-},\tau_\epsilon^t\le 2t\right\}\) と分解したいところだが,直接留数計算により \[ \frac{\operatorname{P}[\tau_\epsilon^{t+}\le2t]}{2t}\xrightarrow{\epsilon\to0}(f^+_0)'(0)=\frac{2}{\kappa} \] を出すこともできるだろう.

\(\varphi\in C^1_c(\mathbb{R})\) のとき,Taylor 展開に基づいて,事象 \(\left\{\tau_\epsilon^{t+}\le 2t\right\}\) 上では \[ \varphi(X_\epsilon(2t),V_\epsilon(2t))=\varphi(t,1)+\frac{\partial \varphi}{\partial x}(t,1)\Delta X_\epsilon+\frac{\partial \varphi}{\partial v}(t,1)\Delta V_\epsilon+\frac{1}{2}\frac{\partial ^2\varphi}{\partial x\partial v}(c_1(\omega),c_2(\omega))\Delta X_\epsilon\Delta V_\epsilon+\cdots \] とできる.\(c_1,c_2:\Omega\to\mathbb{R}\) の可測性が不明である点に注意.しかし,\(\varphi\) は2次の導関数まで有界であるために,任意の \(\epsilon,t>0\) について次の評価が成り立つ: \[ \left|\varphi(X_\epsilon(2t),V_\epsilon(2t))-\varphi(t,1)\right|\le\frac{\partial \varphi}{\partial x}(t,1)\Delta X_\epsilon+\frac{\partial \varphi}{\partial v}(t,1)\Delta V_\epsilon+\frac{1}{2}\|\partial_x\partial_v\varphi\|_\infty\Delta X_\epsilon\Delta V_\epsilon+\cdots \] \[\begin{align*} &\left|\operatorname{E}_{(0,1)}\left[\varphi(X_\epsilon(2t),V_\epsilon(2t))\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\right]-\operatorname{E}_{(0,1)}\left[\varphi(t,1)\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\right]\right|\\ &\le\operatorname{E}_{(0,1)}\left[\biggl|\varphi(X_\epsilon(2t),V_\epsilon(2t))-\varphi(t,1)\biggr|\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\right]\\ &\le\|\partial_x\varphi\|\operatorname{E}_{(0,1)}\left[\lvert\Delta X_\epsilon\rvert\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\right]+\|\partial_v\varphi\|\operatorname{E}_{(0,1)}\left[\lvert\Delta V_\epsilon\rvert\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\right]\\ &\qquad+\frac{1}{2}\|\partial_x\partial_v\varphi\|\operatorname{E}_{(0,1)}\left[\lvert\Delta X_\epsilon\Delta V_\epsilon\rvert\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\right]+\cdots \end{align*}\]

3.4.1 方針

右辺が \(\epsilon\to0\) かつ \(t\to0\) の極限で \(0\) に収束することを示す.

このことと \[ \operatorname{E}_{(0,1)}\left[\varphi(t,1)\frac{1_{\left\{\tau_\epsilon^{t+}\le 2t\right\}}}{2t}\right]\xrightarrow{\epsilon\to0,t\to0}\varphi(0_+,1)\frac{\kappa^{-1}}{2} \] が成り立つことを併せて,所望の第一項の収束を得る.

その際に必要な次の収束: \[ \operatorname{E}_{(0,1)}\left[\frac{1_{\left\{\tau_0^{t+}\le 2t\right\}}}{2t}\right]\xrightarrow{t\to0}\frac{\kappa^{-1}}{2} \] は,密度の概収束と,\(\tau_0^{0+}\) の密度の \(0\) における値が \(\kappa^{-1}/2\) であることが特性関数の Fourier 変換を留数計算することにより得ることから従う.

3.4.2 \(\lvert\Delta X_\epsilon\rvert\) の収束

独立性に注意すれば \[ \operatorname{E}_{(0,1)}\left[\lvert\Delta X_0\rvert\frac{1_{\left\{\tau_0^{t+}\le 2t\right\}}}{2t}\right]=\operatorname{E}_{(0,1)}\biggl[\lvert\Delta X_0\rvert 1_{\left\{\tau_0^{t+}\le 2t\right\}}\biggr]\operatorname{E}_{(0,1)}\left[\frac{1_{\left\{\tau_0^{t+}\le 2t\right\}}}{2t}\right] \] が成り立つ.右の因子が \(t\to0\) の極限で有界であるから,あとは左の因子が \(t\to0\) の極限で(スピードに依らず)\(0\) に収束することを示せば良いが,これは極めて簡単な議論から判る.

時区間 \([\tau_0^{t+},2t]\) 間で一度もイベントが起こらない場合が,\(\lvert\Delta X_0\rvert\) の値が最も大きい.さらに \(\tau_0^{t}\) の値は \(t+\tau_0^0\) の値で下から抑えることができる. \[ \lvert\Delta X_0\rvert 1_{\left\{\tau_0^{t+}\le 2t\right\}}\le (2t-\tau_0^t)1_{\left\{\tau_0^{t+}\le 2t\right\}}\le(t-\tau_0^0)1_{\left\{\tau_0^0\le 2t\right\}} \] \(\tau_0^0\sim\operatorname{Exp}(\kappa^{-1})\) に注意すれば, \[ \therefore\quad\operatorname{E}_{(0,1)}\left[\lvert\Delta X_0\rvert 1_{\left\{\tau_0^{t+}\le 2t\right\}}\right]\le t\operatorname{P}[\tau_0^0\le 2t]-\int^{2t}_0s\kappa e^{-\kappa s}\,ds\le t+\kappa^{-1}\left(e^{-2\kappa t}-1\right)\xrightarrow{t\to0}0 \]

3.4.3 \(\lvert\Delta V_\epsilon\rvert\) の収束

\((t,1)\) から開始したサンプラー \((X_0,V_0)\) が最初にイベントを経験する時刻を \(T^t\) とすると, \[ \Delta V_0=-2\cdot1_{\left\{T^t\le 2t-\tau_0^{t+}\right\}}. \] \(\lvert\Delta V_0\rvert\xrightarrow{t\to0}\) は,そもそも時区間 \([\tau_0^{t+},2t]\) 間でイベントが起こる確率が \(0\) に収束するために従う.

具体的には,生存関数 \[ S_0^t(s)=\frac{p^1(t+s)}{p^1(t)} \] を持つ \(T^t\) に関して,条件付き期待値の性質から \[ \operatorname{P}[T^t\le2t-\tau^t_0]=1-\operatorname{E}\left[\frac{p^1(3t-\tau^t_0)}{p^1(t)}\right]\le1-\operatorname{E}\left[\frac{p^1(0)}{p^1(t)}\right]\xrightarrow{t\to0}0. \]

3.5 第三項の解析

\[ \operatorname{E}_{(0,1)}\left[\frac{\varphi(X_\epsilon(2t),V_\epsilon(2t))-\varphi(0,1)}{2t}1_{\left\{\tau_\epsilon^t>2t\right\}}\right] \]\(0\) に収束するはずである.

References

Durmus, A., Guillin, A., and Monmarché, P. (2021). Piecewise deterministic Markov processes and their invariant measures. Annales de l’Institut Henri Poincaré, Probabilités Et Statistiques, 57(3), 1442–1475.