講演内容:外れ値などが含まれるデータに関して, 解析結果に大きなバイアスが入る可能性がある. これらの対処のために, ダイバージェンス最小化推定量に基づく頑健な推定方法の研究が多く行われている. 一方で. ベイズ統計においても外れ値の問題はConflict Resolutionという枠組みで古くから議論されており, 裾の重い分布を仮定することで外れ値の影響を減らすことを考えている. 一方で, 近年, ロバストなダイバージェンスとして知られるDensity power divergenceとγ-divergenceを用いたベイズ法が提案されている. 本発表では, Density power divergenceとγ-divergenceを用いた一般化事後分布に対し, 大きな外れ値が入った場合に事後分布が自動的に除去される(Posterior Robustness)という性質の観点からロバスト性を評価し, Density power divergenceとγ-divergenceがPosterior Robustnessを達成する条件を紹介する. また, Posterior Robustnessと影響関数との関係を議論する.
講演内容:重回帰モデルや多変量線形回帰モデルといった単純なモデルにおいて,従来は説明変数からなる行列などにフルランク性を仮定している.しかしながら,個体数が説明変数の数より少ない場合などではこの仮定は満たされないという問題がある.この問題を解決するために,罰則付き推定法などの様々な手法が提案されているが,罰則パラメータをどうやって最適化するかなどの問題がある.そこで本発表では,よりシンプルな考え方に基づいて,フルランクの仮定が満たされない場合の推定方法などを提案する.
講演内容:標本調査では母集団の統計的性質を調べる際,主に時間的・経済的な理由から,既知の確率則(抽出確率)に基づき母集団から一部の標本をサンプリングして推測を行う.特に抽出確率がサンプリングされる変数にも依存するとき,情報のあるサンプリング(informative sampling)と呼ぶ.本研究では,セミパラメトリック漸近理論と二重機械学習を組み合わせることで,情報のあるサンプリングにおけるセミパラメトリック漸近有効推定量を提案する.
講演者:別府 健治 氏(大阪大)
講演題目:Efficient Empirical Likelihood Inference for Informative Sampling
講演内容:標本調査では既知の抽出確率に基づき母集団から標本をサンプリングしているため,得られた標本には偏りが生じている.本講演では,特定の分布に対する仮定を必要としないセミパラメトリック手法である経験尤度法を用いて,情報のあるサンプリングにおいてMorikawa et al. (2023)と漸近的に同等なセミパラメトリック漸近有効推定量を提案する.また経験尤度法の特徴を活かし,データに欠測値がある場合や外部の追加情報が利用できる場合においても容易に漸近有効な推定量が構築できることを示す.
講演内容:誤差項の分散共分散行列が未知の多変量正規線形回帰モデルを考える。修正赤池情報量規準(corrected Akaike Information Criterion; AICc)は最尤推定量をプラグインした予測分布の期待Kullback--Leibler損失の最小分散不偏推定量である。本研究では、統計的決定理論における損失推定の枠組みのもと、修正赤池情報量規準および通常の赤池情報量規準がKullback--Leibler損失自体(注:期待Kullback--Leibler損失ではない)の推定量として非許容的であることを示した。これは、不偏性を外すことで推定精度が改善されるという意味でSteinのパラドックスと似た結果といえる。修正赤池情報量規準を優越する推定量として、縮小ランク回帰の状況で特に有効なものを構成した。数値実験の結果、この推定量が修正赤池情報量規準よりも良い変数選択結果を与えることが確認された。
講演内容:行と列が同じ分類からなる正方分割表の解析においては,統計学的独立性よりも対称性の解析に関心があり,対称モデルを含む様々なモデルが提案されている.本講演では,それらのモデルと情報理論的アプローチとの関係について述べる.また,対称モデルが成り立つための必要十分条件とそれに関連する適合度検定統計量の性質について紹介する.最後に,Rを用いた適合度検定の実装について報告する予定である.
講演内容:関数データ解析において、通常、サンプルサイズより少ない基底関数を選ぶのが一般的であった。最近の統計理論における二重降下現象から着想を得ることで、基底関数を過剰に選ぶことで予測精度が向上する可能性を模索する。数値実験と実データへの適用を通じて、この現象が理論的、数値的に限らず実践的にも重要であることも報告する。
講演内容:回帰モデルの変数選択問題は統計解析において重要な問題の一つである.これまでに様々な変数選択手法が提案されているが,各手法のもつ特性は様々であり,どの手法が優れているかは一概には言えない.本発表では変数選択手法の漸近的性質に着目し,変数選択手法の良さについて議論する.まず,大学院生などの変数選択問題の初学者向けに,AICやBICなどによる基本的な変数選択問題を解説し,その後,高次元データ解析における最近の研究成果の紹介を行う.
講演内容:Fisher matrix is one of the most important statistics in multivariate statistical analysis. Its eigenvalues are of primary importance for many applications, such as testing the equality of mean vectors, testing the equality of covariance matrices and signal detection problems. In this paper, we establish the limiting spectral distribution of high-dimensional noncentral Fisher matrices and investigate its analytic behavior. Furthermore, we derive the central limit theorem (CLT) for the spiked eigenvalues. Also, we develop the limits and CLT for the sample canonical correlation coefficients using the results of the spiked noncentral Fisher matrix and present consistent estimators of the population spiked eigenvalues and the population canonical correlation coefficients.
講演者: Professor Ke-Hai Yuan(University of Notre Dame)
講演題目:Partial Least-Squares Approach to Structural Equation Modeling: Methodology, Properties and Applications
講演内容:Structural equation modeling (SEM) is a widely used technique for studies involving latent constructs. While covariance-based SEM (CB-SEM) permits estimating the regression relationship among latent constructs, the parameters governing this relationship do not apply to that among the scored values of the constructs, which are needed for prediction, classification and/or diagnosis of individuals/participants. In contrast, the partial-least squares approach to SEM (PLS-SEM) first obtains weighted composites for each case and then estimates the structural relationship among the composites. Consequently, PLS-SEM is a preferred method in predicting and/or classifying individuals. This talk will (1) introduce the PLS-SEM methodology, (2) discuss its statistical and psychometric properties, (3) highlight issues in its applications with real data, and (4) review recent developments.