在主题建模领域,传统的概率潜在语义分析(pLSA)模型假设文档独立,但实际中文档往往通过相似性(如内容重叠或领域相关)形成局部一致结构。为了捕捉这种局部一致性,局部一致性主题模型(Locally-consistent Topic Modeling, LTM)引入了基于图的正则项,使相邻文档的主题分布趋于相似。今天我们来剖析一个高效的MATLAB实现——LTM函数,它采用EM算法结合局部一致性正则化,实现对文档集合的鲁棒主题提取。
LTM的核心思想
LTM的目标函数扩展了pLSA的对数似然,加入局部一致性正则项:
[
\mathcal{L} = \log P(\mathbf{X}) - \alpha \sum_{i,j} W_{ij} \left( \log P(z|d_i) - \log P(z|d_j) \right)^2 / 2
]
但在代码中近似实现为:
[
\mathcal{L} = \log P(\mathbf{X}) - \sum \sum (\log(P_{z|d} + \epsilon) \cdot L) \cdot P_{z|d}
]
其中L = D - W为图拉普拉斯,α控制正则强度,ε为小偏移避免log(0)。当α=0时,退化为标准pLSA。这种设计鼓励图上相连文档的主题分布局部平滑,提升主题的连贯性和鲁棒性。
函数输入输出概览
函数签名: