自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
WFSTに基づく確率文脈自由文法およびその拡張文法の高速EM学習法
亀谷 由隆森 高志佐藤 泰介
著者情報
ジャーナル フリー

2001 年 8 巻 1 号 p. 49-84

詳細
抄録

現在, 統計的言語モデルのークラスとして確率文脈自由文法 (PCFG) が広く知られている. また, 括弧なしコーパスからPCFGを訓練する方法としてInside-Outside (I-O) アルゴリズムが知られてきた. I-OアルゴリズムはPCFG用に効率化を施したEM (expectation-maximization) アルゴリズムだが, 依然その計算速度に問題があることが知られている. 本論文では, 文法構造があらかじめ与えられていることを前提に, 訓練過程を構文解析とEM学習に分離した高速EM学習法を提案する. その中間データ構造にパーザが生成するWFST (well-formed substring table) を用いる. 例えば, 一般化LRパーザを用いると事前コンパイル・ボトムアップ探索による効率性, およびChomsky標準形を要求しないという一般性を引き継ぐことができる. 一方EM学習では, WFSTのコンパクトさを利用して効率的なパラメタ推定が行なわれる. 推定結果はI-Oアルゴリズムで得られるものと一致する. 更に, 文脈依存性を取り入れたPCFGの拡張モデルに対する多項式オーダのEM学習法を示す. また, ATR対話コーパスを用いて実験を行ない, 訓練時間が大幅に短縮されていることを確認した.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top