kenkovlog

けんこふたんっオフィシャユブヨグッ
アンッ!アンッ!アンッ!アンッ!

コフライブッ!

日本語をこふ語へ変換するスクイプヨですっ

インスヨッル

Python3 が必要なのでっあらかじめインスヨッルしておいてださいっ

そののち

$ git clone https://github.com/kenkov/kovlive

してくださいっ

テスヨ

ひとまず動くかチェックしましょうっ clone したディレクヨリに移動しますっ

$ cd kovlive

付属するテスヨ用のテキスヨファイル test.txt

この文章は、こふ語変換プログラムであるコフライブ!用のテストテキストです。
カタカナのテストのためにわざとカタカナが多めになっています。
コフライブはプログラミング言語Pythonで実装されており、IBM モデルを利用して
フレーズエキストラクトしてこふ語モデルを作成し、
かな漢字変換のしくみで入力された文をこふ語に変換します。

をこふ語に変換してみましょうっ次のようにしますっ

$ python kovlive.py test.txt
この文章はっこふ語変換プヨグヤムであるコフライブっ!用のテスヨテキスヨですっ
カタカナのテスヨのためにわざとカタカナが多めになっていますっ
コフライブはプヨグヤミンッ言語Pythonで実装されておりっIBM モデルを利用してっ
フレッズエキストゥヤクヨしてこふ語モデルを作成しっ
かな漢字変換のしくみで入力された文をこふ語に変換しますっ

きちんとこふ語に変換されましたねっ

実行方法

kovlive で変換するテキスヨはっ

  • 変換したいテキスヨファイルを引数としてわたす
  • 標準入力からわたす

ことができますっ

次の例は標準入力からのテキスヨをこふ語に変換しますっ

$ echo 今日のお昼は、ステーキを食べたい。 | python kovlive.py
今日のお昼はっステッキを食べたいっ

このような形でこふ語に変換することができますっ

くわしくは kovlive-h オプション付きで起動してくださいっ

$ python kovlive.py -h
usage: kovlive.py [-h] [-v] [file]

positional arguments:
  file           input file: if absent, reads from stdin

optional arguments:
  -h, --help     show this help message and exit
  -v, --verbose  show probability

Python スクイプヨの中から呼び出す

kovlive を Python スクイプヨの中から呼び出すには次のようにしますっ

>>> import kovlive
>>> kl = kovlive.KovLang(
...     "model/phrase.model",
...     "model/bigram.model"
... )
...
>>> kl.ja2kov("今日はハンバーグを食べたい")
'今日はハンバッグを食べたいっ'

KovLang にわたす引数は モデルファイル ですっ

モデルファイルは kovlive の model ディレクヨリ以下に付属していますっ

自分でモデルを学習することでっ変換をカスタマイズすることもできますっ 以下ではその方法を説明しますっ

モデルを学習する

コフライブで失敗することもよくありますっ例えば

$ echo いつかドイツのトリを見てみたい | python kovlive.py
いつかヨイツのヨリを見てみたいっ

となってしまいますっ

こふ語ではカタカナ先頭の「ト」は「ヨ」に変換しませんがっ上の例では変換されていますねっ

この問題を解決する簡単な方法はっ model/keyword.txt に「ドイツ」と「トリ」を 追加することですっ次のように追加してみましょうっ

ドイツ,ドイツ
トリ,トリ

追加したらモデルを再学習すればきちんとこふ語変換できるようになりますっ モデルの再学習には

が必要になるのでっ

$ pip install jinja2

などしてあらかじめインスヨッルしておいてくださいっ

準備ができたらモデルの再学習を次のようにしますっ

$ python config.py  # Makefile を生成する
$ make

自分だけのこふ語モデルでっ最高のコフライバーを目指しましょうっ

けんこふたん