refirio.org

Memo

メモ > 技術 > プログラミング言語: Python > Janome（形態素解析）
■Janome（形態素解析）

Pythonで書かれた形態素解析ライブラリ
pipでインストール可能なので、MeCabよりも手軽に扱うことができる
ただし処理速度はMeCabに敵わない
内包辞書として mecab-ipadic-2.7.0-20070801 が使われている

■Janomeをインストール$ pip3 install janome
$ python3
Python 3.8.7 (default, Feb  7 2021, 00:21:33) 
[GCC 8.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer()
>>> for token in t.tokenize("すもももももももものうち"):
...     print(token)
... 
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
>>> exit()


Welcome to janome's documentation! (Japanese) - Janome v0.4 documentation (ja)
https://mocobeta.github.io/janome/

Python, Janomeで日本語の形態素解析、分かち書き（単語分割） | note.nkmk.me
https://note.nkmk.me/python-janome-tutorial/

Janomeを使ってPythonで形態素解析 - Qiita
https://qiita.com/charon/items/661d9a25b2233a9f8da4■最新の mecab-ipadic-NEologd を導入$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ xz -dkv seed/*.csv.xz
$ cat seed/*.csv > neologd.csv


作成された neologd.csv を作業フォルダに配置する
今回は janome ディレクトリで作業するものとする

janome/neologd.csv

以下のプログラムで辞書をビルドする

from janome.dic import UserDictionary
from janome import sysdic
user_dict = UserDictionary('neologd.csv', 'utf8', 'ipadic', sysdic.connections)
user_dict.save('neologd')


…が、Raspberry Pi 4 4B-32GB の環境では「MemoryError」となって処理が止まった

JanomeでNEologd辞書を使う - Qiita
https://qiita.com/_likr/items/0fc845f59b4ad685cc06
Memo

Advertisement