Memo

メモ > 技術 > プログラミング言語: Python > Janome(形態素解析)

■Janome(形態素解析)
Pythonで書かれた形態素解析ライブラリ pipでインストール可能なので、MeCabよりも手軽に扱うことができる ただし処理速度はMeCabに敵わない 内包辞書として mecab-ipadic-2.7.0-20070801 が使われている ■Janomeをインストール
$ pip3 install janome $ python3 Python 3.8.7 (default, Feb 7 2021, 00:21:33) [GCC 8.3.0] on linux Type "help", "copyright", "credits" or "license" for more information. >>> from janome.tokenizer import Tokenizer >>> t = Tokenizer() >>> for token in t.tokenize("すもももももももものうち"): ... print(token) ... すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ >>> exit()
Welcome to janome's documentation! (Japanese) - Janome v0.4 documentation (ja) https://mocobeta.github.io/janome/ Python, Janomeで日本語の形態素解析、分かち書き(単語分割) | note.nkmk.me https://note.nkmk.me/python-janome-tutorial/ Janomeを使ってPythonで形態素解析 - Qiita https://qiita.com/charon/items/661d9a25b2233a9f8da4 ■最新の mecab-ipadic-NEologd を導入
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git $ xz -dkv seed/*.csv.xz $ cat seed/*.csv > neologd.csv
作成された neologd.csv を作業フォルダに配置する 今回は janome ディレクトリで作業するものとする janome/neologd.csv 以下のプログラムで辞書をビルドする
from janome.dic import UserDictionary from janome import sysdic user_dict = UserDictionary('neologd.csv', 'utf8', 'ipadic', sysdic.connections) user_dict.save('neologd')
…が、Raspberry Pi 4 4B-32GB の環境では「MemoryError」となって処理が止まった JanomeでNEologd辞書を使う - Qiita https://qiita.com/_likr/items/0fc845f59b4ad685cc06

Advertisement