"BOKU"のITな日常

還暦越えの文系システムエンジニアの”BOKU”は新しいことが大好きです。

python-自然言語処理

Word2Vec学習済モデルとgensimで「世界」-「知性」=を計算したら「日本」になった(笑)

事前学習済Word2VecモデルをGensimでロードして、トピック分析結果を返すpythonプログラムを作り、動作確認にいくつか単語の計算をやってみます。

NNablaのWord2Vecサンプルを任意の日本語テキストで実行できるようにする(3回め)

3回めは、2回めで作った学習用データを学習させて、その結果を利用して、任意の単語で類義語を取得して遊んでみようかなと思っている

NNablaのWord2Vecサンプルを任意の日本語テキストで実行できるようにする(2回め)前処理編

2回は、ネットから何か適当なテキストデータをとってきて、自然言語処理をおこなって、Word2Vecで利用できるインプットデータを作るところまでやってみます。

NNablaのWord2Vecサンプルを任意の日本語テキストで実行できるようにする(1回め)

1回は、Word_to_Vector.py を修正して、日本語のごく小さなテキストファイルを読み込んで、とりあえず、動かしてどんな結果が得られるかを確認します。

テキストを「'0000'から'FFFF'の出現頻度」で符号化する自然言語前処理/Neural Network Console応用編

自然言語の文章データを文字コードの出現頻度で正規化するのマルチバイト版('0000'~'FFFF')です。

テキストデータのベクトル化・PMI・SVDなどの自然言語処理/Python

自然言語処理は難しい。けど、必要なので、趣味で必要な範囲に絞り、シンプルにまとめるのに挑戦してみます。今回は単語のベクトル化・・です。

文章データを単語数カウントで符号化・TF-IDF他自然言語処理/Python

自然言語処理は難しい。けど、必要なので、趣味で必要な範囲に絞り、シンプルにまとめるのに挑戦してみます。今回は出現頻度で数値化する・・です。

文章データの単語数カウントやベクトル化の前処理の形態素解析/Python

自然言語処理は難しい。けど、必要なので、趣味で必要な範囲に絞りシンプルにまとめるのに挑戦してみます。今回は、前処理で単語分割するあたりまで。

テキストを「'00'から'FF'の出現頻度で符号化」する自然言語前処理のクラス化:/Neural Network Console応用編

自然言語の文章データを文字コードの出現頻度で正規化して、Neural Network Consoleで使えるデータにするまとめです。

ニュース記事を学習させて記事の内容による分類に挑戦してみる/Neural Network Console応用編

Neural Network Console(ニューラルネットワークコンソール 以後NNCと書きます)で自然言語処理をやってみる試みとして、ジャンルの異なるニュース記事を学習させて、分類できるかがテーマです。

ニュース記事を学習させるために「00」~「FF」の出現頻度で符号化してみる/Neural Network Console応用編

自然言語の文章データを、汎用的にNNC(ニューラルネットワークコンソール)で学習できるデータに変換する方法を考えてみました。

自然言語の学習に必要なテキストデータ(コーパス)を集める方法あれこれ。

自然言語の学習・推論などの学習・予測のテストなどに使うまとまったテキストデータを取得してる方法について書いてます。

テキストを単語の出現頻度で数値データにしてネガポジ分類やってみる/Neural Network Console応用編

前回、文章データをニューラルネットワークコンソールで使えるように加工したものを使って、学習・評価してみます。

テキストを単語の出現頻度で数値化。Neural Network Console用データを作る/Neural Network Console応用編

ニューラルネットワークコンソールでは、文章テキストデータは、そのまま学習データとしては使えませんが、数値データに変換すればOKです。今回はそのやり方の1回目です。