"BOKU"のITな日常

BOKUが勉強したり、考えたことを頭の整理を兼ねてまとめてます。

AI:NLP_自然言語処理

Word2Vecで「単語の足し算・引き算の結果(単語)を取得する」デモをやってみる。

Wikipediaのテキストで学習済の「Word2Vec学習済モデル」を使った簡単な「近い言葉探し遊び」的なデモを作ってみます。

NNablaのWord2Vecサンプルを任意の日本語テキストで実行できるようにする(3回め)

3回めは、2回めで作った学習用データを学習させて、その結果を利用して、任意の単語で類義語を取得して遊んでみようかなと思っている

NNablaのWord2Vecサンプルを任意の日本語テキストで実行できるようにする(2回め)前処理編

2回は、ネットから何か適当なテキストデータをとってきて、自然言語処理をおこなって、Word2Vecで利用できるインプットデータを作るところまでやってみます。

NNablaのWord2Vecサンプルを任意の日本語テキストで実行できるようにする(1回め)

1回は、Word_to_Vector.py を修正して、日本語のごく小さなテキストファイルを読み込んで、とりあえず、動かしてどんな結果が得られるかを確認します。

テキストを「'0000'から'FFFF'の出現頻度」で符号化する自然言語前処理/Neural Network Console応用編

自然言語の文章データを文字コードの出現頻度で正規化するのマルチバイト版('0000'~'FFFF')です。

Pythonでテキストの単語を「単語の意味は周囲の単語によって形成される」ルールでベクトル化する

自然言語処理は難しい。けど、必要なので、趣味で必要な範囲に絞り、シンプルにまとめるのに挑戦してみます。今回は単語のベクトル化・・です。

Pythonで文章を識別するのに重要な単語を判断する方法/カウント・出現頻度・TF-IDF

自然言語処理は難しい。けど、必要なので、趣味で必要な範囲に絞り、シンプルにまとめるのに挑戦してみます。今回は出現頻度で数値化する・・です。

Pythonで日本語を単語単位に分割&品詞情報付与を行う(形態素解析)

目次 日本語を単語に分割するのは簡単ではありません MeCab Janome とりあえず単語分割と品詞分解をやってみる 必要な単語だけを品詞で判断して抜き出す 同じ意味なのに異なる表現の言葉がある おまけ 日本語を単語に分割するのは簡単ではありません 日本語…

テキストを「'00'から'FF'の出現頻度で符号化」する自然言語前処理のクラス化:/Neural Network Console応用編

自然言語の文章データを文字コードの出現頻度で正規化して、Neural Network Consoleで使えるデータにするまとめです。

ニュース記事を学習させて記事の内容による分類に挑戦してみる/Neural Network Console応用編

Neural Network Console(ニューラルネットワークコンソール 以後NNCと書きます)で自然言語処理をやってみる試みとして、ジャンルの異なるニュース記事を学習させて、分類できるかがテーマです。

ニュース記事を学習させるために「00」~「FF」の出現頻度で符号化してみる/Neural Network Console応用編

自然言語の文章データを、汎用的にNNC(ニューラルネットワークコンソール)で学習できるデータに変換する方法を考えてみました。

自然言語の学習に必要なテキストデータ(コーパス)を集める方法あれこれ。

自然言語の学習・推論の勉強に必要なテキストデータ(コーパス)を集める方法について書いてみようと思います。

テキストを単語の出現頻度で数値データにしてネガポジ分類やってみる/Neural Network Console応用編

前回、文章データをニューラルネットワークコンソールで使えるように加工したものを使って、学習・評価してみます。