アラカン"BOKU"のITな日常

文系システムエンジニアの”BOKU”が勉強したこと、経験したこと、日々思うことを書いてます。

自然言語処理

日本語文章を「'0000'から'FFFF'コードの出現頻度」でNeural Network Console用データに変換する/使い方43

自然言語の文章データを文字コードの出現頻度で正規化するのマルチバイト版('0000'~'FFFF')です。

日本語を機械学習用にデータ化する方法を簡単にまとめる(3)/ベクトル化とPMI・SVDなど+Pythonサンプル

自然言語処理は難しい。けど、必要なので、趣味で必要な範囲に絞り、シンプルにまとめるのに挑戦してみます。今回は単語のベクトル化・・です。

日本語を機械学習用にデータ化する方法を簡単にまとめる(2)/単語数カウントとTF-IDFなど+Pythonサンプル

自然言語処理は難しい。けど、必要なので、趣味で必要な範囲に絞り、シンプルにまとめるのに挑戦してみます。今回は出現頻度で数値化する・・です。

日本語を機械学習用にデータ化する方法を簡単にまとめる(1)/前処理としての形態素解析+pythonサンプル

自然言語処理は難しい。けど、必要なので、趣味で必要な範囲に絞りシンプルにまとめるのに挑戦してみます。今回は、前処理で単語分割するあたりまで。

日本語文章を「'00'から'FF'のコード出現頻度で符号化」する処理のクラス化:/使い方30:Neural Network Console

自然言語の文章データを文字コードの出現頻度で正規化して、Neural Network Consoleで使えるデータにするまとめです。

日本語文章をNeural Network Consoleで学習・評価(分類)する:コード符号化編/使い方29

自然言語の文章データを文字コードの出現頻度で正規化したデータを使って、学習・評価してみます。

日本語文章をNeural Network Console用データに変換する(文字コード出現頻度編)-OK版/使い方28

自然言語の文章データを、汎用的にNNC(ニューラルネットワークコンソール)で学習できるデータに変換する方法を考えてみました。

自然言語の学習にはまとまったテキストデータ(コーパス)が必要!集める方法あれこれ。

自然言語の学習・推論などの学習・予測のテストなどに使うまとまったテキストデータを取得してる方法について書いてます。

試行錯誤その5:自然言語処理の基本はまず品詞。初心に返って頭を整理してみよう。

名詞とか形容詞とかの特定の品詞のみをスコアリングして、何とかしようという発想はすてて、きちんと品詞を整理して、分割の仕方を検討します。

試行錯誤その4:自然言語のネガポジ判断・・だんだん、難しさがわかってきたぞ。^^;

今回は、うまくいってない・・報告です。やっぱ、難しいですね。日本語は。

試行錯誤その3:辞書を作って、自然言語の1行データのネガポジ判定を試してみる(一発目)

オリジナルネガポジ辞書と、それを使ったネガポジ判定クラスの作成で、予測部分の実装です。

試行錯誤その2:自然言語ネガポジ辞書管理クラスをラップして学習・推論するクラスにする

pythonで自然言語のネガポジ判定にチャレンジの2回めです。オリジナルのネガポジ辞書管理クラスを使って、辞書を育てるための「学習する」クラスを作ります。

試行錯誤その1:自然言語のネガポジ辞書管理クラスをpythonで作ってみる

自然言語処理でよくネタになる「ネガポジ判断」につかう辞書を自前で作るために、まず管理するクラスを作ります。

日本語文章をNeural Network Consoleで学習・評価(分類)する。(単語の出現頻度編)/使い方27

前回、文章データをニューラルネットワークコンソールで使えるように加工したものを使って、学習・評価してみます。

日本語文章をNeural Network Console用データに変換する(単語の出現頻度編)/使い方26

ニューラルネットワークコンソールでは、文章テキストデータは、そのまま学習データとしては使えませんが、数値データに変換すればOKです。今回はそのやり方の1回目です。

NNablaのWord2Vecサンプルを任意の日本語テキストで実行できるようにする(3回め)

3回めは、2回めで作った学習用データを学習させて、その結果を利用して、任意の単語で類義語を取得して遊んでみようかなと思っている

NNablaのWord2Vecサンプルを任意の日本語テキストで実行できるようにする(2回め)前処理編

2回は、ネットから何か適当なテキストデータをとってきて、自然言語処理をおこなって、Word2Vecで利用できるインプットデータを作るところまでやってみます。

NNablaのWord2Vecサンプルを任意の日本語テキストで実行できるようにする(1回め)

1回は、Word_to_Vector.py を修正して、日本語のごく小さなテキストファイルを読み込んで、とりあえず、動かしてどんな結果が得られるかを確認します。