"BOKU"のITな日常

還暦越えの文系システムエンジニアの”BOKU”は新しいことが大好きです。

機械学習につかえるデータセットのリンクをまとめておく(備忘のため)

ディープラーニングとかに興味を持って、色々遊ぼうとすると、使えそうなお題とデータを探すのに苦労します。

今まで、個別の記事に書いてたのですが、いちいち個別の記事を探すのが面倒になってきたので、まとめておこうと思います。

 

といっても。

網羅的にまとめるつもりはなくて、とりあえず、自分がよく使うか、直近で使ってみたいと考えているものだけをまとめて、網羅的なリストは、既存のデータセット情報を提供してもらえる「まとめサイト」のリンクをつける程度の、ゆるーいまとめです。

 

各種データ(お題含む)があるサイト

 

様々なお題とデータが提供されています。

最近、知ったものが多いです。

 

SIGNATE

signate.jp

 

kaggle

f:id:arakan_no_boku:20181213230616j:plain

 

UCL Machine Learning Repository

f:id:arakan_no_boku:20181213202812j:plain

 

画像データのサイト

 

画像データについては以前からお世話になっていたサイトが多いです。

CIFER-100 Dataset

f:id:arakan_no_boku:20181213203218j:plain

 

 CALTECH

f:id:arakan_no_boku:20171102201127j:plain

 

Fashon MNIST

github.com

 

テキストデータ(コーパス

 

これも以前からお世話になっていたものです。

青空文庫青空文庫 Aozora Bunko)

f:id:arakan_no_boku:20181213225034j:plain

 

wikipediaWikipedia:データベースダウンロード - Wikipedia

f:id:arakan_no_boku:20181213225655j:plain

 

 livedoor ニュースコーパスダウンロード - 株式会社ロンウイット

www.rondhuit.com

 

他の機械学習用データセットまとめサイト

 

豊富な情報をまとめていただいているサイトです。

「え・・、こんなにあるの」と思うくらい充実してます。

特に「axXivTimes」。

本気でデータセットを探している方なら、こちらのリンクから探したほうが絶対いいと思います(笑)

断然、すごいですから。

github.com

www.codexa.net

gengo.ai

ではでは。