ディープラーニングとかに興味を持って、色々遊ぼうとすると、使えそうなお題とデータを探すのに苦労します。
今まで、個別の記事に書いてたのですが、いちいち個別の記事を探すのが面倒になってきたので、まとめておこうと思います。
といっても。
網羅的にまとめるつもりはなくて、とりあえず、自分がよく使うか、直近で使ってみたいと考えているものだけをまとめて、網羅的なリストは、既存のデータセット情報を提供してもらえる「まとめサイト」のリンクをつける程度の、ゆるーいまとめです。
各種データ(お題含む)があるサイト
様々なお題とデータが提供されています。
最近、知ったものが多いです。
SIGNATE
kaggle
UCL Machine Learning Repository
画像データのサイト
画像データについては以前からお世話になっていたサイトが多いです。
CIFER-100 Dataset
CALTECH
Fashon MNIST
テキストデータ(コーパス)
これも以前からお世話になっていたものです。
青空文庫(青空文庫 Aozora Bunko)
wikipedia(Wikipedia:データベースダウンロード - Wikipedia
livedoor ニュースコーパス(ダウンロード - 株式会社ロンウイット
他の機械学習用データセットまとめサイト
豊富な情報をまとめていただいているサイトです。
「え・・、こんなにあるの」と思うくらい充実してます。
特に「axXivTimes」。
本気でデータセットを探している方なら、こちらのリンクから探したほうが絶対いいと思います(笑)
断然、すごいですから。
ではでは。