oryou-sanのブログ

備忘録です

機械学習

Word2Vecの出力をMDSで解釈してみる

はじめに前回紹介したWord2Vecを用いた文章の分散表現をMDSで次元削減し視覚的に解釈可能にしてみます。 oryou-san.hatenablog.com 前処理scikit-learnのdataset"fetch_20newsgroups"を学習用データとして用います。 Word2Vecの入力に適するように文章を単語…

Word2Vecを使ってみる

はじめにPythonの自然言語処理系のライブラリであるgensimでWord2Vecを使ってみます。 データ準備Word2Vecにかけるデータを準備します。分かち書きされている文章をリストにまとめたものならOKです。 前回の記事で紹介したMeCabを使っています。oryou-san.ha…

MeCabで分かち書き

はじめにMeCabというライブラリを使って日本語の分かち書きをしてみます。 まずは使ってみる出力はこんな感じになります。 s = 'おいしいパスタつくったお前' import MeCab mecab = MeCab.Tagger("-Ochasen") print(mecab.parse(s)) # おいしい オイシイ お…

LDA(トピックモデル)を使ってみる

はじめにLDAを試しに使ってみたので備忘として残します。 加藤公一氏著の機械学習図鑑からコードを拝借しました。 学習&分類以下書籍からの引用です。(コードはgithubから落とせます。) やってることは以下の通りです。・scikit-learnのdataset"fetch_20n…