oryou-sanのブログ

備忘録です

python

Edinet APIを使ってみる(書類取得API編 その1)

はじめにEdinet APIをPythonで使ってみる。 書類一覧APIと書類取得APIの2つがあるが、この記事では書類取得APIについて扱う。 まずは叩いてみるpythonからgetメソッドでAPIを叩く。 import requests doc_id = 'S100LF3R' #取得したい書類の書類管理番号 res…

Edinet APIを使ってみる(書類一覧API編 その2)

はじめにEdinet APIをPythonで使ってみる。 書類一覧APIと書類取得APIの2つがあるが、この記事では書類一覧APIについて扱う。前回の記事でとりあえず出力をPandas DataFrameに変換するところまで進めたので、 本記事ではもう少し実用的な内容を扱う。result…

Edinet APIを使ってみる(書類一覧API編 その1)

はじめにEdinet APIをPythonで使ってみる。 書類一覧APIと書類取得APIの2つがあるが、この記事では書類一覧APIについて扱う。 まずは叩いてみるpythonからgetメソッドでAPIを叩く。 出力がJSONフォーマットでそのままだと見づらいのでdict型に変換。 import…

Word2Vecの出力をMDSで解釈してみる

はじめに前回紹介したWord2Vecを用いた文章の分散表現をMDSで次元削減し視覚的に解釈可能にしてみます。 oryou-san.hatenablog.com 前処理scikit-learnのdataset"fetch_20newsgroups"を学習用データとして用います。 Word2Vecの入力に適するように文章を単語…

Word2Vecを使ってみる

はじめにPythonの自然言語処理系のライブラリであるgensimでWord2Vecを使ってみます。 データ準備Word2Vecにかけるデータを準備します。分かち書きされている文章をリストにまとめたものならOKです。 前回の記事で紹介したMeCabを使っています。oryou-san.ha…

MeCabで分かち書き

はじめにMeCabというライブラリを使って日本語の分かち書きをしてみます。 まずは使ってみる出力はこんな感じになります。 s = 'おいしいパスタつくったお前' import MeCab mecab = MeCab.Tagger("-Ochasen") print(mecab.parse(s)) # おいしい オイシイ お…

LDA(トピックモデル)を使ってみる

はじめにLDAを試しに使ってみたので備忘として残します。 加藤公一氏著の機械学習図鑑からコードを拝借しました。 学習&分類以下書籍からの引用です。(コードはgithubから落とせます。) やってることは以下の通りです。・scikit-learnのdataset"fetch_20n…