Fuzzyな結合

R

たとえば，財務データを使った投資モデルを考えるとき，決算日から即日データが更新されるわけではないので発表までのラグを考慮する必要がある．考慮しないで捕らぬ狸の皮算用を喜ぶのはLook-aheadバイアス（先読みバイアス）とよび，その筋の分析屋に配属…

2017-03-08

データは平等

R

ノンプロがRで株価とかファイナンスの分析をするとき，quantmodパッケージを使うのは常套手段．そのあとPerformanceAnalyticsパッケージとかでポートフォリオ分析というかバックテストをすることが多いと思う．そんな一連の流れをdplyrチェーンで成し遂げ…

2017-03-05

Rで英文テキストマイニング

R テキストマイニング

ここ数年，特に英文のテキストマイニング環境の整備が著しい． Rでも，tidytextパッケージなんて白眉なものも出てきているし． tidytextは，ここで素人がいろいろ言うよりも，こちらがおすすめ． qiita.comここでは，ネットサーフィンしていて知った恐ろしく…

2017-03-05

Rで全部NAの列だけ削除する．その他のNAは0に置換する．

R

いかにデータ分析していなかったかが，Blogの更新でわかる．手を動かすのを休むと，どんどんめんどくさがりに傾倒していく私．ウォーミングアップがてら，こんな話．こんなふうに，全部NAの行と，ところどころNAが入ったセルがあるとする． dat <- matrix(c…

2016-10-06

カブっているのはどいつだ!?

R

次につなげるというより，何が悪いんだろうと評価する場合の話． dplyr使って，データから重複を除きたいときはunique()とかdistinct()とかで取り除ける．逆の話ってあんまりないよね．重複しているデータセットを知りたい．普通だったらduplicateとか使う…

2016-09-24

dplyrチェーンでスケーリングするときの注意

R

注意ってほどではないんだが，分析するとき，データセットを基準化（標準化，Z変換，standardization,scale）することがある．よく使うのはScale関数なんだけど，dplyrのチェーンで使うと余計なもの（Scaled:centre/scale）がついてくるのでなんとなく気持…

2016-09-13

dplyrで行方向の足し算

R

dplyrでデータ加工が格段に楽になった．selectやら*joinやらmutateやらで切った貼ったはなれれば感覚的だし，列方向の集計はsummarise_at(vars(1:10), funs(mean,sd))とかでいける．group_byしちゃって分類ごとに集計することやRcppRollパッケージを使えば移…