Fuzzyな結合

R

たとえば,財務データを使った投資モデルを考えるとき,決算日から即日データが更新されるわけではないので発表までのラグを考慮する必要がある. 考慮しないで捕らぬ狸の皮算用を喜ぶのはLook-aheadバイアス(先読みバイアス)とよび,その筋の分析屋に配属…

データは平等

R

ノンプロがRで株価とかファイナンスの分析をするとき,quantmodパッケージを使うのは常套手段. そのあとPerformanceAnalyticsパッケージとかでポートフォリオ分析というかバックテストをすることが多いと思う. そんな一連の流れをdplyrチェーンで成し遂げ…

個人用ブックマーク

# Machine Learning qiita.comqiita.comqiita.comdrsimonj.svbtle.com# Statistics sinhrks.hatenablog.com # Deep Learning MXNet ドキュメント & 開発支援 – クラスキャット http://mxnet.classcat.com/Building deep neural nets with h2o and rsparkling…

Rで英文テキストマイニング

ここ数年,特に英文のテキストマイニング環境の整備が著しい. Rでも,tidytextパッケージなんて白眉なものも出てきているし. tidytextは,ここで素人がいろいろ言うよりも,こちらがおすすめ. qiita.comここでは,ネットサーフィンしていて知った恐ろしく…

Rで全部NAの列だけ削除する.その他のNAは0に置換する.

R

いかにデータ分析していなかったかが,Blogの更新でわかる. 手を動かすのを休むと,どんどんめんどくさがりに傾倒していく私.ウォーミングアップがてら,こんな話.こんなふうに,全部NAの行と,ところどころNAが入ったセルがあるとする. dat <- matrix(c…

winpythonからTheano/Kerasを使う

Rと違ってPythonの環境を整えるのは結構面倒くさい. Anaconda使えって話なんだけど,諸事情によりWinpythonのポータビリティが心地よいこともある. ダウンロード激重だけどオールインワンだし,環境変数のPATH通すところとか億劫でなければ,比較的使いや…

Tex/Lyxでpngの変換

は串ですか?臭いですか?財ですか?具材ですか?? 私は具材と呼ぶことが多いです.どうでもいいことはさておき,OSをクリーンインストールすると面倒くさいことがたくさん. TexというかLyxでpngが変換できない. 「png形式のファイルからeps形式に変換するため…

MacでAnacondaをインストールする

以下,terminalに貼り付ける.と言ってもバージョンとかあるので一行ずつが適切. # Homebrewをインストールしていなかったらこれ ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" # pythonの環境管理ツールpy…

フォントを考える

特にプログラミングするとき,フォントって気になりません? 特にWindows.Win7環境だとほっといたらMSゴシックでしょう.あれ嫌いなんですよ. 2バイトと1バイト文字混在させるとカーソル位置が合わなくなって変な感じになりません?メイリオをモノタイプ化し…

Macでフォルダパスを表示したい

Mac

Macをクリーンインストールして,ファイルとかの移動はおおかた終わったんだけど,細かい設定が気づいたときに発生する. パスバーの表示でもいいじゃないかと思うかもしれないが,やっぱりFinder上でフォルダパスを確認したい.Finder上でフォルダパスを表…

カブっているのはどいつだ!?

R

次につなげるというより,何が悪いんだろうと評価する場合の話. dplyr使って,データから重複を除きたいときはunique()とかdistinct()とかで取り除ける. 逆の話ってあんまりないよね.重複しているデータセットを知りたい. 普通だったらduplicateとか使う…

texで画像を表示させる

何を思い立ったか,MacのOSをSierraにした.しかもクリーンインストール. インストール時の注意点は,ダウンロードしたときご本尊が表示されるのはLaunchpadの中であること, クリーンインストールするときに,HDDをカラにしたあとOSをインストールする前に…

dplyrチェーンでスケーリングするときの注意

R

注意ってほどではないんだが,分析するとき,データセットを基準化(標準化,Z変換,standardization,scale)することがある. よく使うのはScale関数なんだけど,dplyrのチェーンで使うと余計なもの(Scaled:centre/scale)がついてくるのでなんとなく気持…

WindowsUpdateがまたしても私のバッテリーを貪る件

Win

9月のWindows Updateが配信されたようである. 出先でWindowsPCでプログラミングしていたら,ガンガンバッテリーが減っていく. 並列計算してたからしょうがないかとおもいつつ,計算が終わってもCPU使用率は高いまま. これは,と思いだしググってみると,9…

dplyrで行方向の足し算

R

dplyrでデータ加工が格段に楽になった.selectやら*joinやらmutateやらで切った貼ったはなれれば感覚的だし,列方向の集計はsummarise_at(vars(1:10), funs(mean,sd))とかでいける.group_byしちゃって分類ごとに集計することやRcppRollパッケージを使えば移…

svchostの怒りを収める,と言う話.

古典的なネタである. svchost(netsvcs)がアホほどリソースを食いまくり,CPU使用率が高止まりしてX1Carbon(2015model, i7/RAM8G)のバッテリががんがん減る.SvchostAnalyzerで何をやっているのか見てみると,WindowsUpdateのせいではないかとhttp://www.jap…