2018-01-01から1年間の記事一覧

時間のかかる前処理をDaskで高速化

最近仕事で自然言語処理を使ったモデルを作成していたんですが、 前処理やモデルを作る際に数分〜数十分単位の処理待ちの空き時間が頻繁に発生してしまい、 その度集中力が切れる問題に悩まされていました。 モデルの学習に時間がかかってしまうのはまた別の…

転職してデータサイエンティストからデータエンジニアになりました

前回の転職(ゲームプログラマからデータサイエンティストに転職しました - ぴよぴよ.py)から約1年半、再び転職しました。 ゲームプログラマ (2年)→ データサイエンティスト(1年)→ データエンジニア(new) という感じのキャリアです。 前職の話 前職は職種的に…

最近追加されたPythonの便利機能とこれからのPython in #ll2018jp

Learn Languages 2018 というイベントで、最近のPythonについて発表してきました。 (一昨年まではLightweight LanguageでLLイベントだったのが、去年からLearn Languagesイベントになったらしい!) Python update in 2018 #ll2018jp from cocodrips www.slid…

好きな品詞の組み合わせのフレーズを抜き出すPythonパッケージ「negima」を作った

日本語の自然言語処理が絡んだ作業をする際に、 名詞だけ抜き出したい 名詞だけ抜き出したいが、接頭詞の「未」「非」とかもくっつけて抜き出したい 形容詞を抜き出したいが、否定の「ない」もくっつけて抜き出したい みたいに形態素解析をしたあとに形態素…

古いバージョンのR(2系)の環境を作る

R

仕事の都合でRの2.15を使いたい状況になったのだが、 古いバージョンのRの環境を作るのが想像以上に大変だったので、環境構築の仕方を残しておく。 自分のMac上に環境を作ろうとしたのだが、Apple周りのエラーが大量に出現しだいぶ厳しそうだったので諦めた…