読者です 読者をやめる 読者になる 読者になる

R言語による電子カルテデータの二次利用

~R言語初心者がデータ処理を楽しめるように基本的内容中心のサイトです~

データの取り込み

Rにデータを取り込む方法はいくつかあります。

CSVファイルから取り込み
read.csv("flu2014.csv") 

read.csvはいろいろ引数の指定ができますので、こまかな設定は調べてみてください
うまく呼び出せない場合は、ファイルのdirectoryが違うのかもしれません。
working directoryは、

getwd()

で確認できます。

directory書くのが面倒なら、現在の作業用のプロジェクトを作り、フォルダにcsvファイルを入れておけば、ファイル名の指定だけで読み込めます。

新規プロジェクトの作成は、RstudioのFileからNew Project。
f:id:r_beginner:20160215215702j:plain

RstudioのImportDataset

なれないうちは、これが簡単かもしれません。
GUIを使うと、自動化できないので、あとでちゃんとコードを書く練習はしましょう。
f:id:r_beginner:20160215212836p:plain

クリップボードからの読み込み

裏技的ですが、クリップボードのデータも読み込めます。
読み込みたい部分をマウスの右クリックでコピーし、

read.table("clipboard")

なるべく使わないように…

Webからデータ取り込み

rvestパッケージを使用してデータを取り込みます。はやりのスクレイピングというやつです。
札幌市北区 内科 の 病院検索【お医者さんガイド】85件の該当があります
ここからデータを取り込みましょう

h_name <- read_html("http://www.10man-doc.co.jp/static/hokkaido/0020.html") %>% 
  html_nodes(xpath = '//*[@class="h_name"]/a') %>% 
  html_text() %>% iconv(from="UTF8",to="SJIS")
h_name %>% head

f:id:r_beginner:20160215221458j:plain
こんな出力となります。
ちなみに、iconv(from="UTF8",to="SJIS")は文字コードを変換して、文字化け防止です。