본문 바로가기
R 언어(프로그래밍) - 기초

R언어 기초 Chapter 6 - data.frame(데이터프레임)

by 푸쓰 2019. 7. 25.
반응형

co2
0.00MB
chapter6_dataframe.R
0.00MB
co2.txt
0.00MB

안녕하세요 푸디헬스입니다.

오늘은 data.frame(데이터 프레임)의 기초에 대해 포스팅해보겠습니다.

데이터 프레임은 데이터 테이블을 저장하는 R의 대표적인 데이터 형식입니다. 데이터 프레임의 생성은 data.frame 함수를 이용합니다.

kids에 'jack'과 'Jill을 넣고 ages에 12와 10을 넣어줍니다.

(stringsAsfactors는 data.frame 함수의 option으로 문자형 변수를 R에서 정의한 팩터라는 변수 형식으로 변환 여부를 결정합니다. F라고 하면 문자형 변수를 팩터 형식으로 변환하지 않겠다는 의미입니다!)

strignsAsFactors =F 인경우 class(d$kids)의 결과는 character

strignsAsFactors =T 인경우 class(d$kids)의 결과는 factor입니다. 보통의 경우에는 stringsAsFactors = F를 많이 사용합니다.( 직접 실행해보시는 게 빨라요! )

 

data.frame의 접근은 $을 사용합니다.

ages 데이터의 class를 반환해줍니다.

데이터 프레임의 열 이름을 보여줍니다.

 

데이터 프레임은 행렬과 같은 방식으로 행과 열의 index를 통해 접근이 가능합니다.

 

데이터 프레임 d에서 1열과 2열을 호출하는 코드입니다.

 

파일 다루기

  • 파일 읽기

파일 읽기는 read.table함수를 이용합니다.

가장 기본적인 형식입니다. file에는 file의 위치를 넣어주시면 됩니다. file의 위치를 넣는 방법을 모르시는 분은 Chapter 3 포스팅 내용을 봐주시길 바랍니다!

 

R언어 기초 Chapter 3 - 범주형변수 정리방법(변수 2개)

안녕하세요 ^^ 푸디헬스입니다. 저번에 변수가 1개인 범주형 변수를 정리해보았습니다. 오늘은 변수가 2개인 범주형 변수 정리 방법을 알려드리겠습니다. 먼저 R Studio를 실행시킵니다. (TWO_CATE.csv 파일을 다..

foodiehealth.tistory.com

제가 올린 파일에는 확장자가 없으니 마지막에 co2(co2.dat 쓰시면 안 됩니다!!)만 쓰시면 됩니다.(co2.txt는 가능합니다. 메모장 파일도 같이 올렸습니다!) header = T는 주어진 데이터의 첫 번째 행이 변수의 이름일 때 사용하고, sep(seperation : 분리)는 구분자입니다.

저번에 말씀드렸듯이 head는 데이터가 클 경우 데이터의 일부만 볼 때 사용하는 함수입니다. head(A, 3)을하면 첫 번째부터 3번째까지의 자료만 보여줍니다.

Plant 데이터의 형식을 확인합니다.

문자열로 저장된 Plant 변수의

경우 'stringsAsFactors = T' 옵션일 때 factor 형태로 나타납니다.

 

  • 파일 쓰기

 

USArrests는 R내에 내장된 데이터입니다. class를 확인해보니 data.frame입니다. 이 데이터를 컴퓨터에 옮기고 싶을 때는 write.table이라는 함수를 사용합니다.

 

위에서 말씀드렸듯이 file = '저장하고 싶은 위치를 넣으시면 됩니다'. sep 옵션으로 구분자를 변경할 수 있습니다. row.names = T인 경우에 데이터의 rownames이 함께 저장됩니다. col.naems도 마찬가지입니다.

  • 데이터 프레임의 결합

데이터 프레임 역시 행렬과 마찬가지로 rbind와 cbind를 사용할 수 있습니다.

 

  • Merge

2개의 데이터 프레임을 결합하고자 할 때 사용하는 명령입니다.

이 예시는 kids의 병수 정보를 이용하여 데이터가 합쳐진 것입니다. 두 데이터 프레임이 공통적으로 가진 변수를 이용하여 데이터를 합치는 명령어가 merge입니다.

 

이 예시처럼 by.x by.y를 이용해서 합칠 때 사용할 기준 변수를 정해줄 수 있습니다.

all.x와 all.y를 이용하여 어떤 한쪽 변수가 완전히 출력되도록 할 수 있습니다. all = T라고 하면 by.x 혹은 by.y를 통해 대응되지 않는 변수가 모두 출력됩니다.

 

지금까지 데이터 프레임의 기초에 대한 포스팅이었습니다.

읽어주셔서 감사합니다.

반응형

댓글