본문 바로가기

Data Analytics

(47)
R get the data from excel into R with read.delim('clipboard') copy and paste from excel dataset001
데이터분석 1 필요한 데이터를 어떻게 분석할 것인가 ? 데이터간의 얽히고 얽힌 관계, 시간의 흐름, 절대/선택적 종속, 동일의미 다른데이터 데이터간의 Story 를 찾아내야 무엇이 무엇(내가 알고자 하는것) 에 어느 정도의 영향을 미치는가 ? 미리 알 수는 없는가 ? 정말 무엇이 영향을 미치는가 ? 차별성이 있는지 그 차이 정도는 유의미한 것인지 설명변수들 사이의 관계종속변수(찾고자 하는 Insight )와 설명변수 관계Tree Model Neural Network 분산이 커진다. 평균에서 유격되는 정도가 크다. 격차가 커진다 또는 중간계층이 적어지고 좌/우 상/하로 치우쳐있다고 볼 수 있다. 최빈값 y 변수에 영향을 미칠것 같은 x 변수 피봇팅 가지를 잘라야 함 가지치기를 위한 CP 값 을 설정하여 가지치기 함. K..
[펌] 10 types of regressions. Which one to use? 어떤 설명이 이해가 쉬운지,,, 찬찬이 읽어봐야겠네요 ^^원문보기 => http://www.datasciencecentral.com/profiles/blogs/10-types-of-regressions-which-one-to-use Should you use linear or logistic regression? In what contexts? There are hundreds of types of regressions. Here is an overview for data scientists and other analytic practitioners, to help you decide on what regression to use depending on your context. Many of the re..
R 자료형 R 자료형 벡터(Vector)행렬(Matrix)데이터프레임(Data frame)배열(Array)리스트(List) [출처] Data 다루기(2)|작성자 이야기개박사
data.frame(x=xvar, y=yvar, z=zvar) > xvar zvar yvar
ggplot2 aes(x=rating) geom_histogram() geom_density() http://www.cookbook-r.com/Graphs/Plotting_distributions_(ggplot2)/ df qplot(df$rating, binwidth=.5)> ggplot(df, aes(x=rating)) + geom_histogram(binwidth=.5) > ggplot(df, aes(x=rating)) + geom_histogram(binwidth=.5, colour="black", fill="white")> ggplot(df, aes(x=rating)) + geom_density() > ggplot(df, aes(x=rating)) + + geom_histogram(aes(y=..density..), # Histogram with density instead of count ..
QL WITH BIGDATA CAPS 동시일관성 > SCN System Commit Number UNDO OWI Mechnism Hash chain ==> 병목구간 발생 하지만 이를 만족시키려면 어떤 문제를 직면하는가 ? RAC Real Application Cluster => 고비용 EXA 설계는 Business understanding 으로부터 시작한다. 뭘 하고자 하는지 알지 못한다면 아무것도 만들 수 없다. 아니면 대량의 처리 병렬처리 CUBRID SHARDING , MONGO DB ==> SHARDING KEY REPLICA SET 1. QL 2. MODELING SQL VS NOSQL & RDB VS HDFS & STRUCTURED VS UNSTRUCTUREDNEWSQL ? ? ? H-STORE PARALLEL MASSI..
R 기본 예제 돌려보기 20131212 require(stats)plot(cars)lines(lowess(cars)) plot(sin, -pi, 2*pi) # see ?plot.function ## Discrete Distribution Plot:plot(table(rpois(100, 5)), type = "h", col = "red", lwd = 10, main = "rpois(100, lambda = 5)") ## Simple quantiles/ECDF, see ecdf() {library(stats)} for a better one:plot(x install.packages("ggplot2")> library(ggplot2)Find out what's changed in ggplot2 withnews(Version == "0.9.3.1"..