R로 배우는 기초통계
2020-12-24
Chapter 1 Introduction 강의 개요
- 매주 목요일 강의노트, 동영상 업데이트
- 강사: 한국생명공학연구원 바이오합성연구센터 김하성
- 연락처: 042-860-4372, haseong [at] kribb.re.kr (생명연 연구동 1143)
- 강의조교: 박성군, tjdrns27 [at] kribb.re.kr
- 강의site: https://greendaygh.github.io/Rstat2020/
1.1 Goal 강의 목표
- 이공계열 대학원생이 데이터 분석용 프로그래밍언어인 R을 기반으로 프로그래밍 기술과 함께 데이터를 분석하는 능력을 습득하고 이공계 연구에 필수인 통계적 사고의 기초를 배양함
1.2 This course
- 온라인 (강의자료, 동영상) 강의를 기본으로 함
- 기초 통계의 개념 설명과 R 실습 예시가 강의자료와 동영상 형식으로 제공됨
- 매 회 강의에는 해당 강의 내용과 관련된 과제가 주어지며 이메일을 통해 문제 풀이를 제출 받음
- 상황에 따라 강의 자료 및 동영상 업데이트 일정이 조정될 수 있음
1.3 Tips
- 눈으로 이해하지 않고 스스로 실습 필수
- 각 명령줄이 어떻게/왜 작동하는지 이해하기
- 인터넷 검색을 통한 다른사람의 코드 이해/적용 필요
1.4 References books 참고 교제
- Using R for Introductory Statistics by John Verzani
- Free version of 1st Edition
- Second edition
- R for Data Science (https://r4ds.had.co.nz, https://github.com/hadley)
- Bioinformatics Data Skills by Vince Buffalo (http://2.droppdf.com/files/5aTvl/bioinformatics-data-skills.pdf)
- First Course in Statistical Programming with R by Braun and Murdoch (https://www.cambridge.org/core/books/first-course-in-statistical-programming-with-r/C9F088122AB40517B07FA77F2F0FDE2F)
- Introductory Statistics with R by Dalgaard (http://www.academia.dk/BiologiskAntropologi/Epidemiologi/PDF/Introductory_Statistics_with_R__2nd_ed.pdf)
- Modern Applied Statistics with S by Venables and Ripley (http://www.bagualu.net/wordpress/wp-content/uploads/2015/10/Modern_Applied_Statistics_With_S.pdf)
- 일반통계학 (영지문화사, 김우철 외)
1.5 References 참고 자료
- https://resources.rstudio.com/
- http://shiny.rstudio.com/tutorial/
- R 홈페이지 https://www.r-project.org/
- Rstudio 홈페이지 https://www.rstudio.com/
- Packages for biologists https://www.bioconductor.org/
- R 기본 문서들 (소개, 사용, 설치, 운영) https://cran.r-project.org/manuals.html
- R ebooks https://bookdown.org/
- Cheat Sheets https://www.rstudio.com/resources/cheatsheets/
1.6 Evaluation 평가 세부 항목
과제 100%
성적부여기준: 최종 평균균 70점 이상 S, 70점 미만 U 부여
과제 채점: 각 과제당 총점 100점 만점 환산 점수 (답이 틀려도 코드가 있으면 가산점)
과제 제출일: 수업 자료 배포 후 1주일 오후 6시 (목요일 자료 배포 -> 다음주 목요일 오후 6시)
과제 솔루션 배포: 과제 제출일 마감 이 후 조교 배포
감점 기준
- 솔루션 배포 이전 과제 제출: 감점 없음
- 솔루션 배포 이후 과제 제출: 40점 감점
- 과제 미제출: 100점 감점
1.7 Schedule 강의 계획
- 1주차 - R basics / introduction of data
- 2주차 - Univariate data – Summary statistics
- 3주차 - Bivariate data – Correlation / Independence
- 4주차 - Multivariate data – R data structure
- 5주차 - Populations – Families of distributions
- 6주차 - Sampling – Distribution and CLT
- 7주차 - Statistical inference
- 8주차 - Confidence intervals
- 9주차 - Significance test - parameteric
- 10주차 - Significance test – non parametric
- 11주차 - Goodness of fit - parametric
- 12주차 - Goodness of fit – non parametirc
- 13주차 - Linear regression – basics & simple LR
- 14주차 - Multiple linear regression
- 15주차 - Analysis of variance
- 16주차 - Logistic / Non-linear regression