티스토리 뷰

IT

[IT] 빅데이터 수집

J3SUNG 2019. 10. 31. 23:45

빅데이터 수집기술
다양한 유형의 데이터를 수집하는 것

빅데이터 수집 실행 절차
수집대상 데이터 선정 => 수집 세부계획 수립 => 데이터 수집 실행

데이터 선정 고려사항
- 수집 가능성
- 보안성
- 정확성
- 비용

정형 데이터의 데이터 종류는 RDB, 스프레드시트 등
                   수집 기술로는 ETL, FTP, Open API 등

반정형 데이터 데이터 종류는 HTML, XML, JSON, 웹문서, 웹로그, 센서 데이터 등
                    수집 기술로는 크롤링, RSS, Open API, FTP

비정형 데이터의 데이터 종류는 소셜 데이터, 문서, 이미지, 오디오, 비디오 등
                      수집 기술로는 크롤링, RSS, Open API, Streaming, FTP


종류

설명

크롤링

- 외부 데이터의 HTTP 수집방법

- SNS, 뉴스, 웹 정보 등 인터넷 상에서 제공되는 웹 문서의 정보를 수집한다.

Open API

- 웹을 운영하는 주체가 정보/데이터를 제공하기 위해 개발자와 사용자에게 공개하는 수집기술

RSS

- 다양한 웹 사이트의 콘텐츠를 요약하고 상호 공유 할 수 있도록 만든 XML기반의 간단한 콘텐츠 배급 프로토콜

로그 수집기

(Log Aggregator)

- 웹서버 로그, 웹 로그, 트랜잭션 로그, 클릭 로그, DB의 로그 등 각종 로그 데이터를 수집하는 오픈 소스 기술이다.

- 로그 수집

RDB Aggregator

- 관계형 데이터베이스에서 정형 데이터를 수집하여 HDFS(하둡 분산파일시스템)이나 HBase와 같은 NoSQL에 저장하는 오픈 소스 기술이다.

- RDB 기반 데이터 수집

 



빅데이터 개요 
https://j3sung.tistory.com/441 
빅데이터 수집 
https://j3sung.tistory.com/442 
빅데이터 저장 
https://j3sung.tistory.com/443 
빅데이터 처리 
https://j3sung.tistory.com/444 
빅데이터 분석 
https://j3sung.tistory.com/445 
빅데이터 표현 
https://j3sung.tistory.com/446

빅데이터.pptx
3.12MB

 

728x90

'IT' 카테고리의 다른 글

[IT] 빅데이터 처리  (0) 2019.10.31
[IT] 빅데이터 저장  (0) 2019.10.31
[IT] 빅데이터 개요  (0) 2019.10.31
[IT] 엣지 컴퓨팅  (0) 2019.10.31
[IT] 클라우드 컴퓨팅  (0) 2019.10.30
댓글
댓글쓰기 폼
공지사항