빅데이터 수집기술
다양한 유형의 데이터를 수집하는 것
빅데이터 수집 실행 절차
수집대상 데이터 선정 => 수집 세부계획 수립 => 데이터 수집 실행
데이터 선정 고려사항
- 수집 가능성
- 보안성
- 정확성
- 비용
정형 데이터의 데이터 종류는 RDB, 스프레드시트 등
수집 기술로는 ETL, FTP, Open API 등
반정형 데이터 데이터 종류는 HTML, XML, JSON, 웹문서, 웹로그, 센서 데이터 등
수집 기술로는 크롤링, RSS, Open API, FTP
비정형 데이터의 데이터 종류는 소셜 데이터, 문서, 이미지, 오디오, 비디오 등
수집 기술로는 크롤링, RSS, Open API, Streaming, FTP
종류 |
설명 |
크롤링 |
- 외부 데이터의 HTTP 수집방법 - SNS, 뉴스, 웹 정보 등 인터넷 상에서 제공되는 웹 문서의 정보를 수집한다. |
Open API |
- 웹을 운영하는 주체가 정보/데이터를 제공하기 위해 개발자와 사용자에게 공개하는 수집기술 |
RSS |
- 다양한 웹 사이트의 콘텐츠를 요약하고 상호 공유 할 수 있도록 만든 XML기반의 간단한 콘텐츠 배급 프로토콜 |
로그 수집기 (Log Aggregator) |
- 웹서버 로그, 웹 로그, 트랜잭션 로그, 클릭 로그, DB의 로그 등 각종 로그 데이터를 수집하는 오픈 소스 기술이다. - 로그 수집 |
RDB Aggregator |
- 관계형 데이터베이스에서 정형 데이터를 수집하여 HDFS(하둡 분산파일시스템)이나 HBase와 같은 NoSQL에 저장하는 오픈 소스 기술이다. - RDB 기반 데이터 수집 |
빅데이터 개요
https://j3sung.tistory.com/441
빅데이터 수집
https://j3sung.tistory.com/442
빅데이터 저장
https://j3sung.tistory.com/443
빅데이터 처리
https://j3sung.tistory.com/444
빅데이터 분석
https://j3sung.tistory.com/445
빅데이터 표현
https://j3sung.tistory.com/446
'IT' 카테고리의 다른 글
[IT] 빅데이터 처리 (0) | 2019.10.31 |
---|---|
[IT] 빅데이터 저장 (0) | 2019.10.31 |
[IT] 빅데이터 개요 (0) | 2019.10.31 |
[IT] 엣지 컴퓨팅 (0) | 2019.10.31 |
[IT] 클라우드 컴퓨팅 (0) | 2019.10.30 |