Notice
Recent Posts
Recent Comments
Link
250x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 뤼튼애즈
- R데이터분석
- 시니어화면설계서
- consisstory
- 푸카토
- 글로포머
- 콘시스토리
- 비정형데이터
- thinkhub
- 뤼튼 챗gpt
- 잘만든화면설계서
- 꼼꼼한화면설계서
- UI
- 디자인씽킹방법론
- ai agi 차이점
- 뤼튼 장학퀴즈
- 화면설계서
- gluformer
- 오스본체크리스트
- pmp자격증 디시
- 쉬운화면설계서
- 피엠화면설계서
- 화면설계서노하우
- 프로화면설계서
- 하이드라-mdf
- 뤼튼 ooc
- 큐옵트
- 고급화면기획서
- 머니온유로
- fugatto
Archives
- Today
- Total
기획은 검정색이다.
[빅데이터] 정형 / 비정형 데이터 정의 본문
정형 데이터와 비정형 데이터는 데이터의 구조와 형식에 따라 구분됩니다.
정형 데이터 (Structured Data)
- 정의: 정형 데이터는 고정된 필드에 따라 구조화된 형태로 저장된 데이터를 말합니다. 이 데이터는 일반적으로 테이블 형식(행과 열)으로 구성되며, 데이터베이스 관리 시스템(DBMS)에서 쉽게 저장, 검색, 분석할 수 있습니다.
- 예시:
- 관계형 데이터베이스: SQL 데이터베이스의 테이블
- 스프레드시트: Excel의 표 형식 데이터
- 기타: 고객 정보(이름, 주소, 전화번호 등), 금융 거래 기록, 재고 관리 데이터
비정형 데이터 (Unstructured Data)
- 정의: 비정형 데이터는 특정한 구조나 형식 없이 저장된 데이터를 의미합니다. 이 데이터는 정형 데이터처럼 고정된 필드나 스키마에 맞춰져 있지 않으며, 분석하기 위해서는 별도의 전처리 과정이 필요합니다.
- 예시:
- 텍스트 데이터: 이메일, 문서 파일(Word, PDF), 소셜 미디어 게시물
- 멀티미디어 데이터: 이미지, 동영상, 오디오 파일
- 기타: 웹 페이지 콘텐츠, 로그 파일, 센서 데이터(비정형 형태로 저장된 경우)
비교
- 구조:
- 정형 데이터는 일정한 구조(스키마)를 따름.
- 비정형 데이터는 고정된 구조가 없음.
- 처리 방법:
- 정형 데이터는 SQL과 같은 도구를 사용해 쉽게 관리 및 분석 가능.
- 비정형 데이터는 분석 전에 텍스트 마이닝, 자연어 처리(NLP), 이미지 분석 등의 방법을 통해 구조화하거나 패턴을 추출해야 함.
- 저장 방식:
- 정형 데이터는 관계형 DB에 저장.
- 비정형 데이터는 NoSQL 데이터베이스, 파일 시스템, 데이터 레이크 등에 저장.
정형 데이터와 비정형 데이터는 각각의 특성과 용도에 따라 다른 방식으로 관리되고 분석됩니다.
현대의 빅데이터 환경에서는 두 종류의 데이터를 모두 활용하여 더 심층적인 인사이트를 도출하는 것이 중요합니다
[데이터 소스의 유형과 내용]
유형
|
내용
|
|
정형 데이터
|
업무처리 , 매매거래. 로그데이터, 시계열 데이터
|
|
비정형 데이터
|
일반
|
소셜미디어, 고객서비스,품질보증, 이벤트, 이메일, 자유형식 텍스트
|
센서 데이터
|
온도,QR코드, RFID,GPS
|
|
새로운 데이터 유형
|
매핑과 GPS, 오디오, 정지화상/비디오
|
[데이터 소스 구분]
구분
|
상태
|
||
위치
|
내부 데이터
|
데이터베이스, 파일관리 시스템
|
|
와부 데이터
|
파일,멀티미디어,스트리밍
|
||
미디어
|
텍스트,오디오,비디오,이미지, 복합형
|
||
상태
|
아날로그
|
||
디지털
|
비정형 데이터를 정형 데이터로 변환하는 과정은 데이터의 구조화 과정으로, 이를 통해 비정형 데이터에서 필요한 정보를 추출하고 분석하기 쉽게 변환할 수 있습니다. 이 과정은 다양한 방법과 도구를 통해 수행될 수 있습니다.
비정형 데이터를 정형 데이터로 변환하는 방법
- 텍스트 데이터 처리
- 텍스트 마이닝: 문서, 이메일, 소셜 미디어 포스트와 같은 텍스트 데이터를 분석하여 키워드, 주제, 감정 등의 정보를 추출합니다.
- 자연어 처리(NLP): 텍스트에서 명사, 동사, 감정 등의 주요 요소를 식별하고 이를 표 형식의 데이터로 변환합니다.
- 예시: 고객 리뷰를 분석하여 긍정적, 중립적, 부정적 감정으로 분류하고 이를 데이터베이스에 저장합니다.
- 이미지 데이터 처리
- 이미지 분석: 이미지에서 특정 객체, 텍스트, 패턴 등을 인식하여 이를 정형 데이터로 변환합니다.
- OCR(광학 문자 인식): 이미지 내 텍스트를 추출하여 정형 데이터로 변환합니다.
- 예시: 스캔된 영수증 이미지를 분석하여 상품명, 가격, 날짜 등의 정보를 추출하고 이를 엑셀 또는 데이터베이스에 저장합니다.
- 오디오/비디오 데이터 처리
- 음성 인식: 오디오 데이터를 텍스트로 변환한 후 이를 정형화된 데이터로 구조화합니다.
- 비디오 분석: 비디오에서 얼굴 인식, 객체 탐지 등을 통해 구조화된 데이터를 생성합니다.
- 예시: 고객 서비스 통화 내용을 텍스트로 변환하고, 통화 내용에서 키워드를 추출하여 대화 주제와 감정 분석을 통해 정형 데이터로 저장합니다.
- 로그 데이터 처리
- 로그 파싱(Log Parsing): 로그 파일에서 중요한 필드를 추출하여 구조화된 데이터베이스에 저장합니다.
- 정규 표현식(Regex): 비정형 로그 데이터에서 특정 패턴을 추출하여 구조화합니다.
- 예시: 웹 서버 로그에서 IP 주소, 요청 시간, 요청 URL 등을 추출하여 이를 데이터베이스 테이블에 저장합니다.
- 소셜 미디어 데이터 처리
- 소셜 미디어 분석 도구 사용: 해시태그, 좋아요 수, 댓글 등을 추출하여 이를 구조화된 형태로 저장합니다.
- 예시: 특정 해시태그를 포함하는 트윗을 수집하고, 트윗 내용, 작성자, 작성 시간 등의 정보를 추출하여 테이블 형식으로 저장합니다.
구체적인 예시
예시 1: 고객 리뷰 분석
- 비정형 데이터: 고객이 온라인 쇼핑몰에 남긴 텍스트 리뷰
- 변환 과정:
- 리뷰 텍스트에서 감정 분석을 통해 긍정, 부정, 중립으로 분류
- 리뷰에서 특정 키워드(예: "배송", "품질", "가격")를 추출
- 분석 결과를 테이블로 정리 (예: 리뷰 ID, 감정, 주요 키워드, 리뷰 길이)
- 정형 데이터 결과:리뷰 ID감정주요 키워드리뷰 길이(단어 수)
12345 긍정적 배송, 품질 20 67890 부정적 가격, 반품 35
예시 2: 이미지 데이터 처리
- 비정형 데이터: 상품 스캔 이미지
- 변환 과정:
- OCR 기술을 사용하여 이미지에서 상품명, 가격, 바코드 등을 텍스트로 추출
- 추출된 데이터를 정형화된 테이블로 저장
- 정형 데이터 결과:상품명가격바코드
청바지 50,000원 123456789012 운동화 80,000원 987654321098
이러한 방법들을 통해 비정형 데이터를 정형 데이터로 변환하면, 데이터의 분석과 활용이 훨씬 더 효율적이고 용이해집니다.
기획은 검정색입니다.
"졸업 가운의 색이 검정인 이유는 검정이 성취와 권력의 색이기 때문입니다."
질문 환영합니다. 댓글 남겨주세요.
thinkhub
728x90
'빅데이터' 카테고리의 다른 글
[빅데이터] BI를 위한 빅데이터 분석 기법 (0) | 2024.08.24 |
---|---|
[빅데이터] 데이터 R분석 쉽게 이해하기 (0) | 2024.08.23 |
[빅데이터] 빅데이터 분석 기술 (1) | 2024.08.23 |
[빅데이터] 로그수집기/크롤링/센싱/RSS 정의 (1) | 2024.08.22 |