'분류 전체보기' 카테고리의 글 목록

DE-Zoomcamp_week7_Stream

카테고리 없음 2026. 3. 9. 21:51

DataTalksClub의 Streaming Workshop을 바탕으로 실습한 내용을 정리한 글입니다.목차목차1. Streaming 파이프라인이란?2. Batch와 다른 점3. 언제 Streaming을 사용하는가?4. Kafka4.1 Kafka 아키텍처4.2 Redpanda4.3 Producer / Consumer / Topic이 존재하는 이유5. Flink5.1 Flink 아키텍처5.2 Flink로 할 수 있는 일5.3 Consumer에서 처리하지 않고 Flink를 쓰는 이유5.4 Flink vs Spark Streaming5.5 Watermark란 무엇인가6. 실습6.1 GitHub Codespaces6.2 실습에서 Redpanda를 사용한 이유6.3 uv add --dev jupyter를 사용한 이..

[DE-Zoomcamp] week6/ Batch Pipeline - spark

카테고리 없음 2026. 3. 2. 18:13

목차Apache Spark란?왜 Spark를 사용하는가?Spark 아키텍처Transformation vs ActionDataFrame & Spark SQLGroupBy 내부 작동 방식1. Apache Spark란?Apache Spark는 대규모 데이터를 분산 처리하기 위한 통합 분석 엔진입니다.한 줄 요약:"여러 대의 컴퓨터를 하나의 컴퓨터처럼 사용하여 TB~PB 규모 데이터를 처리하는 엔진"핵심 특성특성설명분산 처리데이터를 여러 노드에 나눠서 병렬 처리인메모리중간 결과를 메모리에 보관 → 디스크 I/O 최소화통합 엔진배치, 스트리밍, ML, 그래프 처리를 하나의 API로다국어Python, Scala, Java, R, SQL 지원Lazy Evaluation실행 계획을 먼저 최적화한 뒤 한번에 실행역사20..

[DE-Zoomcamp] week6/ Batch Pipeline

카테고리 없음 2026. 3. 2. 18:05

목차배치 vs 스트리밍 — 왜 나누는가?배치 프로세싱에 쓰이는 도구배치 프로세싱 핵심 방법론파이프라인 관리 — 에러, 로깅, 모니터링메달리온 아키텍처 — 데이터 단계별 활용배치 스케줄링과 유즈케이스1. 배치 vs 스트리밍 — 왜 나누는가?근본적 차이항목배치(Batch)스트리밍(Streaming)데이터 범위유한한 데이터셋 (bounded)무한한 데이터 흐름 (unbounded)처리 시점일정 주기로 모아서 처리데이터 도착 즉시 처리지연 시간분시간일밀리초초분복잡도상대적으로 단순상태 관리, 순서 보장 등 복잡비용리소스를 주기적으로만 사용항상 실행 → 비용 높음재처리쉬움 (같은 데이터 다시 처리)어려움 (오프셋 관리 필요)왜 나누는가?"모든 것을 실시간으로 처리하면 되지 않나?"→ 아니다. 대부분의 비즈니스 요구..

[DE-Zoomcamp] week5/ Data Platform - bruin

카테고리 없음 2026. 2. 25. 00:01

Bruin 데이터 플랫폼 가이드목차Bruin이란?Modern Data Stack설치 및 시작하기핵심 개념프로젝트 (Project)파이프라인 (Pipeline)에셋 (Assets)NYC Taxi 파이프라인 예제Materialization 전략주요 CLI 명령어참고 자료Bruin vs 다른 도구들 비교Airflow/Dagster/Kestra와의 차이점Bruin만의 차별화된 장점Bruin이란?Bruin은 엔드투엔드 데이터 플랫폼으로, 다음 기능들을 단일 도구로 통합합니다:데이터 수집 (Ingestion): 소스에서 데이터 웨어하우스로 데이터 추출데이터 변환 (Transformation): 정제, 모델링, 집계오케스트레이션 (Orchestration): 스케줄링 및 의존성 관리데이터 품질 (Data Qualit..

[DE-Zoomcamp] week4-1/ dbt 실습

카테고리 없음 2026. 2. 16. 21:52

로컬환경에서 dbt 시작하기```pythonuv inituv add duckdbuv run duckdb --versiondbt-duckdb 설치uv add dbt-duckdb설치한 버젼 확인uv run dbt--version```dbt 프로젝트 시작하기```bashuv run dbt init taxi_rides_ny13:07:24 Running with dbt=1.11.413:07:24Your new dbt project "taxi_rides_ny" was created!For more information on how to configure the profiles.yml file,please consult the dbt documentation here:https://docs.getdbt.com/doc..

[DE-Zoomcamp] week4/ Analytics Engineering

카테고리 없음 2026. 2. 16. 21:51

Analytics EngieeringAnalytics Engineering(AE) 은Raw Data → 신뢰 가능한 분석 데이터(Analytics-ready data) 로 전환하는 역할을 담당하는 데이터 직무/영역입니다.데이터 엔지니어링과 데이터 분석의 중간 지점SQL 기반으로 변환(Transformation), 모델링(Modeling), 품질 관리(Data Quality) 를 책임분석가 바로 사용할 수 있는 Fact / Dimension / Mart 레벨 데이터를 제공생성 배경(1) 기존 역할 분리의 한계과거 구조:Data Engineer: 수집·적재(ETL)Data Analyst: SQL로 직접 Raw 데이터 분석문제점:Raw 데이터 구조가 복잡 → 분석가 생산성 저하동일 지표가 사람마다 다르게 계산..

[DE-Zoomcamp] week3-2/ DataWarehouse - Google BigQuery

카테고리 없음 2026. 2. 9. 00:49

Google BigQuery 개념 정리1. BigQuery란 무엇인가BigQuery는 Google Cloud에서 제공하는Serverless 기반의 OLAP 전용 Data Warehouse 서비스이다.사용자는 서버를 관리하거나 DB 소프트웨어를 설치할 필요가 없음인프라 운영(확장성, 고가용성, 장애 대응)은 Google이 전담사용자는 데이터 모델링, 쿼리, 비용 관리에만 집중2. BigQuery의 핵심 특징2.1 Serverless Data Warehouse서버 프로비저닝 불필요클러스터 관리, 패치, 스케일링 자동 처리고가용성(High Availability) 기본 제공전통적인 DWH 대비 운영 부담이 거의 없음2.2 Compute & Storage 분리 구조BigQuery는 컴퓨트 엔진과 스토리지를 완전..

[DE-Zoomcamp] week3-1 / DataWarehouse - OLTP VS OLAP

카테고리 없음 2026. 2. 8. 23:23

OLTP vs OLAP1. OLTP (Online Transaction Processing)정의실시간 업무 처리를 위한 운영 시스템(주문, 결제, 재고 차감, 송금 등)데이터 모델 관점정규화 중심 (3NF)데이터 중복 최소화INSERT / UPDATE / DELETE 빈번트랜잭션 무결성(ACID) 최우선특징짧고 단순한 쿼리 위주ms 단위 응답속도 요구장애 발생 시 서비스에 즉각적 영향2. OLAP (Online Analytical Processing)정의의사결정과 분석을 위한 분석 시스템(성과 분석, 트렌드 파악, KPI, 리포트)데이터 모델 관점조회 성능 최우선분석 편의성 강조비정규화 모델 (Star / Snowflake Schema)UPDATE 거의 없음Append-only 성격의 데이터 적재특징대용..

ABOUT ME

건다이기록장 건다이기록장

티스토리툴바