딥러닝 — 4강: 트랜스포머·생성 AI·강화학습

트랜스포머 구조

트랜스포머 (Transformer):
→ 아시와니 등 (Attention Is All You Need, 2017)
→ RNN의 순차 처리 한계 극복
→ 어텐션 메커니즘으로 긴 의존성 효율 처리
→ 병렬 처리 가능 → 대규모 학습 가능

셀프 어텐션 (Self-Attention):
→ 시퀀스 내 각 위치가 다른 모든 위치와 관계 계산
→ 쿼리(Q)·키(K)·밸류(V) 행렬
  Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) * V
→ 소프트맥스: 어텐션 가중치 (합이 1)
→ 스케일링 (sqrt(d_k)): 내적 값 폭발 방지

멀티헤드 어텐션 (Multi-Head Attention):
→ 여러 어텐션 헤드가 다른 부분 공간에서 관계 학습
→ 병렬로 h개 어텐션 → 연결 → 선형 변환
→ 다양한 종류의 관계를 동시에 포착

트랜스포머 구성:
→ 인코더: 입력 시퀀스 이해 (BERT 계열)
→ 디코더: 자기회귀 생성 (GPT 계열)
→ 인코더-디코더: 번역·요약 (T5·BART)
→ 포지셔널 인코딩: 순서 정보 주입 (sin·cos 함수)
→ 피드포워드 네트워크: 어텐션 후 비선형 변환
→ 레이어 정규화·잔차 연결 (Residual)

사전 훈련과 미세조정 (Pretraining·Fine-tuning):
→ 사전 훈련: 대규모 비레이블 데이터로 언어 구조 학습
→ 미세조정: 특정 과제 소규모 레이블 데이터로 추가 학습
→ 전이 학습의 힘: 사전 훈련 지식 이전

BERT (Bidirectional Encoder Representations from Transformers):
→ 구글, 2018년
→ 마스크드 언어 모델 (MLM): 마스킹된 토큰 예측
→ 다음 문장 예측 (NSP)
→ 양방향: 앞뒤 맥락 모두 활용
→ 응용: 분류·개체명 인식·질의응답·유사도

GPT 계열 (Generative Pre-trained Transformer):
→ OpenAI·자기회귀 언어 모델
→ 다음 토큰 예측으로 사전 훈련
→ GPT-4: 멀티모달·강력한 추론
→ 디코더만 사용·단방향 어텐션 (causal)

대형 언어 모델

LLM (Large Language Model):
→ 수십~수천억 파라미터·방대한 텍스트 학습
→ 이머전트 능력 (Emergent Abilities): 크기가 커지면 예상치 못한 능력 등장
  산술·추론·코드 생성·번역

스케일링 법칙 (Scaling Laws):
→ 친차일라 (Chinchilla, DeepMind 2022):
  최적 훈련을 위해 파라미터 수에 비례한 데이터 필요
  파라미터 수 = 데이터 토큰 수가 이상적
→ 컴퓨팅 최적 훈련

RLHF (Reinforcement Learning from Human Feedback):
→ 사전 훈련된 LLM → 인간 선호도로 정렬
→ 단계:
  1. 지도 미세조정 (SFT): 인간 데모 학습
  2. 보상 모델 (RM) 훈련: 인간이 출력 비교 평가
  3. PPO 강화학습: 보상 모델로 정책 최적화
→ InstructGPT·ChatGPT·Claude의 핵심 기술

프롬프트 엔지니어링:
→ 제로샷 (Zero-shot): 예시 없이 지시
→ 퓨샷 (Few-shot): 몇 가지 예시 제공
→ 사고 연쇄 (Chain-of-Thought, CoT):
  "Step by step으로 생각해봐" → 추론 향상
→ 생각 트리 (Tree-of-Thought): 여러 추론 경로 탐색
→ RAG (Retrieval Augmented Generation):
  외부 지식 검색 → LLM에 컨텍스트 주입 → 환각 감소

파인튜닝 효율화:
→ LoRA (Low-Rank Adaptation):
  원본 가중치 고정 → 저랭크 행렬 추가 학습
  파라미터 1~10%만 훈련 → 비슷한 성능
→ QLoRA: 4비트 양자화 + LoRA → 소비자 GPU 가능
→ 인스트럭션 튜닝: 지시어-응답 쌍으로 학습

LLM 한계:
→ 환각 (Hallucination): 거짓 정보를 자신 있게 생성
→ 지식 시한 (Knowledge Cutoff): 훈련 이후 정보 모름
→ 컨텍스트 길이 제한
→ 긴 꼬리 지식 취약
→ 추론 오류: 복잡한 수학·논리 실수

생성 AI

GAN (Generative Adversarial Networks):
→ 굿펠로우 (Goodfellow, 2014)
→ 생성자 (Generator)·판별자 (Discriminator) 경쟁
→ 생성자: 랜덤 노이즈 → 가짜 샘플 생성
→ 판별자: 진짜·가짜 구분
→ 균형: 생성자가 판별자를 속일 만큼 실제 같은 샘플 생성

GAN 응용:
→ 이미지 생성·변환 (CycleGAN: 사진 → 그림)
→ 딥페이크 (윤리 문제)
→ 데이터 증강·합성 의료 데이터

VAE (Variational Autoencoder):
→ 인코더: 입력 → 잠재 공간 분포 (평균·분산)
→ 잠재 변수 샘플링 + 재파라미터화 트릭
→ 디코더: 잠재 변수 → 재구성
→ 연속적이고 탐색 가능한 잠재 공간 학습

디퓨전 모델 (Diffusion Models):
→ 데이터에 노이즈를 점진적으로 추가 → 반대로 노이즈 제거 학습
→ 순방향 과정: 가우시안 노이즈 점진적 추가 (T 스텝)
→ 역방향 과정: 노이즈 예측 네트워크 (U-Net) 학습
→ DDPM (Denoising Diffusion Probabilistic Models, Ho 2020)
→ 고품질 이미지 생성에서 GAN 능가

주요 생성 AI 모델:
→ DALL-E·Midjourney·Stable Diffusion: 텍스트→이미지
→ Sora (OpenAI): 텍스트→동영상
→ Stable Audio·MusicGen: 텍스트→음악
→ GPT-4o·Claude: 멀티모달 언어-이미지 이해·생성

생성 AI의 윤리 문제:
→ 딥페이크: 허위 정보·개인 피해
→ 저작권: 훈련 데이터·생성물의 저작권 미확정
→ 바이어스: 훈련 데이터 편향 증폭
→ 환경 비용: 대규모 모델 훈련의 탄소 발자국
→ 노동 대체: 창작·지식 노동 자동화

강화학습

강화학습 (Reinforcement Learning):
→ 에이전트가 환경과 상호작용하며 누적 보상 극대화
→ 지도 학습과 달리 정답 레이블 불필요
→ 시행착오 + 지연된 보상

핵심 구성 요소:
→ 에이전트 (Agent): 행동 주체
→ 환경 (Environment): 상태·보상 제공
→ 상태 (State): 환경 관찰
→ 행동 (Action): 에이전트 선택
→ 보상 (Reward): 행동 후 피드백
→ 정책 (Policy): 상태 → 행동 매핑

마르코프 결정 과정 (MDP):
→ 상태·행동·전이 확률·보상·할인 인자
→ 마르코프 성질: 현재 상태가 미래 결정 (과거 불필요)
→ 가치 함수 V(s): 상태에서 기대 누적 보상
→ 행동 가치 함수 Q(s,a): 상태-행동 쌍의 기대 보상

Q-러닝 (Q-Learning):
→ 모델 없이 Q 함수 직접 학습 (Off-policy)
→ 벨만 방정식으로 Q값 반복 업데이트
→ 엡실론-그리디 탐색: 탐험 vs 활용 균형

DQN (Deep Q-Network):
→ 딥마인드 (2015): 아타리 게임 인간 수준
→ Q 함수를 신경망으로 근사
→ 경험 재플레이 (Experience Replay): 상관성 깨기
→ 타깃 네트워크: 학습 안정화

정책 경사 (Policy Gradient):
→ 정책 자체를 신경망으로 파라미터화·직접 최적화
→ REINFORCE·PPO (Proximal Policy Optimization)
→ Actor-Critic: 정책(Actor) + 가치함수(Critic)
→ PPO: OpenAI·ChatGPT RLHF에 사용

강화학습의 성공 사례:
→ AlphaGo·AlphaZero: 바둑·체스·쇼기 세계 최강
→ OpenAI Five: Dota 2 프로 팀 격파
→ AlphaStar: 스타크래프트 II 그랜드마스터
→ AlphaFold: 단백질 구조 예측 혁명
→ 로봇 제어·자율주행·자원 관리·추천 시스템

자주 묻는 질문

Q. ChatGPT 같은 LLM은 실제로 ‘이해’를 하는 건가요? A. 이 질문은 인지과학·철학적으로도 깊은 논쟁입니다. LLM이 하는 것은 방대한 텍스트에서 언어 패턴을 학습하여 주어진 맥락에서 다음 토큰을 예측하는 것입니다. 놀랍도록 복잡한 추론처럼 보이는 능력이 나타나지만, 이것이 인간이 경험하는 ‘이해’와 같은지는 불분명합니다. 중국어 방 논증(Searle)처럼, 규칙에 따라 올바른 기호를 조작하는 것이 의미를 이해하는 것과 같은가 하는 질문입니다. 실용적 관점에서는 많은 언어 과제에서 이해한 것처럼 행동하고 유용한 결과를 생성합니다. 그러나 인과 추론, 사실과 추측 구분, 일관된 세계 모델 유지 등에서 여전히 인간과 다른 한계를 보입니다. 확실한 것은 LLM이 새로운 종류의 지능이며, 인간 지능의 기준으로만 판단하는 것은 한계가 있다는 점입니다.

Q. 생성 AI로 만든 이미지·글의 저작권은 누구에게 있나요? A. 2024년 현재 전 세계적으로 법적 불확실성이 높은 영역입니다. 미국 저작권청은 생성 AI로만 만든 작품에는 저작권을 부여하지 않는다는 원칙을 세웠습니다(창작자는 인간이어야 함). 다만 인간이 프롬프트를 넘어 실질적인 창작 기여를 한 경우(예: AI 생성을 편집·선택하는 상당한 인간 기여)는 그 부분에 저작권이 인정될 수 있습니다. 훈련 데이터 측면에서는 Getty Images·작가·예술가들이 AI 기업을 저작권 침해로 소송 중입니다. 한국은 2023년 AI 저작권 가이드라인을 발표하여 AI 생성물은 저작물로 보호받지 않는다는 원칙을 밝혔습니다. 이 분야는 법·기술·창작 생태계 모두에서 빠르게 변화 중이며, 최신 판례와 정책 동향을 지속적으로 확인해야 합니다.