분류 전체보기(19)
-
|Perch| 4편. 운영·관측 — "장애가 나도 답변은 나가야 한다"
KB 검색이 죽거나 DeepSeek이 타임아웃이거나 OpenAI가 흔들려도, 사용자에게 "AI가 망가졌다"가 보이면 안 된다. 부분 응답이라도 나가야 한다. 그리고 우리는 무엇이 잘못되고 있는지 실시간으로 알아야 한다.축이번 편의 결정이 미친 방향비용유지 — 트레이싱·로깅 오버헤드는 미미속도유지 — graceful 우회는 정상 경로 영향 없음정확도↑/↓ 혼합 — 부분 응답 가능성과 신뢰 경계 모두 ↑결정 1. 부품 하나가 죽어도 전체가 안 죽는다문제KB(pgvector) 한 번 죽으면 모든 답변이 막히는 시스템은 운영 불가능하다. 펫 RAG 조회가 흔들려도, DeepSeek이 응답을 안 줘도 마찬가지다. 의존성 하나의 장애가 전체 응답 실패로 번지면 안 된다.선택지(a) 의존성 하나라도 실패하면 전체 요..
2026.05.03 -
|Perch| 3편. Vision 헬스체크 — "사진 한 장이 진단을 자처하지 않게 하는 법"
사용자가 새 사진을 올리면 LLM은 자신감 있게 답하려는 경향이 있다. 의료 도메인에서 과신(over-confidence)은 오답보다 위험하다. 사용자는 "AI가 80%로 정상이라고 했어요"를 그대로 진실로 받아들인다. 한 장의 사진은 한 장의 사진일 뿐인데, 모델이 그걸 진단처럼 말해버리면 우리는 사용자를 잘못된 안심으로 밀어 넣는 셈이다.축이번 편의 결정이 미친 방향비용↑ — Vision은 멀티모달 토큰 비용이 텍스트보다 높음속도↓ — 이미지 분석 P95는 텍스트 대비 길다정확도↑↑ — confidence 보정·이전 비교로 체감 신뢰성 상승결정 1. 답을 자유 서술이 아니라 JSON으로 받는다문제Vision 응답이 자유 서술이면 다운스트림이 모두 깨진다. 앱 UI는 severity를 색으로 표시해야 ..
2026.05.03 -
|Perch| LLM 파이프라인 — "중국 사용자에게 같은 답을 줘선 안 된다"
GPT가 알려주는 조류 응급처치는 영어권 기준이 강하다. 중국 사용자에게는 그게 종종 부정확하다. 不粘锅(테플론 코팅 팬) 위험이나 云南白药(중국 가정 상비 외상약) 같은 현지 응급약, 鸟友圈(중국 새 사육자 커뮤니티)에서 공유되는 처치법 — 이런 정보는 GPT 학습 데이터에 빈약하다. 그렇다고 모든 질문을 더 비싼 모델로 돌릴 순 없다. 누구의 어떤 질문에 LLM 콜을 몇 번 쓸 것인가 — 이게 2편의 갈등이다.축이번 편의 결정이 미친 방향비용혼합 — disease만 비싼 모델, 중국어만 듀얼 LLM. 평균 비용은 절감속도유지 — DeepSeek 호출은 GPT와 병렬, 직렬화 안 함정확도↑↑ — 의료 카테고리 정확도, 중국 문화권 정확도 모두 ↑결정 1. DeepSeek 듀얼 LLM — 중국어 쿼리만 ..
2026.05.03 -
|Perch| RAG 파이프라인 — "300개 의학 문서를 0.X초 안에 정확히 찾아내기"
Perch는 한국·영어·중국어 사용자에게 같은 정답을 줘야 한다. 그런데 단순 의미검색(임베딩 — 문장의 뜻을 숫자로 바꾼 표현 — 으로 비교)은 언어가 다르면 의미가 같아도 유사도가 떨어진다. "我的鹦鹉拔自己的羽毛"와 "feather plucking"이 다른 청크에 매칭되는 순간, 두 사용자는 사실상 다른 답을 받는다.이 편의 트릴레마:축이번 편의 결정이 미친 방향비용↑ — 매 쿼리당 LLM 콜 1회(HyDE) 추가속도↓ — HyDE로 +1초, 단 병렬화로 일부 회수정확도↑↑ — 다국어 검색 정확도 ↑, 키워드 보너스로 정확 매칭 ↑지식베이스는 287개 마크다운 파일(EN+ZH)을 청킹해 2,843 청크(EN 2,306 / ZH 537)로 만든다. 상위 카테고리는 diseases 826, behavio..
2026.05.03 -
초거대 언어 모델(LLM) 압축 Compressing Large LanguageModels
목차초거대 언어 모델(LLM)의 현황과 한계LLM 압축의 3대 기법PTQ vs QAT: 양자화의 두 가지 접근법PTQ 기법 상세QAT 기법 상세: EfficientQATPEFT와 LoRAQLoRA와 QA-LoRA결론 및 요약1. 초거대 언어 모델(LLM)의 현황과 한계1.1 LLM의 놀라운 성능최근 언어 모델은 자연어 처리 분야에서 비약적인 발전을 이루었습니다. 주요 응용 분야:코드 생성 (Code Generation)텍스트 요약 (Text Summarization)대화형 챗봇 (Chat)번역 (Translation)콘텐츠 생성 (Content Generation)1.2 LLM의 심각한 부작용대표적인 대규모 모델: OPT-175B, LLaMA-65B, LLaMA2-70B주요 부작용:막대한 저장 공간(메모..
2026.01.30 -
Breaking Scaling Law: “크게”에서 “똑똑하게/싸게”로 — Distillation로 가는 길
0) 왜 지금 이 주제가 뜨는가: LLM “크기 경쟁”의 다음 라운드 LLM은 한동안 “크면 대체로 더 좋다”가 경험칙처럼 작동했습니다. 파라미터가 커질수록 추론, 이해, 일반화가 좋아지는 경향이 있었고 , 그 결과 기업/연구 모두 “스케일 업”에 집중하는 arms race가 만들어졌습니다. 하지만 제품 관점에서 보면, 100B+는 “최고 성능”을 주는 대신 비용/지연/인프라 요구가 폭발합니다. 그래서 최근 흐름은 단순히 더 큰 모델을 만드는 것에서, 같은(혹은 비슷한) 품질을 더 작은 비용으로 달성하는 쪽으로 무게가 이동합니다. 이때 핵심 키워드가 Distillation(지식 증류) 입니다. 1) 스케일링 법칙(Scaling Laws): 왜 “예측 가능한 개선”이 가능했나1.1 스케일링 법칙의..
2026.01.27