LLM-Writer + Code-Judge 분리 아키텍처를 통한 특허명세서 자동 생성 시스템
LLM 생성과 결정적 코드 검증을 분리하는 8단계 파이프라인. 46개 품질 게이트와 선행기술 거리 알고리즘으로 환각 유출률 0% 달성.

초록
특허명세서 작성은 기술적 정확성과 법적 견고성을 동시에 요구하며, 수동 작성 시 2~4주와 $3,000~10,000의 비용이 소요된다. 기존 LLM 기반 접근법은 생성과 검증을 동일 모델에서 수행하여 환각(hallucination)이 법적 문서에 유출되는 구조적 문제를 안고 있다. 본 논문은 DIO-ZENITH를 제시한다. 이 시스템은 LLM-Writer(Claude Sonnet 4, 온도 0.3)와 Code-Judge(46개 결정적 Rust 게이트, 12개 치명적)를 엄격히 분리하는 8단계 파이프라인이다. 치명적 게이트 실패 시 LLM에 구체적 피드백을 전달하여 최대 3회 재시도하며, 3회 내 95% 이상 수렴을 달성한다. 치명적 게이트를 통과하지 못한 환각은 0건이다. KIPO 전자출원 규격 준수 SVG 도면 자동 생성으로 ACL 2025 서베이가 지적한 도면-참조 일관성 공백을 해소한다. 시스템 규모는 Rust 32,636줄, 자동화 테스트 325개 이상이며, 실제 KIPO 출원이 수리되었다.
1. 서론
1.1 특허 작성 병목: 기술과 법의 동시 전문성 요구
특허명세서는 단일 문서에서 두 가지 상충하는 요구를 충족해야 한다. 기술적으로는 발명의 재현 가능한 기술과 알고리즘 정확성을, 법적으로는 청구항 전략, 선행기술 차별성, 관할권별 형식 규격을 동시에 만족해야 한다. 세계 지식재산권기구(WIPO)에 따르면 글로벌 특허 출원은 연 8% 증가 추세이나, 변리사 수용 능력은 정체 상태다. 결과적으로 출원 1건당 평균 2~4주 소요, 비용 $3,000~10,000이라는 병목이 발생한다.
이 병목의 핵심 원인은 명세서 작성이 세 가지 전문성의 교차점에 위치하기 때문이다. 첫째, 발명의 기술적 본질을 정확히 기술하는 기술 전문성. 둘째, 청구항 범위 최적화와 선행기술 회피를 설계하는 법적 전문성. 셋째, KIPO 전자출원 XML, SVG 도면 규격, 참조번호 체계 등 형식 전문성. 이 세 축의 동시 충족을 AI로 보조하는 것은 불가피한 방향이나, 법적 문서의 특성상 환각이나 비결정적 오류는 출원 거절이나 무효심판으로 직결된다.
1.2 선행 연구와 공백
2025~2026년 사이 특허 자동화 연구가 급증했으나, 생성과 검증의 분리를 구현한 시스템은 부재하다.
Xu et al. [1]은 다차원 품질 보증 프레임워크로 특허명세서를 평가하여 99.74% 균형 정확도를 달성했다. 그러나 이 시스템은 이미 작성된 명세서를 평가(evaluation)할 뿐, 명세서를 생성(generation)하지 않는다. PatentWriter [2]는 GPT-4와 LLaMA-3를 벤치마킹하여 ROUGE-L 52.8을 달성했으나, 이는 47%의 정보 불일치를 의미하며 품질 게이트가 전무하다. Zhang et al. [3]은 다단계 청구항 생성을 제안했으나, 청구항만 다루며 전체 명세서와 도면은 범위 밖이다. ACL 2025 서베이 [4]는 특허 NLP 분야를 포괄적으로 조사하며, 도면-참조 일관성(figure-reference consistency)을 가장 큰 미해결 공백으로 지적했다.
이 선행 연구들의 공통 한계는 명확하다. LLM을 생성과 검증 양쪽에 동시 사용하거나, 검증 자체가 부재하다. LLM은 본질적으로 비결정적이다. 동일 모델이 텍스트를 생성하면서 동시에 그 텍스트의 법적 정합성을 보장하는 것은 원리적으로 불가능한 최적화 대상이다.
1.3 DIO-ZENITH: 분리 아키텍처
본 논문은 DIO-ZENITH를 제시한다. 이 시스템은 엄격한 분리 원칙을 적용하여 LLM이 명세서 텍스트 100%를 생성하고, 46개 결정적 Rust 품질 게이트가 배타적으로 심판한다. 게이트 실패 시 LLM에 대상 피드백을 전달하여 최대 3회 재시도하는 수렴 루프를 형성한다. 이 아키텍처는 컴파일러 설계 원칙에서 영감을 받았다. 프론트엔드(생성)와 백엔드(최적화/검증)의 분리가 각각의 역할에 집중할 수 있게 하듯, LLM의 창의적 생성 능력과 코드의 결정적 검증 능력을 분리하여 양쪽 모두 최적화한다.
1.4 기여
본 논문의 기여는 다음 네 가지로 요약된다.
- C1: LLM-Writer + Code-Judge 분리 아키텍처 -- 생성과 검증의 관심사를 구조적으로 분리
- C2: 46개 결정적 품질 게이트(12개 치명적) + 피드백-재시도 수렴 루프 -- 3회 내 95% 이상 수렴
- C3: KIPO 규격 SVG 도면 자동 생성 + 자동 범례 -- ACL 2025 서베이가 지적한 도면-참조 공백 해소
- C4: 선행기술 거리(PA_DIST) 알고리즘 + 해자 방어 점수 -- 특허 방어력의 정량적 측정
2. 시스템 아키텍처
2.1 설계 원칙: 관심사의 분리
DIO-ZENITH의 핵심 설계 원칙은 관심사의 분리(Separation of Concerns)다. LLM은 유창하고 맥락에 적합한 텍스트 생성에 탁월하다. 코드는 결정적 규칙 검증에 탁월하다. 하나의 모델에 양쪽을 동시에 요구하면 불가능한 최적화 대상이 된다. 모델은 동시에 창의적이면서 경직적이어야 하는데, 이 두 속성은 근본적으로 상충한다. 분리가 이 긴장을 해소한다.
이 원칙은 컴파일러 설계에서 입증된 패턴이다. GCC/LLVM에서 프론트엔드(파싱, AST 생성)와 백엔드(최적화, 코드 생성)를 분리하여 각각 독립 진화시키듯, DIO-ZENITH는 생성 레이어(LLM)와 검증 레이어(Rust 코드)를 독립 구성 요소로 배치한다.
2.2 8단계 파이프라인
PH0 기술문서 분석: 발명 기술문서에서 발명의 명칭, 기술 분야, 핵심 알고리즘, 구성 요소를 구조적으로 추출한다. LLM이 비구조적 텍스트를 KIPO 분류 체계에 매핑하는 첫 단계다.
PH1 청구항 설계: 4개 이상의 독립항(장치/방법/시스템/기록매체)과 3:1 이상의 종속항 비율을 충족하는 청구항 구조를 설계한다. 독립항 범위 최적화와 종속항 세분화를 통해 방어 깊이를 확보한다.
PH2 공격/방어 시뮬레이션: 각 독립항에 대해 5개 이상의 무효화 벡터를 생성하고, 각 벡터에 대한 방어 논거를 구축한다. 이 단계는 명세서 작성 전에 청구항의 견고성을 사전 검증한다.
PH3 선행기술 거리 계산: TF-IDF 코사인 유사도 기반으로 청구항과 선행기술 참조 코퍼스 간 거리를 산출한다. 임계값 0.30 미만이면 충분한 차별성, 0.70 이상이면 유효성 위험으로 판단한다.
PH4 KIPO 명세서 작성 + SVG 도면 생성: 전체 명세서 본문, KIPO 전자출원 XML, SVG 도면을 생성한다. 도면은 구성 요소 추출, 인과 의존성 DAG, Sugiyama 계층 배치, 직교 간선 라우팅을 거쳐 KIPO 규격(흑백, 한국어 도면 제목, 참조번호 자동 생성)을 준수한다.
PH5 품질 검사: 형식 적합도 0.85 이상, 용어 일관성 0.90 이상을 포함한 다축 품질 검사를 수행한다. 46개 게이트 중 해당 단계의 게이트를 일괄 실행한다.
PH6 내부 용어 유출 방지: P13Guard가 600개 이상의 금지 용어(내부 코드명, 개발 약어 등)를 스캔하여 법적 문서에 부적절한 표현이 유출되는 것을 차단한다.
PH7 관할권 변환: KR(한국), US(미국), EP(유럽) 관할권별 변환을 수행한다. 청구항 형식, 용어, 형식 요건이 관할권마다 상이하므로 각각의 규칙 세트를 적용한다.
2.3 품질 게이트 아키텍처
46개 품질 게이트는 세 등급으로 분류된다.
| 등급 | 개수 | 동작 | 예시 | |------|------|------|------| | 치명적(Critical) | 12 | 파이프라인 차단, 재시도 트리거 | 청구항 구조 오류, 참조번호 불일치, KIPO XML 유효성 | | 중요(Important) | 20 | 경고 발행, 진행 허용 | 용어 일관성 미달, 도면 레이아웃 최적화 | | 정보(Informational) | 14 | 로그 기록만 | 문장 길이 권장, 스타일 제안 |
치명적 게이트의 핵심 특성: 순수 함수(pure function)다. 부작용 없음, 비결정성 없음, 감사 가능(auditable). 동일 입력에 대해 항상 동일 결과를 반환한다.
2.4 피드백-재시도 루프
수렴 루프의 동작 원리는 다음과 같다. LLM이 텍스트를 생성하면, 코드가 46개 게이트를 평가한다. 치명적 게이트가 실패하면 구체적 피드백을 포맷팅하여 LLM에 재프롬프트한다. 재시도 횟수가 3을 초과하면 파이프라인을 차단하고 인간 개입을 요청한다. 모든 게이트가 통과하면 다음 단계로 진행한다.
이 루프의 핵심은 피드백의 구체성이다. 단순히 "실패"를 전달하는 것이 아니라, 어떤 게이트가 왜 실패했는지, 어떤 부분을 수정해야 하는지를 구조적으로 포맷팅하여 LLM에 전달한다. 이 구체적 피드백이 3회 내 95% 이상 수렴의 핵심 요인이다.
3. 핵심 알고리즘
3.1 선행기술 거리 (PA_DIST)
PA_DIST는 청구항 텍스트와 선행기술 참조 코퍼스 간 거리를 정량적으로 측정한다. 구현은 647줄의 Rust 코드(pa_dist.rs)다.
알고리즘 절차는 네 단계다. 첫째, 청구항 텍스트를 토큰화한다. 둘째, TF-IDF 벡터화를 수행한다(2,048 차원). 셋째, 선행기술 참조 코퍼스에 대한 코사인 유사도를 계산한다. 넷째, 거리를 해석한다. 0.30 미만은 충분한 차별성, 0.30에서 0.50 사이는 개선 필요, 0.50에서 0.70 사이는 위험, 0.70 이상은 유효성 위험을 의미한다.
이 거리 지표는 PH3에서 자동 산출되어 명세서 작성자에게 청구항의 선행기술 대비 차별성 수준을 정량적으로 제공한다. 임계값 미달 시 청구항 재설계를 트리거한다.
3.2 해자 방어 점수 (Moat Defense Score)
해자 방어 점수는 특허의 전체 방어력을 0에서 10 사이의 점수로 정량화한다. 569줄의 Rust 코드(moat.rs)로 구현되었다.
5개 축으로 구성된다:
- A0 범위 비율(Scope Ratio): 독립항의 기술적 범위 대비 종속항 커버리지
- A1 선행기술 거리(PA Distance): PA_DIST 결과의 가중 평균
- A2 종속 깊이(Dependency Depth): 종속항 체인의 최대 깊이
- A3 기술 방어 계수(Technical Defense Factor): TDF = (R_func / P_alt) x D_inter. R_func는 기능 중복도, P_alt는 대안 경로 수, D_inter는 상호의존 밀도
- A4 QG41 보너스: 품질 게이트 41번 통과 시 추가 점수
최종 공식: Moat = sum(wi x Ai) x S. 범위는 0에서 10이다. 6점 이상은 강한 방어력을 의미한다.
3.3 KIPO 규격 SVG 도면 생성
도면 생성 모듈은 figure/ 디렉토리에 1,944줄의 Rust 코드로 구현되었다(types.rs, layout.rs, render.rs).
생성 절차는 네 단계다. 첫째, 명세서에서 도면 대상 구성 요소와 그 관계를 추출한다. 둘째, 구성 요소 간 데이터 흐름과 제어 흐름을 방향 비순환 그래프(DAG)로 모델링한다. 셋째, 교차 간선을 최소화하는 Sugiyama 계층 배치 알고리즘을 적용한다. 넷째, KIPO 규격에 적합한 직교 경로로 간선을 라우팅한다.
KIPO 규격 엄수 사항: 흑백 전용, 한국어 도면 제목(유니코드 대괄호 형식), 참조번호 자동 생성 및 범례 자동 부착, 190mm x 277mm 규격, 획 두께 0.5pt 이상.
이 자동 도면 생성이 ACL 2025 서베이 [4]에서 지적된 도면-참조 일관성 공백을 직접 해소한다. 참조번호가 명세서 본문과 도면에서 프로그래밍적으로 동기화되므로 불일치가 원천 차단된다.
4. 평가
4.1 시스템 규모
| 구성 요소 | 코드 줄 수(LOC) | 테스트 수 | |-----------|-----------------|-----------| | dio-zenith (메인 엔진) | 23,322 | 257 | | dio-zenith-slim (가드레일) | 9,314 | 68 | | 합계 | 32,636 | 325 |
4.2 수렴 분석
실제 출원 데이터에서 측정한 재시도 분포는 다음과 같다.
| 재시도 횟수 | 누적 수렴률 | |-------------|-------------| | 0회 (1차 통과) | 13% | | 1회 | 52% | | 2회 | 78% | | 3회 | 95% 이상 |
3회 재시도 후 치명적 게이트 차단율은 5% 미만이다. 차단 시 인간 검토가 개입하며, 이는 의도적 설계다.
4.3 기존 접근법 비교
| 지표 | GPT-4 직접 생성 | ClaimMaster | DIO-ZENITH | |------|-----------------|-------------|------------| | 품질 게이트 | 0개 | 5개 (수동) | 46개 (자동) | | 도면 생성 | 미지원 | 미지원 | KIPO SVG 지원 | | 환각 필터링 | 미지원 | 부분적 | 12개 치명적 게이트 | | 전체 명세서 | 부분적 | 템플릿 기반 | 8단계 완전 생성 | | 재시도 수렴 | 해당 없음 | 해당 없음 | 3회 내 95% 이상 | | KIPO XML 출력 | 미지원 | 미지원 | 지원 |
4.4 실세계 검증
DIO-ZENITH로 생성한 명세서가 대한민국 특허청(KIPO)에 실제 출원되어 수리되었다. KIPO 전자출원 형식을 완전히 준수하며, 처리 시간은 15~27분으로 수동 작성(2~4주) 대비 극적인 단축을 달성했다.
4.5 반사실 분석
Code-Judge를 사용하지 않았다면 어떤 결과가 나타났을지 분석한다.
품질 게이트 부재 시: PatentWriter 벤치마크 [2]에서 LLM 단독 ROUGE-L이 52.8, 즉 약 47% 정보 불일치를 보인 점을 근거로, 15~30%의 환각 유출률이 추정된다.
피드백-재시도 부재 시: 1차 통과율이 13%에 불과하므로, 재시도 메커니즘 없이는 약 40%의 치명적 게이트 실패가 영구화된다.
SVG 도면 생성 부재 시: ACL 2025 서베이 [4]가 지적한 도면-참조 일관성 공백이 그대로 잔존한다. 수동 도면 작성과 참조번호 동기화는 가장 오류가 빈발하는 영역이다.
5. 논의
5.1 분리가 작동하는 이유
LLM은 유창하고 맥락에 적합한 텍스트 생성에 탁월하다. 코드는 결정적 규칙 검증에 탁월하다. 양쪽을 하나의 모델에서 결합하면 불가능한 최적화 대상을 만든다. 모델은 동시에 창의적이면서 경직적이어야 하고, 유연하면서 결정적이어야 한다. 이 상충은 해결할 수 없다. 분리가 이 긴장을 근본적으로 해소한다.
소프트웨어 엔지니어링에서 관심사의 분리는 가장 기본적인 설계 원칙이다. 그러나 LLM 응용 분야에서는 아직 보편화되지 않았다. 대부분의 LLM 기반 도구는 생성과 검증을 동일 모델 내에서 수행한다. "자신이 쓴 글을 자신이 교정"하는 구조는 인간 세계에서도 효과가 제한적이다. LLM에서는 더욱 그러하다.
5.2 한계
본 시스템에는 다섯 가지 한계가 존재한다.
첫째, LLM 의존성이다. Claude Sonnet 4 API의 가용성과 비용에 종속된다. 다만 Code-Judge는 모델 독립적이므로, LLM 교체 시 게이트 로직은 변경이 불필요하다.
둘째, 도메인 특수성이다. 현재 한국 특허법(KIPO)에 최적화되어 있다. US/EP 변환 기능은 제공하나 KIPO 대비 검증 수준이 낮다.
셋째, 선행기술 검색의 한계다. PA_DIST는 TF-IDF 기반이므로, 어휘적으로 다르지만 의미적으로 유사한 선행기술을 놓칠 수 있다.
넷째, 사용자 연구 부재다. 정량적 지표는 존재하나 변리사 대상 공식 사용자 연구는 미실시 상태다.
다섯째, 도면의 한계다. SVG 도면은 구조적 블록 다이어그램만 지원하며, 사진이나 복잡한 기계도면은 범위 밖이다.
5.3 예상 질문 선제 대응
"이것은 단순히 LLM을 감싼 것 아닌가?" -- 46개 결정적 게이트, PA_DIST 알고리즘, 해자 방어 점수 산출, SVG 도면 생성은 모두 순수 Rust 코드(32,636줄)이며 LLM 의존성이 0이다. LLM은 텍스트 생성만 담당하고, 시스템의 품질 보장 메커니즘 전체는 결정적 코드에 의해 구동된다.
"95% 수렴은 100%가 아니다." -- 5% 실패는 인간 검토를 트리거한다. 이는 의도적 설계다. 법적 문서에서 인간 감독 없는 완전 자동화는 안전하지도, 바람직하지도 않다. 인간-루프-내(human-in-the-loop) 설계는 안전 장치다.
"파인튜닝 모델 대비 장점은?" -- DIO-ZENITH의 접근법은 모델 비종속적이다. Code-Judge는 어떤 LLM과도 작동한다. 파인튜닝은 생성 품질을 개선하고, 게이트는 검증 품질을 개선한다. 이 둘은 직교적(orthogonal)이므로 결합 가능하다.
5.4 향후 연구
네 가지 확장 방향을 제시한다. 첫째, PA_DIST에 의미 임베딩을 도입하여 TF-IDF를 문장 트랜스포머(sentence transformers)로 교체한다. 둘째, 특허 협력 조약(PCT) 기반 다관할권 동시 생성을 자동화한다. 셋째, 변리사 10인 이상 대상 공식 사용자 연구를 실시한다. 넷째, 품질 게이트 프레임워크를 오픈소스화하여 커뮤니티 검증과 확장을 가능하게 한다.
6. 결론
DIO-ZENITH는 특허명세서 자동 생성에서 생성(LLM)과 검증(결정적 코드)의 분리를 구현한 시스템이다. 46개 결정적 품질 게이트, 선행기술 거리 알고리즘, 해자 방어 점수, KIPO 규격 SVG 도면 자동 생성을 32,636줄의 Rust 코드로 구현하고, 325개 이상의 자동화 테스트와 실제 KIPO 출원으로 검증했다. 3회 재시도 내 95% 이상 수렴, 치명적 게이트 통과 환각 0건을 달성했다.
이 분리 원칙은 단순한 엔지니어링 최적화가 아니다. 비결정적 창의성에는 결정적 감독이 필요하다는 근본적 설계 원칙이다. 법적 문서 자동화를 넘어, LLM이 고위험 영역에서 신뢰성 있게 작동하기 위한 아키텍처 패턴으로서의 함의를 갖는다.
참고 문헌
[1] Xu et al., "Towards Automated Quality Assurance of Patent Specifications," arXiv:2510.25402, 2025.
[2] Chen et al., "PatentWriter: A Benchmarking Study for Patent Drafting with LLMs," arXiv:2507.22387, 2025.
[3] Zhang et al., "Adaptive Multi-Stage Patent Claim Generation," arXiv:2601.09120, 2026.
[4] ACL 2025, "A Survey on Patent Analysis: From NLP to Multimodal AI," arXiv:2404.08668, 2025.
[5] Springer, "Natural Language Processing in the Patent Domain: A Survey," AI Review, 2025.
[6] Lee et al., "Enriching Patent Claim Generation with European Patent Dataset," arXiv:2505.12568, 2025.
[7] PEDANTIC, "A Dataset for Automatic Patent Examination," arXiv:2505.21342, 2025.
[8] World Patent Information, "AI-Assisted Patent Drafting Tools: A Patent Landscape," 2025.