한 단어가 모든 것을 바꾼다

영어로 된 3,000단어짜리 논문을 붙여넣고, 마지막에 “요약해줘”라는 세 글자만 덧붙인다. 그러면 LLM은 전체 출력을 한국어로 생성한다. 입력의 99%는 영어인데, 단 1%의 한국어가 출력 언어 전체를 결정한 것이다.

이것은 단순한 기능이 아니다. 여기에는 토크나이저 설계, 크로스링구얼 임베딩, 어텐션 메커니즘, 인스트럭션 튜닝, 그리고 강화학습까지 복잡한 기술 스택이 겹겹이 쌓여 있다. 이 글에서는 LLM이 다국어 입력을 처리하는 메커니즘을 바닥부터 추적한다.

토크나이제이션: 불평등한 출발선

BPE가 한국어를 다루는 방식

LLM의 첫 관문은 토크나이제이션이다. 대부분의 현대 LLM은 BPE(Byte Pair Encoding) 또는 그 변형인 SentencePiece를 사용한다. BPE의 핵심 아이디어는 간단하다. 훈련 코퍼스에서 가장 빈번하게 등장하는 바이트 쌍을 반복적으로 병합하여 어휘를 구성하는 것이다.

문제는 여기서 시작된다. BPE 토크나이저의 훈련 코퍼스는 압도적으로 영어 중심이다. GPT-4의 훈련 데이터에서 영어가 차지하는 비중은 정확히 공개되지 않았지만, Common Crawl 기반의 대규모 코퍼스에서 영어는 대개 전체의 4060%를 차지한다. 한국어는 보통 13% 수준이다.

이 불균형은 어휘 할당(vocabulary allocation)에 직접적으로 반영된다.

영어: "understanding" → 1 token
한국어: "이해하다" → 2~3 tokens
한국어: "이해" → 1~2 tokens
일본어: "理解する" → 2~3 tokens

같은 의미를 전달하는데 필요한 토큰 수가 다르다. 이것을 **출산율(fertility rate)**이라고 부른다. 단어 하나를 표현하는 데 필요한 평균 토큰 수다. 영어는 대략 1.01.3 정도이고, 한국어는 2.03.5, 중국어는 1.5~2.5 수준이다.

실질적 비용

출산율의 차이는 단순한 기술적 수치가 아니다. 실질적 비용으로 이어진다.

컨텍스트 윈도우의 불평등: GPT-4의 128K 토큰 컨텍스트 윈도우에 영어 텍스트를 넣으면 약 96,000단어를 처리할 수 있다. 같은 윈도우에 한국어 텍스트를 넣으면? 약 36,000~50,000단어 수준이다. 같은 돈을 내고 절반의 정보를 처리하는 셈이다.

추론 비용: API 과금이 토큰 단위인 LLM 서비스에서, 한국어 사용자는 같은 내용에 대해 영어 사용자보다 1.5~2배 많은 비용을 지불한다. Petrov 등(2023)의 연구 “Language Model Tokenizers Introduce Unfairness Between Languages”는 이 불평등을 체계적으로 분석했다.

속도 저하: 토큰 수가 많으면 어텐션 연산량도 늘어난다. 셀프 어텐션의 계산 복잡도는 O(n²)이므로, 토큰 수가 2배가 되면 어텐션 연산은 4배로 증가한다.

Thunder-Tok과 한국어 특화 토크나이저

이 문제를 해결하려는 연구도 활발하다. 2025년에 발표된 Thunder-Tok은 한국어 텍스트의 토큰 수를 최소화하는 전용 토크나이저를 제안했다. 핵심 아이디어는 한국어 형태소 분석기의 출력을 BPE의 사전 토크나이제이션 단계에 통합하는 것이다. 한국어의 교착어적 특성 — “이해했었겠지만”처럼 어근에 여러 접사가 붙는 구조 — 을 BPE가 인식할 수 있도록 돕는다.

하지만 이런 언어별 최적화는 보편적 다국어 모델의 설계 철학과 충돌한다. 100개 이상의 언어를 지원하는 모델에서 각 언어에 최적화된 토크나이저를 적용하는 것은 비현실적이다. 결국 현재의 BPE 기반 토크나이저는 “영어에 가장 효율적이고, 나머지 언어에는 타협된” 시스템이다.

크로스링구얼 임베딩: 언어를 초월하는 의미 공간

공유된 의미 공간의 발견

토크나이저가 텍스트를 토큰으로 분해하면, 다음 단계는 임베딩이다. 여기서 놀라운 일이 일어난다. 다국어 LLM은 서로 다른 언어의 토큰들을 하나의 공유된 의미 공간에 매핑한다.

“dog”, “개”, “犬”, “chien” — 이 네 단어는 서로 다른 문자 체계로 표기되었지만, 임베딩 공간에서는 근접한 위치에 놓인다. 모델이 별도의 번역 과정 없이도 언어 간 의미를 연결할 수 있는 이유다.

이것은 의도적으로 설계된 것이 아니다. 대규모 다국어 코퍼스로 훈련하는 과정에서 자발적으로 출현한다. 위키피디아에서 같은 개념에 대한 영어 문서와 한국어 문서는 비슷한 맥락에서 비슷한 단어들을 사용한다. 프로그래밍 관련 문서에서는 언어에 관계없이 같은 코드 스니펫이 등장한다. 이런 통계적 규칙성이 모델 내부에 언어를 초월하는 의미 표상을 형성한다.

LLM은 영어로 ‘생각’한다

Wendler 등(2024)의 획기적인 논문 “Do Llamas Work in English?”는 다국어 LLM의 내부 작동을 해부했다. 연구진은 로짓 렌즈(logit lens) 기법을 사용하여 Llama-2 모델의 중간 레이어가 생성하는 은닉 표상을 분석했다. 결과는 놀라웠다.

다국어 LLM의 내부 처리는 세 단계로 나뉜다:

  1. 입력 공간 (초기 레이어): 입력 언어의 토큰을 처리한다. 한국어 입력이면 한국어 토큰의 특성이 유지된다.
  2. 개념 공간 (중간 레이어): 여기서 핵심적인 일이 일어난다. 입력 언어가 무엇이든, 중간 레이어의 은닉 상태를 디코딩하면 영어 토큰이 가장 높은 확률로 나온다. 모델이 일본어 입력을 처리하는 도중에도, 중간 레이어에서는 영어로 “생각”하고 있는 것이다.
  3. 출력 공간 (후기 레이어): 개념 공간의 표상이 최종 출력 언어로 변환된다. 한국어로 답해야 한다면, 여기서 한국어 토큰 공간으로 매핑된다.

이것은 영어 중심 훈련 데이터의 직접적 결과다. 영어가 훈련 데이터의 대부분을 차지하므로, 모델의 내부 표상은 자연스럽게 영어에 가장 잘 정렬된다. 다른 언어는 이 영어 중심의 “개념 공간”을 거쳐 처리되는 것이다.

흥미로운 대조 사례도 있다. 일본어에 특화된 Swallow 모델은 중간 레이어에서 영어와 일본어를 혼합적으로 사용하는 패턴을 보였다. 훈련 데이터의 언어 비율이 내부 표상의 “사고 언어”를 결정한다는 증거다.

언어 비의존적 중간 레이어

2025년의 Cross-Layer Transcoder 연구는 이 현상을 더 정밀하게 분석했다. 연구진은 다국어 LLM이 중간 레이어에서 일관되게 언어 비의존적(language-agnostic) 공유 공간을 형성한다는 것을 발견했다. 훈련 데이터에서 영어가 압도적이든 아니든, 중간 레이어에서는 모든 언어가 수렴한다. 이것은 “플라톤적 가설(Platonic hypothesis)“과 일치한다 — 모델이 충분히 크고 다양한 데이터로 훈련되면, 추상적이고 통합된 표상으로 수렴한다는 가설이다.

MoE(Mixture of Experts) 아키텍처에서도 같은 패턴이 관찰된다. Bandarkar와 Yang(2025)의 “Multilingual Routing in Mixture-of-Experts” 연구에 따르면, MoE 모델은 초기와 후기 레이어에서는 언어별로 다른 전문가를 라우팅하지만, 중간 레이어에서는 언어 간 상당한 라우팅 정렬을 보인다. 모델은 암묵적으로 언어 간에 유사한 전문가를 호출하는 법을 학습한 것이다.

언어 라우팅: 모델은 어떻게 출력 언어를 결정하는가

언어 특이적 뉴런의 발견

Tang 등(2024, ACL)의 연구 “Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models”는 LLM의 다국어 처리에서 핵심적인 역할을 하는 **언어 특이적 뉴런(language-specific neurons)**을 식별했다.

연구진은 **LAPE(Language Activation Probability Entropy)**라는 탐지 방법을 제안했다. 각 뉴런의 활성화 패턴을 언어별로 추적하여, 특정 언어에서만 강하게 활성화되는 뉴런을 찾아낸 것이다. LLaMA-2, BLOOM, Mistral 등에서 실험한 결과, 핵심 발견은 다음과 같다:

  • 언어 특이적 뉴런은 주로 모델의 상위 레이어와 하위 레이어에 집중되어 있다
  • 이 뉴런들은 전체의 작은 부분에 불과하지만, 특정 언어 처리 능력에 결정적이다
  • 이 뉴런들을 선택적으로 활성화/비활성화하면, 출력 언어를 조종할 수 있다

마지막 발견이 특히 중요하다. LLM의 출력 언어는 신비로운 “이해”가 아니라, 특정 뉴런의 활성화 패턴에 의해 결정된다는 뜻이다.

Sparse Autoencoder로 본 언어 특징

Anthropic의 연구진은 2024년 “Scaling Monosemanticity” 연구에서 Claude 3 Sonnet의 중간 레이어에서 수백만 개의 해석 가능한 특징(feature)을 추출했다. 이 특징들은 놀라울 정도로 추상적이고 다국어적이었다. 도시(샌프란시스코), 인물(로절린드 프랭클린), 원소(리튬) 같은 개념에 대응하는 특징들이 여러 언어에 걸쳐 반응했다.

2025년의 “Tracing the Thoughts of a Large Language Model” 연구는 이를 더 심화했다. Claude 3.5 Haiku에서 **어트리뷰션 그래프(attribution graph)**를 사용해 다국어 처리 회로를 추적한 결과:

  • “small의 반대는?”이라는 질문을 영어, 프랑스어, 중국어로 했을 때, 동일한 핵심 특징(작음, 반대, 큼의 개념)이 활성화되었다
  • 언어별 구성 요소와 언어 비의존적 구성 요소가 혼합되어 작동한다
  • 모델 크기가 클수록 공유 회로의 비중이 커진다: Claude 3.5 Haiku는 소형 모델 대비 2배 이상의 특징을 언어 간에 공유했다

이것은 LLM이 일종의 보편적 “사고의 언어(language of thought)“를 가지고 있음을 시사한다. 개별 언어는 이 보편적 개념 공간의 입출력 인터페이스에 불과한 것이다.

희소 차원의 언어 제어

2025년에 발표된 “Language Lives in Sparse Dimensions” 연구는 더 직접적인 증거를 제시한다. 연구진은 LLM의 활성화 공간에서 **언어 선택을 제어하는 희소한 차원(sparse dimensions)**을 식별했다. 이 차원들을 조작하면, 의미 내용은 유지하면서 출력 언어만 바꿀 수 있다.

# 의사 코드로 표현하면:
hidden_state = model.encode("Summarize the following article...")
hidden_state[language_dims] = korean_language_vector  # 언어 차원만 교체
output = model.decode(hidden_state)  # 한국어로 출력

이것이 바로 “요약해줘”라는 한국어 지시어가 하는 일의 본질이다. 한국어 토큰이 입력되면, 모델의 어텐션 메커니즘이 이 토큰에서 “한국어” 언어 신호를 추출하고, 그 신호가 출력 레이어의 언어 특이적 뉴런을 활성화시켜 전체 출력을 한국어로 전환한다.

인스트럭션 튜닝의 역할

하지만 언어 특이적 뉴런만으로는 “요약해줘”가 출력 언어를 결정하는 현상을 완전히 설명할 수 없다. 여기서 **인스트럭션 튜닝(instruction tuning)**이 등장한다.

현대 LLM은 사전 훈련 후, (지시, 응답) 쌍으로 구성된 데이터셋으로 추가 학습된다. 이 과정에서 모델은 핵심적인 패턴을 학습한다:

“사용자가 한국어로 지시하면, 한국어로 응답하라”

RLHF(Reinforcement Learning from Human Feedback) 과정에서 이 패턴이 더욱 강화된다. 인간 평가자가 “한국어 지시에 한국어로 답한 응답”에 높은 점수를 주면, 모델은 지시어의 언어를 출력 언어의 강력한 신호로 인식하게 된다.

이것은 프롬프트 엔지니어링에서도 확인할 수 있다. “Summarize in Korean”이라는 영어 지시도 한국어 출력을 유도하지만, “한국어로 요약해줘”가 훨씬 안정적으로 한국어 출력을 생성한다. 지시어의 언어 자체가 출력 언어를 결정하는 가장 강력한 신호이기 때문이다.

코드 스위칭: 언어가 뒤섞일 때

인간의 코드 스위칭, 기계의 코드 스위칭

이중 언어 화자는 자연스럽게 코드 스위칭을 한다. “오늘 meeting에서 새로운 feature에 대해 discuss했어”처럼 한국어와 영어를 섞어 쓰는 것이다. LLM도 이런 혼합 입력을 처리해야 한다.

극단적인 예를 생각해보자:

"What (무엇) est (is) the 날씨 (weather) en (in) Seoul hoy (today)?"

이 문장은 영어, 한국어, 프랑스어, 스페인어가 단어 단위로 뒤섞여 있다. 놀랍게도, 현대 LLM은 이 문장을 올바르게 해석한다. “서울의 오늘 날씨는 무엇인가?”로 이해하는 것이다.

이것이 가능한 이유는 앞서 설명한 크로스링구얼 임베딩 때문이다. 각 단어가 어떤 언어로 표기되었든, 임베딩 공간에서 같은 의미 영역에 매핑된다. 어텐션 메커니즘은 이 의미적 관계를 기반으로 단어 간 연결을 형성한다.

DeepSeek-R1의 “우발적 이중 언어 사용”

2025년 초, 흥미로운 현상이 관찰되었다. DeepSeek-R1과 QwQ-32B 같은 추론 특화 모델들이 chain-of-thought 과정에서 자발적으로 언어를 혼합하기 시작한 것이다. 영어로 질문했는데 중간 추론 과정에서 갑자기 중국어가 등장하거나, 중국어 질문에 영어로 사고하는 패턴이다.

이것은 의도된 기능이 아니다. RLVR(Reinforcement Learning with Verifiable Rewards) 훈련 전략의 부산물로 추정된다. 보상 함수가 최종 답의 정확도만 평가하고 추론 과정의 언어 일관성은 평가하지 않으니, 모델은 “가장 효율적으로 답에 도달하는 경로”를 선택한다 — 그것이 언어 경계를 넘나드는 것이라 해도.

이 현상은 LLM의 다국어 처리 본질을 드러낸다. 모델에게 언어는 목적이 아니라 도구다. 한국어와 영어는 서로 다른 체계가 아니라, 같은 개념 공간에 접근하는 서로 다른 인터페이스에 불과하다.

코드 스위칭 처리의 한계

물론 한계도 있다.

문법 충돌: 한국어는 SOV(주어-목적어-동사) 어순이고 영어는 SVO(주어-동사-목적어) 어순이다. 두 언어를 문장 내에서 섞으면, 모델이 어떤 문법 규칙을 따를지 혼란스러워진다.

동형이의어(homographs): “gift”는 영어에서 “선물”이지만 독일어에서는 “독(毒)“이다. 다국어 혼합 입력에서 이런 충돌이 발생하면 오해의 여지가 커진다.

희소 언어 조합: 영어-중국어, 영어-스페인어 같은 고자원 언어 간의 코드 스위칭은 비교적 잘 처리되지만, 스와힐리어-한국어 같은 조합은 훈련 데이터에 거의 없어 정확도가 급격히 낮아진다.

실험적 증거와 최신 연구

Anthropic의 “사고 추적” 연구 (2025)

Anthropic의 2025년 3월 연구 “On the Biology of a Large Language Model”은 가장 직접적인 증거를 제공한다. 연구진은 어트리뷰션 그래프를 사용하여 Claude 3.5 Haiku의 다국어 처리 회로를 시각화했다.

핵심 실험은 간단했다. “small의 반대는?”이라는 질문을 영어(“What is the opposite of small?”), 프랑스어(“Quel est le contraire de petit?”), 중국어(“‘小’的反义词是什么?”)로 각각 물어본 뒤, 내부 회로의 활성화 패턴을 비교한 것이다.

결과:

  • 세 언어 모두에서 “작음”의 개념 특징, “반대”의 관계 특징, “큼”의 개념 특징이 동일하게 활성화
  • 차이는 언어별 입력 파싱 단계와 출력 생성 단계에서만 나타남
  • 더 큰 모델일수록 이 공유 회로의 비중이 높아짐

이것은 LLM이 단순히 “번역을 잘하는 시스템”이 아님을 증명한다. 내부적으로 언어에 독립적인 개념적 사고를 수행하고, 입출력 단계에서만 특정 언어로 변환하는 것이다.

언어 뉴런의 조종 실험

Tang 등(2024)의 후속 연구는 더 도발적인 실험을 수행했다. 언어 특이적 뉴런을 인위적으로 조작하여 출력 언어를 제어한 것이다.

예를 들어, 영어 프롬프트를 입력하고 한국어 뉴런을 강제 활성화하면, 모델은 한국어로 응답한다. 반대로, 한국어 프롬프트를 입력하고 한국어 뉴런을 비활성화하면, 모델은 영어로 돌아간다.

이것은 “요약해줘”가 출력 언어를 바꾸는 메커니즘의 직접적 증거다. 한국어 토큰이 입력되면, 해당 토큰이 한국어 언어 뉴런을 활성화시키고, 이 활성화가 전체 출력 생성 과정에 전파되는 것이다.

2025년의 SAE 기반 다국어 분석

2025년에 발표된 “Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders” (ACL 2025)는 SAE(Sparse Autoencoder)를 사용하여 피드포워드 네트워크 내부의 언어 특이적 특징을 더 정밀하게 식별했다. SAE-LAPE라는 방법으로 특징의 단일언어성(monolinguality)을 정량화한 결과:

  • 언어 특이적 특징은 주로 중간에서 최종 레이어에 분포
  • 이 특징들은 해석 가능(interpretable)하며, 특정 언어의 문법적 패턴에 대응
  • 이 특징을 기반으로 한 **스티어링 벡터(steering vector)**를 사용하면, 의미 내용을 유지하면서 출력 언어를 전환할 수 있음

다국어 성능 격차의 현실

벤치마크가 말하는 것

다국어 LLM이 “모든 언어를 지원한다”고 해서, 모든 언어에서 동등한 성능을 보이는 것은 아니다. 2025년의 주요 벤치마크 연구들이 이를 보여준다.

MMLU-ProX (2025): 29개 언어에서 동일한 11,829개 문제를 평가한 대규모 벤치마크. 고자원 언어와 저자원 언어 사이에 최대 24.3%의 성능 격차가 발견되었다.

BenchMAX (2025): “모델 크기를 늘리면 다국어 성능이 일관되게 향상되지만, 영어와 다른 언어 사이의 격차는 지속된다”는 결론을 내렸다.

KMMLU: 한국어에 특화된 MMLU 변형. 한국 문화와 맥락에 맞는 문제들로 구성되어, 단순 번역 벤치마크로는 포착할 수 없는 실질적 한국어 능력을 측정한다.

한국어의 경우, 특정 작업 유형에서 성능이 급격히 떨어지는 현상이 보고되었다. Reliable Version Editing 같은 정밀한 지식 수정 작업에서 한국어 성능이 32~37%로 붕괴하는 반면, 독일어는 영어를 능가하는 경우도 있다. 이것은 토크나이제이션 불평등, 훈련 데이터 양, 언어 구조적 특성이 복합적으로 작용한 결과다.

프롬프트 엔지니어링: 실용적 함의

출력 언어 제어하기

위의 메커니즘을 이해하면, 다국어 프롬프트 엔지니어링이 더 정교해진다.

지시어의 언어가 가장 강력한 신호다. 영어로 “Reply in Korean”이라고 쓰는 것보다, “한국어로 답변하세요”라고 쓰는 것이 더 안정적이다. 모델의 언어 뉴런이 직접 활성화되기 때문이다.

시스템 프롬프트의 언어는 기본 언어를 설정한다. ChatGPT나 Claude의 시스템 프롬프트를 한국어로 작성하면, 사용자가 영어로 질문해도 한국어로 답하는 경향이 강해진다.

마지막 지시가 지배한다. 긴 영어 문서 뒤에 한국어 지시어를 붙이면 한국어 출력이 나오는 이유다. 트랜스포머의 어텐션 메커니즘에서, 최근 토큰일수록 더 강한 영향력을 가지는 경향이 있다 (recency bias).

성능 최적화 팁

복잡한 추론은 영어로: 모델의 “사고 언어”가 영어에 가깝다는 연구 결과를 고려하면, 복잡한 추론이 필요한 작업은 영어로 지시하고 결과만 한국어로 받는 것이 효과적일 수 있다.

Analyze the following data and identify the top 3 trends.
Then present your findings in Korean.
[데이터]

토큰 효율성 고려: 컨텍스트 윈도우가 제한적인 상황에서, 핵심 내용은 영어로 제공하고 지시만 한국어로 하면 더 많은 정보를 넣을 수 있다.

일관된 언어 유지: 코드 스위칭이 필요한 상황이 아니라면, 프롬프트 전체를 하나의 언어로 통일하는 것이 가장 안정적인 출력을 생성한다.

미래 방향: 언어 공평한 AI를 향해

현재의 한계

현재의 다국어 LLM은 본질적으로 영어 중심 시스템에 다국어 기능을 탑재한 것이다. 영어가 “기본 언어”이고 나머지는 “추가 언어”인 구조다. 이것은 토크나이저 설계, 훈련 데이터 구성, 내부 표상의 구조 모든 수준에서 확인된다.

개선 방향

균형 잡힌 훈련 데이터: 단순히 양을 늘리는 것이 아니라, 각 언어에서의 표현 품질과 다양성을 높이는 것이 중요하다. 한국어의 경우, 학술 논문, 법률 문서, 창작물 등 다양한 도메인의 고품질 데이터가 필요하다.

언어 공정 토크나이저: BPE의 근본적 한계를 인정하고, 바이트 레벨 토크나이제이션이나 언어별 적응형 어휘 등 새로운 접근이 연구되고 있다. Parity-Aware BPE(2025)는 언어 간 토크나이제이션 공정성을 명시적으로 최적화하는 방법을 제안했다.

언어별 적응형 MoE: MoE 아키텍처에서 특정 전문가를 특정 언어에 할당하는 방식이 연구되고 있다. MoE-LPR(2024)은 언어 사전 정보(language priors)를 라우팅 메커니즘에 통합하여, 새로운 언어를 기존 모델에 효율적으로 확장하는 방법을 제안했다.

해석 가능성 기반 개선: Anthropic의 어트리뷰션 그래프나 SAE 기반 분석은 모델의 다국어 처리 메커니즘을 “열어볼 수 있게” 만들었다. 이것은 단순한 학술적 호기심이 아니다. 어떤 언어에서 모델이 실패하는지, 왜 실패하는지를 정확히 진단할 수 있게 되면, 타겟팅된 개선이 가능해진다.

결론

“요약해줘”라는 세 글자가 LLM의 출력 언어를 바꾸는 현상은, 겉으로는 단순해 보이지만 그 안에는 현대 NLP의 핵심 기술들이 촘촘하게 얽혀 있다. BPE 토크나이저의 불평등한 어휘 할당, 크로스링구얼 임베딩의 공유 의미 공간, 영어를 피벗으로 사용하는 중간 레이어, 언어 특이적 뉴런의 선택적 활성화, 그리고 인스트럭션 튜닝과 RLHF를 통한 언어 선호 학습 — 이 모든 것이 합쳐져 하나의 매끄러운 사용자 경험을 만든다.

하지만 이 매끄러움 뒤에는 구조적 불평등이 있다. 영어 사용자와 한국어 사용자는 같은 모델을 사용하지만 같은 경험을 하지 않는다. 토큰 효율성, 컨텍스트 윈도우, 추론 정확도, API 비용 — 모든 측면에서 영어가 아닌 언어는 불리하다.

이것을 인식하는 것이 개선의 첫걸음이다. 그리고 최근의 해석 가능성 연구와 공정한 토크나이제이션 연구는, 더 평등한 다국어 AI가 기술적으로 불가능한 것이 아님을 보여주고 있다. 문제는 기술이 아니라 우선순위다.


참고 문헌

  • Wendler et al. (2024). “Do Llamas Work in English? On the Latent Language of Multilingual Transformers.” ACL 2024.
  • Tang et al. (2024). “Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models.” ACL 2024.
  • Anthropic (2024). “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.”
  • Anthropic (2025). “On the Biology of a Large Language Model.” Transformer Circuits.
  • Bandarkar & Yang (2025). “Multilingual Routing in Mixture-of-Experts.”
  • Petrov et al. (2023). “Language Model Tokenizers Introduce Unfairness Between Languages.”
  • “Language Lives in Sparse Dimensions.” (2025).
  • “Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders.” ACL 2025.