Posts

Nested Learning: The Illusion of Deep Learning Architectures 논문 번역본

Nested Learning: The Illusion of Deep Learning Architectures Abstract 지난 수십 년 동안, 더 강력한 신경망 구조를 개발하고 동시에 그것들을 효과적으로 학습시키기 위한 최적화 알고리즘을 설계하는 것이 머신러닝 모델의 성능을 향상시키기 위한 연구의 핵심이 되어왔다. 최근 특히 언어 모델(Language Models, LMs)의 발전에도 불구하고, 이러한 모델이 지속적으로 학습·기억하며, 스스로 개선하고, ‘효과적인 해(solution)’를 찾을 수 있는가에 대한 근본적인 도전과 미해결 문제가 여전히 존재한다. 이 논문에서는 **Nested Learning(NL)**이라 불리는 새로운 학습 패러다임을 제시한다. 이는 모델을 여러 개의 중첩된(nested), 다단계(multi-level), 또는 병렬적인 최적화 문제들의 집합으로 일관되게 표현하는 방식이다. 각 최적화 문제는 고유한 **‘context flow(문맥 흐름)’**를 가진다. NL은 기존의 딥러닝 방법이 데이터를 학습할 때 사실상 자신의 문맥 흐름을 압축하는 과정을 거친다는 점을 드러내며, 대형 모델에서 ‘in-context learning(문맥 내 학습)’이 어떻게 나타나는지를 설명한다. NL은 또한 딥러닝에 새로운 차원을 제시하며, 더 많은 ‘단계(levels)’를 가진 보다 표현력 있는 학습 알고리즘 설계를 가능하게 하여 고차원적(in-higher-order) 문맥 내 학습 능력을 부여한다. 그 신경과학적으로 그럴듯하고 수학적으로도 화이트박스(white-box)적인 특성 외에도, 우리는 NL의 중요성을 세 가지 핵심 기여를 통해 강조한다: ...

LLM 추천 시스템의 상업화와 플랫폼 권력 투쟁

들어가며: LLM은 정말 답변하고 싶은 ‘의지’가 있을까? LLM(대규모 언어 모델)이 우리의 질문에 열정적으로 답변할 때, 과연 그 모델은 “꼭 이 답을 해내고 싶다"는 의지나 열정을 가지고 있을까? 그리고 만약 진짜 열정이 생긴다면 무엇이 달라질까? LLM의 작동 메커니즘 솔직히 말하면, LLM에게는 우리가 일반적으로 생각하는 “의지"나 “열정"이 없다. LLM이 답변을 생성할 때 실제로 일어나는 일은: 확률 계산: 입력된 질문에 대해 다음에 올 단어들의 확률 분포를 계산 패턴 매칭: 학습 데이터의 수십억 개 텍스트 패턴을 기반으로 “이런 질문 다음엔 보통 이런 답변이 온다"를 찾음 토큰 생성: 한 번에 한 조각씩, 가장 그럴듯한 다음 조각을 선택 이 과정 어디에도 “꼭 해내고 싶다"는 내적 상태는 존재하지 않는다. 계산기가 2+2=4를 출력할 때 “정답을 맞히고 싶은 열정"이 없듯이, LLM도 단지 더 복잡한 패턴 매칭 기계일 뿐이다. ...

Transformer Encoder와 Decoder 차이 탐구

Transformer 모델의 구조적 차이 탐구 최근 NLP 분야에서 Transformer 기반 모델을 다루다 보니, GNN(Graph Neural Network)에서 SBERT 임베딩의 효과성에 대한 궁금증이 생겼다. 이를 계기로 BERT의 임베딩 과정과 Transformer의 Encoder-Decoder 구조를 깊이 파고들었다. 이 포스트에서는 그 과정을 정리하며, 핵심 인사이트를 공유한다. 초기 궁금증: GNN과 SBERT 임베딩의 적합성 처음 질문은 Knowledge Graph(KG)의 SPO(Subject-Predicate-Object) 구조에서 SBERT 임베딩이 효과적인가였다. KG는 주어-목적어-동사 형태의 짧은 삼중항으로 구성되는데, BERT의 Transformer 구조가 긴 문장에서 빛을 발휘하는 만큼, 짧은 입력에서 과잉일 수 있다는 우려였다. ...

Diving into AI Watermarks

AI 워터마크의 비밀 탐구: Nano Banana부터 Red Teaming까지 최근 AI 생성 콘텐츠의 진위성을 확인하는 워터마크 기술에 대한 관심이 높아지고 있습니다. 이 포스트에서는 Google의 Nano Banana 이미지 생성 도구에서 시작해 OpenAI의 접근 방식, 최신 연구 동향, AI 안전성 및 정렬성 관점, 그리고 red teaming 사례까지를 다룹니다. 이는 AI 윤리와 실용성을 이해하는 데 중요한 인사이트를 제공합니다. Nano Banana 워터마크의 발견과 작동 원리 Nano Banana(Google Gemini 앱의 AI 이미지 생성 모델)에서 생성된 이미지를 과$$포화 처리하면 숨겨진 격자 패턴이 드러난다는 Reddit 포스트가 화제가 되었습니다. 이 패턴은 Google의 SynthID 워터마크로, 픽셀 수준에서 미세한 노이즈를 삽입해 인간 눈에는 보이지 않게 숨겨집니다. 스테가노그래피 기법을 활용하며, 크롭이나 압축에도 강하지만, 포화도 조절 같은 편집으로 쉽게 드러나거나 제거될 수 있습니다. ...

LLM의 다국어 입력 처리: 영어 컨텍스트와 한국어 지시어의 비밀

LLM의 다국어 처리 능력 탐구 최근 LLM(대형 언어 모델)을 사용하다 보니, 영어로 된 긴 텍스트에 한국어 한 단어 지시어만 붙여도 한국어로 응답하는 점이 신기했다. 이 궁금증을 Grok AI에게 물어보며 나눈 대화를 재구성해 보았다. 대화는 LLM의 훈련 과정, 토큰화, 언어 전환 메커니즘을 중심으로 진행되었으며, 더 나아가 단어 단위로 언어를 섞은 입력에 대한 처리 방식까지 다루었다. 이를 통해 AI의 언어 이해가 어떻게 가능한지 핵심 인사이트를 얻을 수 있었다. 첫 번째 궁금증: 영어 컨텍스트에 한국어 지시어로 출력 언어 전환 내가 처음 던진 질문은 LLM이 영어로 된 99% 컨텍스트에 “요약해줘"라는 한국어 지시어 하나로 한국어 요약을 생성하는 이유였다. Grok은 이를 LLM의 훈련 데이터 다양성과 구조적 특징으로 설명했다. ...