aether studio

2025년 4월 14일 · 6 min read

텍스트는 손실 인터페이스다

이미지를 떠올리고, 말로 옮기는 순간 뭔가가 빠진다. AI 이미지 생성에서 '비주얼 디렉팅'이 필요한 이유.

Pinterest 홈 피드 — 뷰티, 패션, 음식, 아트, 라이프스타일 핀이 시각적 유사성으로 정렬된 모습

Vibe: 느낄 순 있는데, 말로는 안 되는 것.

same.energy라는 비주얼 검색엔진이 있다. CLIP 임베딩 기반인데, 쓰다가 뭔가 걸렸다. 같은 "dreamy art"를 검색해도 Pinterest는 물고기, 보트, 발레리나를 섞어서 보여준다. same.energy는 다르다. 한 가지 톤 — 고독한 인물, 몽환적 구도 — 에만 꽂힌다. 드리프트가 없다.

마음에 걸린 건 검색 정확도가 아니었다. '보는 것'과 '말하는 것' 사이에 이렇게까지 큰 틈이 있다는 게 보였기 때문이다.

보는 것과 말하는 것 사이

나는 비주얼 씽커다. 늘 그랬다. 근데 10대 때 영어권에서 살게 되면서, 내 것이 아닌 언어로 세상을 설명해야 했다. 영어는 표현의 폭을 넓혀줬지만, 정밀도는 앗아갔다. 뭘 봤는지는 설명할 수 있었다. 근데 그걸 보면서 뭘 느꼈는지는 전달이 안 됐다.

이 경험이 크리에이티브 도구에 대한 내 관점을 만들었다. 언어는 강력하다. 근데 손실이 있다.

회화, 사진, 영화 — 비주얼 아트에서 작가는 색, 리듬, 구도, 텍스처 같은 구체적인 테크닉으로 감정을 만든다. 근데 그 감정을 받아들이는 경험은 항상 주관적이다. 작가의 의도와 관객의 해석 사이엔 늘 빈 공간이 있고, 어떻게 보면 그 모호함이 예술의 본질이다.

문제는 텍스트로 AI 이미지를 컨트롤하려 할 때 시작된다. 말로 표현하기 어려운 걸, 말로 표현하라는 거니까.

미스매치

지금 text-to-image 모델에는 태생적인 문제가 있다. 머릿속에 이미지를 떠올린다. 그걸 텍스트로 옮긴다. 옮기는 순간 이미 뭔가 빠져 있다.

프롬프트를 잘 못 써서가 아니다. 인터페이스 자체가 틀렸다. 텍스트로 이미지를 조종하고 있다 — 언어 채널로 비주얼 시스템을 돌리고 있는 거다.

레퍼런스를 넣어도, ControlNet을 써도, 내가 원한 것나온 것 사이의 거리는 여전히 멀다. 모델이 별로여서가 아니다. 인터페이스가 맞지 않는 거다.

텍스트는 비주얼 의도에 대한 손실 인터페이스다.


그래서 만들었다

2025년 4월에 이 문제를 처음 글로 썼다. 그때는 질문이었다 — 언어를 거치지 않고 이미지를 디렉팅하는 인터페이스, 만들 수 있을까?

그리고 aether studio를 만들었다.

핵심은 간단하다. 텍스트가 손실 인터페이스라면, 인터페이스 자체를 비주얼로 바꿔야 한다. text-to-image가 아니라, image-to-image. 흐름 기반.

무한 캔버스 위에 레퍼런스를 깐다 — 포즈, 의상, 무드, 컬러 팔레트. 그리고 대화로 AI를 디렉팅한다: "더 무디하게," "줌인," "다른 앵글로." AI가 내가 보는 걸 같이 본다. 이미지의 배치 자체가, 말로는 안 되는 의도를 전달한다.

실제 예시를 보자. Spotify 커버를 레퍼런스에서 시작해 대화로 다듬어간 과정이다:

Spotify 플레이리스트 커버 — 첫 시도에서 최종 결과물까지의 과정 — 파이널
Spotify 플레이리스트 커버 — 첫 시도에서 최종 결과물까지의 과정 — 첫 시도
첫 시도파이널

레퍼런스에서 파이널까지 6단계. 매 단계가 이전 위에 쌓였다. 랜덤 결과를 뽑은 게 아니라, 디렉팅을 한 거다.

그리고 모든 결정 — 시도한 브랜치, 버린 방향, 다듬은 변형 — 이 그래프에 노드로 남는다. 프로세스에 기억이 생긴다. 아무것도 사라지지 않는다.

이걸 끝까지 밀어본 21장짜리 패션 룩북도 있다 — 뉴욕에서 서울까지, 세션 하나로. 도구가 맥락을 기억하니까, 프롬프트 하나하나가 그 전 것 위에 쌓였다.

텍스트는 손실이다. 캔버스는 아니다.