DALL-E가 처음 나온 후 이제 시간이 2년 정도 지난 것 같습니다. 최근 DALL-E3가 새로 나왔고, GPT-4o를 통해 DALL-E3의 생성형 AI를 사용할 수 있게 되었습니다. 당연히 그때 이후로 OpenAI의 생성형 AI 성능이 얼마나 좋아졌는지 궁금하지 않겠습니까? 그래서 준비했습니다. 그때와 지금, DALL-E는 얼마나 사진을 더 잘 뽑아내는가!?
작년 8월에 저는 DALL-E의 생성형 AI 성능을 테스트하여 소개한 바 있습니다. 당시에 아주 혹평을 했었고, AI는 아직 위협적이지 않다고 평가한 바 있습니다. (지금 보면 당시에 정신 나간 소리를 했네요.) 그때 생성에 사용했던 프롬프트(prompt)를 그대로 GPT-4o에 입력하여 똑같은 명령을 내려봤습니다.
결과물은 과연 어떤 차이를 보였을지 지금부터 확인해 보겠습니다! 순서는 당시 나열했던 그림 순서 그대로입니다.
1. 첫 번째 생성 이미지 : 로켓 달린 스포츠카
1) 입력 프롬프트
A nice sports car that has rocket missiles on its roof. (로켓 미사일이 지붕에 달린 멋진 스포츠카.)
※ DALL-E는 당시에 영어 프롬프트만 가능했을 겁니다. 그래서 그때 사용했던 영어 프롬프트를 그대로 사용하였습니다. 한글 프롬프트는 사용하지 않았습니다.
2) 사진 출력 결과
빛의 사실적 묘사나 차의 멋스러움과 사실성, 로켓 미사일의 ‘미사일스러움’ 등에 대한 표현력이 비교가 안 될 정도로 좋아졌습니다. 얼핏 봐서는 부자연스러움을 찾기 매우 어렵습니다.
혹시 안 해보셨다면 아래를 클릭하여 DALL-E3 웹페이지로 이동해 보세요!
2. 두 번째 생성 이미지 : 번개와 슈퍼히어로
1) 입력 프롬프트
A 3d render of a super hero riding a lightning with his arms crossed on his chest and looking ahead with confidence. (번개를 타고 있는 슈퍼 히어로의 3D 렌더링 이미지. 슈퍼 히어로는 가슴에 팔짱을 끼고 앞을 자신 있게 바라보고 있음.)
2) 사진 출력 결과
이 번 사진 역시 빛이 신체에서 반사되는 모양이나 속도감을 표현하기 위한 디테일요소들이 매우 뛰어납니다. 다만 제가 의도했던 포즈는 왼쪽 사진에 더 가깝긴 했습니다만. 그거야 프롬프트를 추가해서 충분히 보정 할 수 있는 부분입니다.
3. 세 번째 생성 이미지 : 대기권 밖 우주인
1) 입력 프롬프트
A photo of a mountain that its peak part is above the atmosphere and that an astronaut is walking on it. (대기권 위로 솟은 산의 사진. 산 정상에 우주비행사가 걸어가고 있음.)
2) 사진 출력 결과
산에 대한 묘사가 훨씬 구체적이네요. 둘 다 대기권 밖에 있는 느낌은 들지만, 오른쪽 사진의 디테일이 왼쪽 사진을 압도하고 있습니다.
4. 네 번째 생성 이미지 : 달에 반쯤 가린 해
1) 입력 프롬프트
A real photo of the sun that hides the half of itself behind the moon. (태양의 절반이 달 뒤에 숨겨져 있는 실제 사진.)
2) 사진 출력 결과
DALL-E로 그렸던 당시에 달이 태양을 반쯤 가리도록 지시했음에도 그게 안 됐었는데 이번에는 거의 다 가린 개기 일식을 보여주네요. 사진의 사실성만 따지면 DALL-E3보다는 DALL-E가 더 나은 것 같지만, 프롬프트를 더 자세히 기술하면 결과가 달라질 거라고 봅니다. 어쨌든 DALL-E3가 그린 사진이 더 멋있고 쓸만한 건 사실이네요.
5. 다섯 번째 생성 이미지 : 손잡고 바라보는 연
1) 입력 프롬프트
A photo of a pretty girl and a handsome guy looking at the eyes of the other, holding hands on the roof of a hotel that is right off a large river. (큰 강 바로 옆에 있는 호텔 옥상에서 서로의 눈을 바라보며 손을 잡고 있는 미모의 여성과 핸섬한 남자의 사진.)
2) 사진 출력 결과
사진을 보자마자 비교의 의미가 없을 정도입니다. 미녀와 미남을 몰랐던 DALL-E가 DALL-E3가 되면서 이쁘고 잘 생긴 것에 대한 개념을 잡았습니다. 좀비에 더 가까운 왼쪽 연인에 비해 오른쪽 사람들은 얼핏 보면 이상한 게 없습니다. 물론 자세히 보면 아직도 이목구비 중 눈과 눈동자의 표현이 다소 어색합니다. 특히 눈과 코는 가까운 모습보다 멀리 보이는 사람의 모습을 그릴 때 훨씬 더 부자연스럽습니다. 써보신 분들은 아시겠지만, 많이 나아졌음에도 불구하고, 손가락도 아직은 개선이 많이 필요합니다.
6. 결론
불과 1년도 안 됐는데, 괴물 같은 사람을 그리던 DALL-E가 사람다운 사람을 그리는 DALL-E3가 되었습니다. 사람, 물건, 자연환경, 빛을 표현하는 능력이 대단합니다. 특히 자연을 표현하는 사진이나 그림은 부자연스러움을 거의 찾아볼 수 없을 지경입니다. 이제 DALL-E4도 기다려봅니다.