4 月 18 日消息,小米大模型團(tuán)隊(duì)剛剛宣布提出了一種具有方向感知的對(duì)角蛇形掃描自回歸圖像生成框架(DAR,diagonal snake-likeorder),有效地確保相鄰索引的 token 在空間上緊密相鄰。
相對(duì)于傳統(tǒng)的逐行生成方式,它可以沿著圖像的對(duì)角線、像蛇一樣靈活地生成每個(gè)像素,比傳統(tǒng)方法更自然,也更接近人類繪畫(huà)時(shí)的直覺(jué)。
小米大模型團(tuán)隊(duì)表示,DAR 在 256×256 的 ImageNet 基準(zhǔn)測(cè)試中取得了 1.37 的 FID 分?jǐn)?shù),刷新了當(dāng)前同類技術(shù)的最好成績(jī)(SoTA)。
小米官方表示將進(jìn)一步支持更靈活的多種分辨率圖像生成。鑒于本方法與 LLM 的訓(xùn)練和推理方式高度兼容,小米大模型團(tuán)隊(duì)還將持續(xù)探索更加統(tǒng)一的多模態(tài)理解與生成技術(shù)方案。