国产三级精品久久三级国专区,综合久久综合,天天尻,天天干天天做天天操,在线观看免费福利,51毛片,a一级毛片

您的位置:首頁(yè)>

【速看料】人大與字節跳動(dòng)聯(lián)合突破:短鏈條思維顯著(zhù)提升AI視覺(jué)推理

2026-01-07 16:29:53    來(lái)源:科技行者

由中國人民大學(xué)和字節跳動(dòng)種子團隊聯(lián)合開(kāi)展的這項研究,于2025年11月發(fā)表在計算機視覺(jué)領(lǐng)域的重要期刊上,論文編號為arXiv:2511.22586v1。這項研究深入探討了不同思維鏈條訓練方式如何影響視覺(jué)語(yǔ)言模型在視覺(jué)推理任務(wù)中的泛化能力,揭示了一個(gè)頗為意外的發(fā)現:在訓練AI進(jìn)行視覺(jué)推理時(shí),"短而精"的思維鏈條往往比"長(cháng)而詳"的推理過(guò)程更有效。

想要理解這項研究的意義,可以把AI的視覺(jué)推理能力想象成學(xué)習解迷宮的過(guò)程。傳統觀(guān)念認為,讓AI詳細描述每一步的思考過(guò)程——就像一個(gè)人在迷宮中邊走邊自言自語(yǔ)"現在我面前有三條路,左邊看起來(lái)是死胡同,右邊可能通向出口"——這樣的詳細推理應該讓AI學(xué)得更好。然而,研究團隊發(fā)現,簡(jiǎn)潔而直接的思維訓練方式,就像只告訴AI關(guān)鍵的轉彎點(diǎn)和最終路徑,反而能讓它在面對新迷宮時(shí)表現得更出色。


(資料圖片僅供參考)

這項研究的核心創(chuàng )新在于系統性地比較了三種不同的思維鏈條訓練方法:語(yǔ)言思維鏈(用文字描述推理過(guò)程)、定位思維鏈(用坐標標記關(guān)鍵位置)和視覺(jué)思維鏈(直接在圖像上做標記)。更重要的是,他們還發(fā)現了"最少定位信息"的訓練方式——只保留最關(guān)鍵的空間信息——竟然能達到最好的泛化效果。這就好比教孩子騎自行車(chē)時(shí),與其詳細解釋每個(gè)動(dòng)作的原理和細節,不如直接展示幾個(gè)關(guān)鍵姿勢,讓孩子自己摸索出平衡感。

研究團隊選擇了迷宮導航這個(gè)經(jīng)典的視覺(jué)推理任務(wù)作為實(shí)驗平臺,這個(gè)選擇頗具匠心。迷宮任務(wù)完全依賴(lài)視覺(jué)信息進(jìn)行推理,不受外部知識干擾,難度可以通過(guò)調整迷宮大小精確控制,而且目前的視覺(jué)語(yǔ)言模型在這類(lèi)任務(wù)上表現還比較薄弱,為研究提供了理想的測試環(huán)境。他們使用了目前性能優(yōu)秀的Qwen2.5-VL-7B模型作為基礎,采用了先進(jìn)行監督學(xué)習再用強化學(xué)習優(yōu)化的訓練策略。

一、三種思維鏈條的較量:誰(shuí)是真正的贏(yíng)家

在這場(chǎng)思維方式的比較中,研究團隊精心設計了三種截然不同的訓練方法。第一種是語(yǔ)言思維鏈,就像我們平時(shí)思考問(wèn)題時(shí)的內心獨白,AI會(huì )用文字詳細描述自己的推理過(guò)程。比如在解迷宮時(shí),它會(huì )說(shuō)"從起點(diǎn)開(kāi)始,我只能向西走,然后我有兩個(gè)選擇:繼續向西還是向南,考慮到目標在下方,向南可能是更好的選擇"。這種方法的優(yōu)勢在于推理過(guò)程清晰透明,就像一位老師在黑板上一步步演示解題過(guò)程。

第二種是定位思維鏈,它將推理過(guò)程轉化為空間坐標的序列。在迷宮任務(wù)中,這種方法會(huì )將每個(gè)關(guān)鍵位置用具體的坐標表示,比如"從起點(diǎn)[452,59]出發(fā),下一步移動(dòng)到[359,59]"。這種方法的獨特之處在于它將抽象的推理過(guò)程轉化為具體的空間信息,讓AI能夠建立起語(yǔ)言推理和視覺(jué)空間之間的直接聯(lián)系。

第三種是視覺(jué)思維鏈,這是最接近人類(lèi)直覺(jué)思維的方法。AI不僅會(huì )生成推理文本,還會(huì )在圖像上直接進(jìn)行操作——畫(huà)線(xiàn)標記路徑、圈出重要區域、裁剪關(guān)鍵部分。這就像我們在地圖上用筆畫(huà)出路線(xiàn)一樣,將思維過(guò)程直接體現在視覺(jué)空間中。這種方法最大的特點(diǎn)是實(shí)現了真正的多模態(tài)推理,思考過(guò)程在文字和圖像之間來(lái)回切換。

然而,實(shí)驗結果卻出人意料。雖然視覺(jué)思維鏈在訓練初期確實(shí)展現出更快的收斂速度,仿佛有了"開(kāi)掛"的優(yōu)勢,但最終的性能天花板卻并沒(méi)有比其他方法高出多少。這就像三個(gè)學(xué)生用不同方法學(xué)數學(xué),雖然有人起步更快,但最終的考試成績(jì)卻相差不大。更令人驚訝的是,當研究團隊深入分析訓練動(dòng)態(tài)時(shí)發(fā)現,視覺(jué)思維鏈的優(yōu)勢主要體現在訓練效率上——它能讓模型更快地掌握任務(wù)要領(lǐng),但并不能突破性能的根本限制。

二、"短而精"的意外勝利

在進(jìn)一步的實(shí)驗中,研究團隊發(fā)現了一個(gè)更加令人驚喜的現象。他們設計了一種"最少定位信息"的訓練方式,這種方法幾乎完全去掉了詳細的推理解釋?zhuān)槐A糇罱K的路徑坐標序列。換句話(huà)說(shuō),就像教授駕駛技巧時(shí),不解釋每個(gè)動(dòng)作的理論依據,而是直接展示最優(yōu)路線(xiàn)。

這種極簡(jiǎn)方法的表現讓研究人員大吃一驚。不僅訓練收斂速度更快,最終的泛化能力也最強。當模型需要處理更大規模的迷宮時(shí),用"最少定位信息"訓練的AI表現得最為穩定和可靠。這個(gè)發(fā)現顛覆了"解釋越詳細,學(xué)習效果越好"的直覺(jué)認知。

為了理解這個(gè)現象,可以用學(xué)習駕駛來(lái)類(lèi)比。一個(gè)教練可以選擇詳細解釋每個(gè)操作的原理——"現在踩離合器是因為需要切斷發(fā)動(dòng)機動(dòng)力傳輸,然后移動(dòng)擋位桿是為了改變齒輪組合比例"——也可以選擇簡(jiǎn)潔直接的指導——"先踩離合,再掛檔,然后松離合加油門(mén)"。雖然詳細解釋看起來(lái)更有教育價(jià)值,但簡(jiǎn)潔指導往往能讓學(xué)員更快掌握核心技能,并且在面對各種不同路況時(shí)適應性更強。

研究團隊通過(guò)大量實(shí)驗證實(shí)了這個(gè)"短即是長(cháng)"的效應。他們發(fā)現,當AI的定位能力得到適當訓練和對齊后,它完全可以依靠?jì)仍诘目臻g表征進(jìn)行有效推理,而不需要依賴(lài)外部提供的詳細坐標系統。這就像一個(gè)熟練的司機,即使在沒(méi)有GPS詳細導航的情況下,也能憑借對道路網(wǎng)絡(luò )的內在理解找到目的地。

三、泛化能力的真正考驗

研究團隊設計了兩種不同的泛化測試來(lái)驗證各種訓練方法的真實(shí)效果。第一種是單尺度泛化測試,就像讓只在小型練習場(chǎng)學(xué)過(guò)車(chē)的新手去駕駛稍大一些的車(chē)輛。具體來(lái)說(shuō),他們在6×6規模的迷宮上訓練模型,然后測試其在7×7迷宮上的表現。第二種是跨尺度泛化測試,相當于讓在多種車(chē)型上都練習過(guò)的司機去駕駛完全不同規格的車(chē)輛,即在4×4到6×6的多種尺寸迷宮上訓練,然后在10×10的大型迷宮上測試。

結果再次證實(shí)了"最少定位信息"方法的優(yōu)勢。在兩種測試情況下,這種簡(jiǎn)潔訓練方法都展現出了最強的泛化能力。更有趣的是,視覺(jué)思維鏈方法雖然在訓練階段表現不錯,但在面對全新尺寸的迷宮時(shí),其性能提升很快就遇到了瓶頸,而簡(jiǎn)潔方法訓練的模型卻能持續保持高水準的表現。

這種現象背后的原理可以這樣理解:詳細的思維鏈條訓練雖然提供了豐富的信息,但也可能導致模型過(guò)度依賴(lài)特定的推理模式和視覺(jué)線(xiàn)索,就像一個(gè)總是依賴(lài)特定地標的司機,一旦環(huán)境發(fā)生變化就容易迷路。相反,簡(jiǎn)潔訓練方法迫使模型學(xué)習更加本質(zhì)和通用的推理規律,就像培養司機的方向感和路況判斷能力,使其能在各種環(huán)境中都游刃有余。

研究還發(fā)現,當模型的定位能力得到充分訓練后,它能夠內化并運用自己的潛在空間表征,而不再需要依賴(lài)外部明確指定的坐標系統。這種能力使得模型在面對新的視覺(jué)環(huán)境時(shí),能夠快速建立起內在的空間理解框架,從而實(shí)現更好的適應和泛化。

四、驗證發(fā)現:從迷宮到現實(shí)世界

為了驗證這些發(fā)現是否具有普遍適用性,研究團隊將實(shí)驗擴展到了其他視覺(jué)推理任務(wù)。他們選擇了兩個(gè)經(jīng)典的視覺(jué)游戲:冰湖游戲和拼圖游戲。在冰湖游戲中,AI需要在避開(kāi)陷阱的同時(shí)找到通向目標的路徑,而在拼圖游戲中,AI需要將九塊混亂的圖片重新組合成完整的圖像。

實(shí)驗結果令人鼓舞。在這些完全不同的任務(wù)中,"最少定位信息"的訓練方法同樣展現出了顯著(zhù)優(yōu)勢。特別是在拼圖任務(wù)中,這種方法將模型的成功率從幾乎為零提升到了超過(guò)70%,這種巨大的性能躍升充分證明了簡(jiǎn)潔訓練方法的威力。

研究團隊還在真實(shí)世界的視覺(jué)問(wèn)答任務(wù)上驗證了他們的發(fā)現。在V*基準測試和HR-Bench等標準數據集上,采用簡(jiǎn)潔方法訓練的模型在所有子任務(wù)中都達到了最佳性能,進(jìn)一步證實(shí)了"短即是長(cháng)"效應的普遍性和實(shí)用性。

這些跨任務(wù)的驗證結果表明,簡(jiǎn)潔而精準的訓練方式能夠幫助AI學(xué)習到更加本質(zhì)和可遷移的視覺(jué)推理能力。就像學(xué)習音樂(lè )時(shí),掌握了基本的音階和節拍規律,就能演奏各種不同風(fēng)格的曲目一樣,AI通過(guò)簡(jiǎn)潔訓練獲得的核心推理能力,能夠靈活應用到各種不同的視覺(jué)任務(wù)中。

五、理論洞察:為什么少即是多

這項研究最重要的理論貢獻在于揭示了視覺(jué)推理學(xué)習中的一個(gè)根本機制:當AI的定位能力得到充分訓練后,它主要依賴(lài)這種內在的空間理解能力進(jìn)行推理,而過(guò)多的外部監督信息反而可能成為干擾因素。

這個(gè)發(fā)現可以用"學(xué)自行車(chē)理論"來(lái)解釋。當我們教孩子騎自行車(chē)時(shí),如果過(guò)分關(guān)注每個(gè)細節——"現在左腳用力,右手稍微向左轉,身體重心前移2度"——孩子反而會(huì )被這些復雜指令搞糊涂。相反,如果我們只提供幾個(gè)關(guān)鍵指導點(diǎn)——"保持前進(jìn),感受平衡"——孩子更容易建立起內在的平衡感,這種直覺(jué)一旦形成,就能適應各種不同的騎行環(huán)境。

研究團隊發(fā)現,強化學(xué)習在這個(gè)過(guò)程中扮演了關(guān)鍵角色。在初始的監督學(xué)習階段,不同的思維鏈條方法確實(shí)會(huì )產(chǎn)生不同的效果,但經(jīng)過(guò)強化學(xué)習的進(jìn)一步優(yōu)化后,模型主要加強的是其已有的定位和推理能力,而不是依賴(lài)于復雜的外部推理鏈條。這就解釋了為什么簡(jiǎn)潔方法最終能夠勝出——它從一開(kāi)始就專(zhuān)注于培養模型的核心能力,而不是讓模型依賴(lài)輔助工具。

更深層次的理解是,視覺(jué)推理任務(wù)的本質(zhì)在于空間關(guān)系的理解和操作,而不在于語(yǔ)言描述的詳細程度。當AI真正掌握了空間推理的核心技能后,它就像一個(gè)經(jīng)驗豐富的建筑師,能夠在腦海中清晰地構建和操作三維模型,而不需要詳細的文字描述來(lái)輔助思考。

六、實(shí)際應用與未來(lái)展望

這項研究的實(shí)際意義遠超學(xué)術(shù)范疇,它為AI視覺(jué)推理系統的訓練提供了全新的設計思路。在實(shí)際應用中,這意味著(zhù)我們可以用更少的標注成本獲得更好的模型性能。傳統方法需要大量人工標注詳細的推理過(guò)程,不僅成本高昂,還容易引入人為偏差。而簡(jiǎn)潔訓練方法只需要標注關(guān)鍵的結果信息,大大降低了數據準備的復雜度和成本。

在自動(dòng)駕駛領(lǐng)域,這個(gè)發(fā)現尤其具有價(jià)值。當前的自動(dòng)駕駛系統往往需要復雜的決策解釋機制,但這項研究表明,專(zhuān)注于培養系統的核心空間理解能力,可能比構建復雜的推理解釋系統更加有效。這就像培養一個(gè)優(yōu)秀的司機,關(guān)鍵在于建立良好的路況感知和反應能力,而不是讓司機在每次轉彎時(shí)都詳細解釋選擇這個(gè)角度的理論依據。

在機器人導航和操作任務(wù)中,簡(jiǎn)潔訓練方法同樣能發(fā)揮重要作用。研究表明,讓機器人專(zhuān)注于學(xué)習環(huán)境中的關(guān)鍵空間標記和導航要點(diǎn),比讓它學(xué)習詳細的環(huán)境描述和決策過(guò)程更加有效。這種方法不僅能提高機器人在熟悉環(huán)境中的表現,更重要的是能增強其在新環(huán)境中的適應能力。

研究團隊也坦誠地指出了當前工作的局限性。他們的實(shí)驗主要集中在相對簡(jiǎn)單的視覺(jué)推理任務(wù)上,雖然已經(jīng)擴展到了一些真實(shí)世界的應用場(chǎng)景,但還需要在更廣泛的任務(wù)類(lèi)型上驗證這些發(fā)現的普適性。此外,"最少信息原則"的具體應用方式可能因任務(wù)而異,需要進(jìn)一步研究如何為不同類(lèi)型的視覺(jué)推理任務(wù)設計最優(yōu)的簡(jiǎn)潔訓練策略。

展望未來(lái),這項研究開(kāi)啟了AI訓練方法論的新思路。它提示我們,在追求AI系統性能提升時(shí),也許應該更多地關(guān)注如何培養AI的內在能力,而不是僅僅依賴(lài)外部信息的堆砌。這種"少即是多"的訓練哲學(xué),可能在其他AI領(lǐng)域也有廣闊的應用前景,值得研究者們進(jìn)一步探索和發(fā)展。

說(shuō)到底,這項研究告訴我們一個(gè)樸素而深刻的道理:有時(shí)候,最有效的學(xué)習方式不是記住所有細節,而是掌握核心要領(lǐng)。就像武俠小說(shuō)中常說(shuō)的"大道至簡(jiǎn)",AI的視覺(jué)推理能力提升也許并不需要復雜華麗的技巧,而是需要扎實(shí)的基本功和對本質(zhì)規律的深度理解。這個(gè)發(fā)現不僅為AI研究者提供了新的方向,也讓我們對人工智能的學(xué)習機制有了更深入的認識。對于想要深入了解技術(shù)細節的讀者,可以查閱原論文arXiv:2511.22586v1獲取完整的研究?jì)热荨?/p>

Q&A

Q1:什么是思維鏈條訓練方法?

A:思維鏈條訓練是讓AI在解決問(wèn)題時(shí)生成中間推理步驟的方法,就像人類(lèi)思考時(shí)的"自言自語(yǔ)"。研究比較了三種方式:用文字描述推理過(guò)程的語(yǔ)言思維鏈、用坐標標記位置的定位思維鏈,以及直接在圖像上做標記的視覺(jué)思維鏈。

Q2:為什么簡(jiǎn)潔的訓練方法比詳細的更有效?

A:研究發(fā)現,過(guò)多的詳細解釋可能讓AI過(guò)度依賴(lài)特定模式,就像總是依賴(lài)地標的司機在新環(huán)境中容易迷路。簡(jiǎn)潔方法迫使AI學(xué)習更本質(zhì)的推理規律,培養內在的空間理解能力,從而在面對新任務(wù)時(shí)適應性更強。

Q3:這個(gè)發(fā)現對實(shí)際AI應用有什么意義?

A:這項研究大大降低了AI訓練成本,因為只需標注關(guān)鍵結果而非詳細過(guò)程。在自動(dòng)駕駛、機器人導航等領(lǐng)域,專(zhuān)注培養核心空間理解能力比構建復雜推理解釋系統更有效,能讓AI在新環(huán)境中表現更好。

關(guān)鍵詞: 原理 機器人 字節跳動(dòng) 視覺(jué)推理 知名企業(yè)

相關(guān)閱讀