RK | 企業(yè) | 備注 |
---|---|---|
1 | 華為 | 盤古CV |
2 | 百度 | 文心UFO 2.0、智能云一見5.0 |
3 | 商湯科技 | 日日新SenseNova V6 |
4 | 阿里巴巴 | Qwen2.5-VL系列 |
5 | 騰訊 | 混元T1-Vision |
6 | 字節(jié)跳動 | 豆包 |
7 | DeepSeek | DeepSeek-Vision |
8 | 云從科技 | 從容大模型 |
9 | 曠視科技 | vary |
10 | ??低?/td> | 觀瀾大模型 |
11 | 智譜AI | GLM-4V-Flash |
12 | 依圖科技 | 天問大模型 |
13 | 月之暗面 | Kimi k1 |
14 | MiniMax | MiniMax-VL-01 |
15 | 零一萬物 | Yi-Vision |
16 | 瑞為技術(shù) | 蜻豚視覺大模型 |
17 | 中國移動 | 九天智繪視覺大模型 |
18 | 格靈深瞳 | Unicom |
19 | 熵基科技 | BioCV視覺大模型 |
20 | 螢石網(wǎng)絡(luò) | 螢石藍海大模型 |
21 | 虹軟科技 | ArcMuse 2025 V1.1 |
22 | 當虹科技 | BlackEye |
23 | 階躍星辰 | Step-1o Vision |
24 | 大華股份 | 星漢大模型 |
25 | 面壁智能 | MiniCPM-V |
2025.06 DBC/CIW/CIS |
視覺革命的“黃金眼”
在人工智能的浪潮中,視覺大模型宛如科技星河里的“黃金眼”,以其敏銳的洞察力和強大的處理能力,開啟了視覺領(lǐng)域的一場深刻革命。2025年,這一革命正以前所未有的速度和規(guī)模推進,從智能安防到自動駕駛,從醫(yī)療影像到工業(yè)質(zhì)檢,視覺大模型正成為科技巨頭、初創(chuàng)企業(yè)乃至國家戰(zhàn)略布局的焦點。
政策護航,為視覺大模型產(chǎn)業(yè)筑牢根基
近年來,中國政府將人工智能視為國家戰(zhàn)略發(fā)展的重要方向,出臺了一系列針對性政策,為視覺大模型產(chǎn)業(yè)的發(fā)展保駕護航。在戰(zhàn)略規(guī)劃層面,《新一代人工智能發(fā)展規(guī)劃》將計算機視覺技術(shù)列為重點發(fā)展領(lǐng)域,明確提出要加強關(guān)鍵技術(shù)研發(fā)和應(yīng)用推廣,為產(chǎn)業(yè)發(fā)展指明了清晰的方向。
在產(chǎn)業(yè)扶持政策上,《關(guān)于加快新一代人工智能產(chǎn)業(yè)發(fā)展的若干政策》為符合條件的計算機視覺企業(yè)提供了稅收優(yōu)惠、研發(fā)費用加計扣除等實實在在的支持,降低了企業(yè)的運營成本,激發(fā)了企業(yè)的創(chuàng)新活力。同時,政府還積極推動人工智能產(chǎn)業(yè)園區(qū)建設(shè),為企業(yè)提供良好的發(fā)展環(huán)境和基礎(chǔ)設(shè)施。
人才培養(yǎng)和引進也是政策關(guān)注的重點?!蛾P(guān)于實施國家新一代人工智能創(chuàng)新發(fā)展戰(zhàn)略的意見》強調(diào)要加強人工智能學科建設(shè),培養(yǎng)高素質(zhì)的專業(yè)人才?!蛾P(guān)于進一步加強人工智能教育工作的意見》則提出要將人工智能教育納入國民教育體系,從基礎(chǔ)教育階段開始培養(yǎng)學生對人工智能的興趣和素養(yǎng),為產(chǎn)業(yè)發(fā)展儲備了源源不斷的人才。這些政策的實施,為視覺大模型產(chǎn)業(yè)的發(fā)展營造了良好的政策環(huán)境,奠定了堅實的基礎(chǔ)。
從通用范式跨越,至垂直賽道領(lǐng)航
2025年的中國視覺大模型市場已形成清晰的梯隊格局,頭部企業(yè)聚焦通用能力,而中小廠商則在細分領(lǐng)域?qū)で笸黄啤?/p>
華為盤古CV憑借30億參數(shù)的純視覺架構(gòu),成為工業(yè)質(zhì)檢領(lǐng)域的領(lǐng)跑者。其在比亞迪工廠的電路板缺陷檢測準確率超過99%,展現(xiàn)了國產(chǎn)化硬件的強大性能。商湯日日新SenseNova V6則以6000億參數(shù)的MoE架構(gòu),實現(xiàn)多模態(tài)能力的領(lǐng)先。其10分鐘長視頻解析技術(shù)已應(yīng)用于金融風控、醫(yī)療影像和自動駕駛場景。阿里Qwen2.5-VL憑借開源生態(tài)與電商場景的深度結(jié)合,成為AIGC領(lǐng)域的標桿,雙11期間,該模型生成3000萬條商品描述,人工審核通過率高達99.2%,彰顯其在商業(yè)落地上的成熟度。
眾多新興企業(yè)也在視覺大模型領(lǐng)域嶄露頭角,通過技術(shù)創(chuàng)新和差異化競爭,為產(chǎn)業(yè)注入了新的活力。
多模態(tài)融合,應(yīng)用創(chuàng)新加速度
技術(shù)融合成為產(chǎn)業(yè)發(fā)展的重要方向,多模態(tài)與生成式AI的深度耦合成為主流趨勢。多模態(tài)大模型不再局限于單一模態(tài)的處理,而是支持圖像、文本、語音的聯(lián)合推理,并逐步向視頻、3D點云擴展。在工業(yè)質(zhì)檢中,多模態(tài)大模型可同時處理圖像、溫度、振動數(shù)據(jù),實現(xiàn)設(shè)備故障的根因分析,大大提高了質(zhì)檢的準確性和效率。生成式AI在視覺領(lǐng)域的應(yīng)用也從內(nèi)容創(chuàng)作拓展到工業(yè)設(shè)計、醫(yī)學影像合成等領(lǐng)域。例如,汽車制造商利用生成式AI設(shè)計車身外觀,縮短了研發(fā)周期50%;醫(yī)學機構(gòu)通過生成對抗網(wǎng)絡(luò)(GAN)合成病理切片,解決了罕見病數(shù)據(jù)稀缺的問題,為醫(yī)學研究和臨床診斷提供了有力支持。
硬件創(chuàng)新也為視覺大模型的發(fā)展提供了新的動力。類腦芯片和光子計算等新興技術(shù)逐漸嶄露頭角。類腦芯片通過模擬人腦神經(jīng)元與突觸,實現(xiàn)了低功耗、高并發(fā)的視覺處理,2025年在邊緣設(shè)備中的滲透率已達15%,主要用于無人機、機器人等場景,提升了設(shè)備的智能化水平。光子計算利用光的并行性與低延遲特性,將視覺模型的推理速度提升100倍,能耗降低90%,目前已在安防監(jiān)控、自動駕駛等領(lǐng)域試點應(yīng)用,有望為視覺大模型的發(fā)展帶來新的突破。
結(jié)語 在應(yīng)用層面,視覺大模型將在更多領(lǐng)域得到廣泛應(yīng)用。在工業(yè)領(lǐng)域,視覺大模型將貫穿制造全流程,從檢測向智能裝配、柔性生產(chǎn)延伸,推動工業(yè)4.0的深入發(fā)展。通過實時監(jiān)測生產(chǎn)過程中的各個環(huán)節(jié),視覺大模型可以及時發(fā)現(xiàn)質(zhì)量問題并進行調(diào)整,提高生產(chǎn)效率和產(chǎn)品質(zhì)量。在醫(yī)療領(lǐng)域,視覺大模型將助力精準醫(yī)療的發(fā)展,為疾病的診斷和治療提供更準確的支持。通過對醫(yī)學影像的深度分析,視覺大模型可以發(fā)現(xiàn)早期病變,為患者爭取最佳的治療時機。在智慧城市領(lǐng)域,視覺大模型將與物聯(lián)網(wǎng)、5G等技術(shù)深度融合,實現(xiàn)城市的智能化管理和服務(wù)。通過實時監(jiān)測城市交通、環(huán)境、能源等方面的情況,視覺大模型可以優(yōu)化城市資源配置,提高城市的運行效率和生活的幸福指數(shù)。
視覺大模型不僅是算法的比拼,更是生態(tài)的競爭。誰能在技術(shù)、數(shù)據(jù)、場景三者間找到最佳平衡點,誰將定義下一個AI時代。
(文/墨之)