你的位置:开云·kaiyun体育(中国)官方网站 登录入口 > 新闻 > 开云体育成为勾通学术与产业之间的桥梁-开云·kaiyun体育(中国)官方网站 登录入口

开云体育成为勾通学术与产业之间的桥梁-开云·kaiyun体育(中国)官方网站 登录入口

发布日期:2026-04-06 05:05    点击次数:129

新闻

AI 的新进展通常开云体育,东谈主才动态也更加剧磅。 新年第一则大牛东谈主事动向,激发业内关爱。 许主洪,IEEE Fellow,新加坡管制大学终生汲引,被曝加盟阿里。 许主洪是谁?1998 级清华策画机系本科,硕博毕业于港华文,谷歌学术五万引大佬。 多篇对于多模态预磨真金不怕火论文,久了影响了业内大模子研发,阿里 Qwen、谷歌 RT-2 都曾援用过其究诘恶果。 产业界,他曾担任大家最大企业软件厂商 Salesforce 集团副总裁、亚洲究诘院首创院长,从 0 到 1 搭建了 Salesfo

详情

开云体育成为勾通学术与产业之间的桥梁-开云·kaiyun体育(中国)官方网站 登录入口

AI 的新进展通常开云体育,东谈主才动态也更加剧磅。

新年第一则大牛东谈主事动向,激发业内关爱。

许主洪,IEEE Fellow,新加坡管制大学终生汲引,被曝加盟阿里。

许主洪是谁?1998 级清华策画机系本科,硕博毕业于港华文,谷歌学术五万引大佬。

多篇对于多模态预磨真金不怕火论文,久了影响了业内大模子研发,阿里 Qwen、谷歌 RT-2 都曾援用过其究诘恶果。

产业界,他曾担任大家最大企业软件厂商 Salesforce 集团副总裁、亚洲究诘院首创院长,从 0 到 1 搭建了 Salesforce 亚洲东谈主工智能究诘体系。

咫尺,阿里方面还是阐明。他将出任阿里集团副总裁,向阿里 AI To C 业务负责东谈主吴嘉讲述,专注于 AI To C 业务的多模态基础模子及 Agents 联系基础究诘与愚弄科罚有斟酌。

谁是许主洪?

在加盟阿里之前,他曾在工业界和学术界均领有超 20 年教养,曾在新加坡南洋理工大学、新加坡管制大学担任汲引。

究诘场所包括机器学习的基础究诘和东谈主工智能多个领域的愚弄究诘,包括多媒体信息检索、策画机视觉、大数据分析、酬酢媒体、智能收集安全、策画金融和聪惠城市等。

谷歌学术高傲,其发表 300 余篇东谈主工智能顶级学术论文,被引五万余次,2020 年于今被引近四万次。

2019 年当选为 IEEE Fellow,褪色年当选的还有驰名大佬、CMU 汲引邢波。

时期回到 1998 年,他来到清华大学策画机纪念书,本科毕业赶赴港华文攻读硕博。

2007 年他来到了新加坡南洋理工大学。时间他负责开源了一个机器学习库 LIBOL,内部有一巨额经典和先进的在线学习算法,用于科罚大畛域机器学习任务,知足各式新兴大数据挖掘愚弄的需求。

能够看到的是,从那时候运转,他就还是在深入想考勾通技艺到愚弄之间这一桥梁。

随后他去到新加坡管制大学,2020 年获终生教职。

转换点在2019 年,他重视遴荐踏入工业界,将本身技艺蕴蓄信得过融入进产业愚弄当中去。

他的实战场是大家最大企业软件厂商 Salesforce,匡助他们补皆 AI 基础究诘与愚弄这一板块。

他主导始创了多个行业先河的东谈主工智能技俩和居品,包括不限于多模态系列模子 BLIP、代码生成神器 CodeGen、通用 CRM 助手 Einstein GPT。

(CRM 是客户关系管制软件系统。Einstein GPT 营救包括 Slack、销售、管事、营销、商务和愚弄要领构建器)

另一个实战场是 2023 年,乘着大模子的技艺飞扬,他创办了 AI 初创公司 HyperGAI。

时间发布了多款多模态基础模子,特质是在不增多策画资本的情况下,杀青面前全国顶尖模子的水平。

在 GPT-4V 和 Gemini Pro 等大谈话模子都在专注于文本确当下,他们在多模态清楚和生成上头得到了不少突破,何况有很强的愚弄属性在内部。

比如像 HPT 1.5 端侧多模态模子,唯有 4B 大小,性能却优于那时微软新推出的 Phi-3-Vision(4B)多模态模子,并在多项基准测试中达到了 GPT-4V 的性能。

除了一些评测以外,模子还展示了迁徙端上的使用效果,能够识别图中的过失信息。

同期它也具备重大的推理才智,不错清楚并解答几何题。

学术领域,他凭借深厚的专科教诲和高出的究诘才智,发表了无边顶级学术论文,究诘恶果备受行业细心。

而在产业界,他将前沿技艺与实质愚弄紧密结合,得手鼓吹了 AI 多个领域的突破与落地,成为勾通学术与产业之间的桥梁。

久了影响多模态大模子研发

问题是有了这位顶尖 AI 科学家的加盟,对于阿里来说意味着什么?

在许主洪的专科擅长中,不难找到陈迹和谜底。

在他诸多论文中,有两篇 BLIP 系列论文最为细心,累计援用过万,其中 BLIP-2 恒久高居援用榜首。

更早之前还有技艺博主特意研读了他的恶果,暗意 GPT-4V 咫尺还像个黑匣子,而 BLIP 系列究诘不仅在各式视觉任务中发达出 SOTA 的性能,也可能是突破黑匣子的有用科罚有斟酌。

2023 年,各式大谈话模子刚刚兴起的时候,业内就还是在想考 LLM 表露的通用性和泛化才智,是否也能在视觉领域中杀青。

一个长入的视觉与谈话的框架,以及一个能将它们与 LLM 结合起来的框架,成为自可是然的技艺需求。

在无边更动次序中,BLIP 脱颖而出,它长入了视觉谈话任务的清楚与生成才智,并通过引入 Captioner-Filter 机制减少了监督文本的噪声,从而晋升模子的磨真金不怕火质地。

模子中枢在于独到的编码器 - 解码器夹杂架构(MED),该架构由视觉编码器、文本编码器和多模态编码器三部分构成。

每个模块都有联系的预磨真金不怕火指标,所有三个模块都左证这些预磨真金不怕火指标进行麇集磨真金不怕火。

这系列论文所在的谈话视觉智能一站式库 LAVIS,GitHub 进步万颗星,足以见其在业内的影响力。在这个库里还有各式 BLIP 的繁衍,比如 X-InstructBLIP、BLIP-Diffusion 等等。

而将时期拉回咫尺,跟着大模子发展的深入,多模态才智当作中枢属性,正在重塑着 AI 的愚弄范式。

追思来说,多模态让大模子从"单一功能器用"营救为"全知万能的 Agent ",其愚弄场景将不停地深入与拓宽。

中枢体咫尺两个方面:

其一,突破单模态局限,杀青更全面的默契与交互。多模态大模子通过和会文本、图像、音频、视频等异构数据,能够构建更接近东谈主类默契、近乎东谈主类水平的模子。

这种跨模态的语义对皆才智,使 AI 能清楚复杂场景中的隐含关联,比如识别图像中的隐喻或形貌抒发。像夸克、通义 APP 这种软件,在其智能器用、ChatBot 属性之上,集成更多多模态功能之后,就能杀青更多密致化功能,成为正常的 AI 万能助手。

更万般化更复杂的任务需求也将得到知足,多维之间的感诤友互,能够杀青 AI 在更多末端和硬件的落地,比如 AI 眼镜——据称是还是明确的阿里 AI to C 业务往日探索场所。虽然这些还仅仅单点功能或居品时势,多模态才智还在于更多愚弄场景的赋能。

是以第二个方面即是:拓展更多愚弄场景,开释行业坐蓐力。

比如医疗场景,多模态模子和会医学影像、基因数据和临床文本,营救个性化诊疗有斟酌生成。汲引场景,结合图文、视频和语音的多模态教学助手,可动态适配学生学习格调,提供千里浸式学习体验。

但上述场景对阿里来说不是运筹帷幄,而是还是部署落地的推论,何况还展现出"干中学"的技艺迭代后劲。

在夸克落地的业务中,其"灵知"学习大模子在考研数学题上的正确率和得分率还是并排 OpenAI 最新发布的 o1 模子,且远超国内其他模子。

是以了解了多模态才智与阿里 AI to C 业务布局的关系,简略也就看懂了许主洪的加盟。

这一次他要勾通的是 AI 多模态才智在 C 端居品、愚弄上的端对端闭环才智。

作念面向用户的 AI 技艺更动

大模子的发展阶梯,咫尺不错追思为两条,一个是面向大模子更高档智能水平的技艺演进,一个是面向愚弄和用户价值 / 体验的 AI 技艺更动。阿里 AI To C 业务尤其是夸克呈现出后者的特质。

于阿里而言,许主洪是东谈主工智能学术界的理解东谈主,在产业界一样领有丰富的愚弄研发和居品更动教养——尤其他不仅搭建了 Salesforce 亚洲东谈主工智能究诘体系,还将究诘恶果转换为实质愚弄——主导的多个 AI 更动技俩,将学术恶果转换为买卖愚弄,鼓吹了 AI 技艺产业化程度。

这种学术与产业的双重布景,使得许主洪不仅具备深厚的学术究诘功底,还领有将技艺转换为实质居品的丰富教养。这种才智即是阿里 AI To C 业务所需要的。

而以夸克为代表的阿里 AI To C 业务,在大模子才智上也一直正经实用性,强调以愚弄居品驱动大模子的研发、升级场所。

居品追求的不是"颠覆",而是拳拳到肉,科罚用户的中枢需求。夸克大模子的典型特质即是不卷参数和打榜,而是依据使用场景提供专科技艺才智,繁衍出通识、医疗、汲引等垂类模子。

这种对用户价值的中枢追求,亦然 AI 驱动之下,夸克迅猛崛起,成为国内增长最快、势头最猛、用户使用最多的 AI 万能助手——莫得之一。

△图源:量子位智库

要是说一年前还相对低调,高速增长下的夸克咫尺也摊牌了,夸克还是完成了品牌升级—— 2 亿东谈主的 AI 万能助手。

虽然,这亦然技艺、居品、场景等全场所成分驱动之下的扫尾,天时地利皆具备,咫尺阿里通盘 AI To C 业务要发力,即是时候在"东谈主和"——东谈主才上烽火东风。

许主洪的加盟可能还仅仅运转的运转。有音尘称,阿里 AI To C 业务正在组建顶级 AI 算法究诘和工程团队,招引巨额业内顶级东谈主才加盟。

而顶级科学家 + 顶尖团队,再加上高速前进的 AI 业务和场景,夸克也好,阿里 AI To C 业务布局也好,有契机把 AI 更动带入中国最老练的范式之下——技艺驱动居品,居品反哺技艺,何况在畛域最大的用户市集迭代之下,杀青概述实力的超车。

AI 不是迁徙互联网,但用户需乞降居品体验的价值线,大路至简,一以贯之,未尝改动。

参考畅达:

[ 1 ] https://raghul-719.medium.com/neural-networks-intuitions-17-blip-series-blip-blip-2-and-instruct-blip-papers-explanation-2378bc860d53

[ 2 ] https://github.com/salesforce/LAVIS

[ 3 ] https://www.hypergai.com/blog/hpt-1-5-edge-towards-multimodal-llms-for-edge-devices

[ 4 ] https://www.linkedin.com/in/steven-hoi-8712b41/?originalSubdomain=sg

[ 5 ] https://x.com/_akhaliq/status/1620246724672380930

[ 6 ] https://github.com/salesforce/BLIP

* 本文系量子位获授权刊载开云体育,不雅点仅为原作家所有。

新闻国际科技园2554号

www.liang-sin.com

Powered by 开云·kaiyun体育(中国)官方网站 登录入口 RSS地图 HTML地图


开云·kaiyun体育(中国)官方网站 登录入口-开云体育成为勾通学术与产业之间的桥梁-开云·kaiyun体育(中国)官方网站 登录入口