AI日报:阿里发布FLUX.1-Turbo-Alpha;苹果多模态MM1升级为MM1.5
发布时间:2024-10-15 01:45 浏览量:14
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:http://top.aibase.com/
1、阿里发布 FLUX.1-Turbo-Alpha:基于FLUX.1-dev、8步提炼Lora
阿里妈妈创意团队发布了基于FLUX.1-dev模型训练的FLUX.1-Turbo-Alpha,采用8步蒸馏Lora模型,多头判别器显著提高蒸馏质量,支持多种FLUX相关应用。推荐引导尺度设置为3.5,Lora尺度为1,未来将推出更低步数版本。模型可与Diffusers框架结合使用,通过几行代码加载模型生成高质量图像。训练过程在超过100万幅图像上进行,采用对抗训练方法,具备6.3以上美学评分,分辨率高于800。FLUX.1-Turbo-Alpha的推出推动了人工智能技术的普及与应用。
【AiBase提要:】
🌟 基于FLUX.1-dev,采用8步蒸馏和多头判别器,提升图像生成质量。
🖼️ 支持文本到图像生成及修复控制网,用户可轻松创建多种有趣场景。
📊 训练过程采用对抗训练,训练数据超过100万张图像,确保模型高质量输出。
详情链接:http://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha
2、告别繁琐对齐!F5-TTS 让文本转语音变得轻松自如!
最近,来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音(TTS)系统,名为 F5-TTS。这种系统的特别之处在于,它采用了一种无自回归的方法,结合了流匹配与扩散变换器(DiT),成功简化了传统 TTS 模型中的复杂步骤。
【AiBase 提要:】
🌟 F5-TTS 是一种新型无自回归文本到语音系统,简化了传统 TTS 模型的复杂性。
⚡ 该系统结合 ConvNeXt 和 DiT,提高文本与语音的对齐效果,提升合成质量。
🔒 研究团队关注伦理问题,建议引入水印和检测机制以防滥用。
项目入口:http://github.com/SWivid/F5-TTS
体验地址:http://huggingface.co/spaces/mrfakename/E2-F5-TTS
3、OPPO 文档 AI新功能曝光!支持苹果 iWork 格式转换、文档翻译、扫描文档等!
OPPO 官方今日发布了一条预热消息,宣布即将推出全新的文档应用。根据预热消息,这款应用将支持多项功能,包括“文件随心开”、“AI 随心帮写”、“格式随心转换”和“文档随心搜索”。
【AiBase 提要:】
📝 OPPO 即将推出全新文档应用,支持多项 AI 功能。
🔄 应用可进行苹果 iWork 格式转换,提升兼容性。
📄 提供文档扫描和翻译功能,优化文档处理体验。
4、蚂蚁CodeFuse IDE0.6版发布 支持编辑器诊断问题 AI 修复
蚂蚁CodeFuse IDE0.6版本发布,新增编辑器诊断问题AI修复功能和内敛补全特性,提升代码编写便捷性和效率。IDE支持主流编程语言,提供代码编写建议、问题修复等功能。
【AiBase提要:】
🚀 IDE新增编辑器诊断问题AI修复功能,开发者可通过悬停触发智能修复按钮解决错误信息。
⚙️ 优化代码智能补全体验,支持下拉补全和内敛补全同时出现,用户可通过Tab键快速采纳内敛补全。
💻 CodeFuse IDE基于蚂蚁自研大模型和OpenSumi框架开发,提供智能终端、单元测试生成等功能。
详情链接:http://github.com/codefuse-ai/codefuse-ide
5、苹果的 “多模态炼丹炉” 又升级!MM1.5增强文本密集、多图理解
苹果公司最近为其多模态人工智能模型MM1推出了重大更新,将其升级为MM1.5版本。这次升级不仅仅是简单的版本号变更,而是全方位的能力提升,使得模型在各个领域都展现出了更强大的性能。MM1.5的核心升级在于其创新的数据处理方法,包括高清晰度的OCR数据和合成图像描述的使用,以及优化的视觉指令微调数据混合。
【AiBase提要:】
🚀 MM1.5采用以数据为中心的训练方法,优化了训练数据集,在文字识别、图像理解和执行视觉指令等方面表现显著提升。
💡 MM1.5涵盖了从10亿到300亿参数的多个版本,包括密集型和专家混合(MoE)变体,即使是较小规模的模型也能达到令人印象深刻的性能水平。
🔍 MM1.5的能力提升主要体现在文本密集型图像理解、视觉指代和定位、多图像推理、视频理解以及移动UI理解等方面,拓展了应用场景。
详情链接:http://arxiv.org/pdf/2409.20566
6、合成数据有毒!Meta团队证实:1%数据就能让大模型完全崩溃
最近AI圈子发生了一件怪事,就像一个吃播博主突然开始吃自己做的菜,越吃越上瘾,菜也越来越难吃。这事儿说起来还挺吓人,专业的术语叫模型崩溃(model collapse)。模型崩溃是AI模型在训练过程中,如果大量使用自己生成的数据,就会陷入恶性循环,导致模型生成的质量越来越差,最终完犊子。
【AiBase提要:】
🔍 模型崩溃现象:AI模型在训练中过度依赖合成数据导致生成质量下降,最终崩溃。
💡 解决方案:优先使用真实数据,谨慎使用合成数据,控制模型规模,避免模型崩溃。
📈 实验发现:即使使用1%的合成数据也可能导致模型崩溃,模型规模越大,崩溃现象更严重。
详情链接:http://arxiv.org/pdf/2410.04840
7、获奖AI画作《太空歌剧院》版权申请遭拒
最近,合成媒体艺术家Jason Allen因创作的作品《太空歌剧院》遭到版权办公室拒绝注册引发争议。Allen不满决定上诉,认为作品中有大量人类创作成分,应获版权保护。AI生成的作品是否应获得版权保护成为焦点,引发关于AI艺术创作版权法律的讨论。
【AiBase提要:】
🌟 Allen认为作品中有大量人类创作成分,应获得版权保护。
🤖 版权办公室认为AI生成作品缺乏足够人类创作,拒绝注册。
📜 Allen的上诉可能推动AI艺术创作版权法律的进一步讨论。
8、台积电第三季度利润增长40%,AI 热潮助推需求激增
最近,台积电宣布预计第三季度净利润将大幅增长40%,受益于AI芯片需求激增。公司客户包括苹果、英伟达等知名企业,推动AI技术发展。市场对台积电未来表现乐观,营收和资本支出计划均有提升。
【AiBase提要:】
💰 台积电第三季度净利润预计将达到2982亿新台币,较去年同期增长40%。
📈 台积电的客户正在推出新产品,推动其业绩超预期增长。
🌍 台积电加大投资建设新工厂,未来资本支出预计在300亿至320亿美元之间。
9、Anthropic CEO:AI将助力人类抗击疾病5-10年内人类寿命可延长至150岁
在Anthropic的CEO达里奥·阿莫代伊的文章中,他大胆预测了人工智能(AI)在未来的发展。尽管公众对AI的风险有所担忧,但他认为AI的积极潜力巨大,可以为人类社会带来前所未有的进步。阿莫代伊强调了处理AI风险的紧迫性,并警告过度夸大技术可能带来的误导。他展望了AI在生物学、健康、神经科学、心理健康、经济、贫困和智者国度等领域的变革。
【AiBase提要:】
🔬 生物学和健康: AI能加速医学进步,控制传染病、降低癌症死亡率、治疗遗传病,预计人类寿命可翻倍至150岁。
🧬 生物自由: AI赋予人类更多生物学特征控制权,包括生育和外貌选择。
🧠 神经科学和心理健康: AI应用改善精神疾病理解和治疗,提升心理健康。
10、苹果可能会在明年推出售价2000美元的 Vision 头显
苹果公司计划推出新型 Vision 头显,价格约为2,000美元,采用更便宜的材料和性能更低的处理器。该设备不包含 EyeSight 功能,是苹果混合现实计划的一部分。苹果还将推出第二代 Vision Pro、智能眼镜和带摄像头的 AirPods,以及价格实惠的类似 iPad 的屏幕和带机械臂的桌面设备。尽管混合现实计划并未取得巨大成功,苹果仍坚持推进相关产品的开发。
【AiBase提要:】
🔍 苹果计划推出价格约为2,000美元的新型 Vision 头显,采用更便宜的材料和性能更低的处理器。
🚀 苹果将在未来推出第二代 Vision Pro、智能眼镜和带摄像头的 AirPods,推动混合现实领域的发展。
💡 苹果还计划推出价格实惠的类似 iPad 的屏幕和带机械臂的桌面设备,作为智能家居战略的一部分。
11、谷歌在美国搜索广告市场份额或将跌破50%
谷歌在美国搜索广告市场份额可能在2025年跌破50%,面临新竞争者挑战。新兴竞争者如TikTok、亚马逊和人工智能初创公司Perplexity正抢占市场份额。亚马逊在搜索广告开支中增长迅速,对谷歌构成压力。人工智能的发展改变搜索广告格局,谷歌计划在AI搜索摘要中插入广告。搜索广告市场正经历深刻变革。
【AiBase提要:】
📉 谷歌搜索广告市场份额预计将在2025年跌破50%,面临新竞争者的挑战。
📱 TikTok和亚马逊正迅速崛起,抢占谷歌的市场份额。
🤖 谷歌计划在AI搜索摘要中加入广告,为品牌提供新的投放渠道。
12、联想发布ThinkSmart Core Gen2专为视频会议打造 AI助力高效协作!
联想推出的ThinkSmart Core Gen2为智能协作领域带来突破,搭载英特尔Core Ultra处理器,强大的AI处理能力提升会议效率,重新定义会议空间和工作方式,实现智能协作体验。
【AiBase提要:】
💡 ThinkSmart Core Gen2搭载英特尔Core Ultra处理器,集成神经处理单元,AI处理能力强大,能耗降低40%。
💼 支持Microsoft Teams Rooms和Zoom Rooms,提供AI增强功能,包括智能框选、自动语音识别、智能姿态标签等。
🔒 提供高度自动化和前瞻性管理,预装ThinkSmart Manager软件和ThinkShield解决方案确保全方位安全保护。