专注分享各种高质量网站、工具、APP、开源项目等一切好玩的东西🚀,以及偶尔开开车🚗

极客分享2.0 @xgeekshare
📮广告合作 @Geekshare_bot
🌐网站:https://geekshare.org/
#AI #视频处理 #音频处理

🔊 Voice-Pro - 免费开源的 AI 语音识别、翻译和多语言配音解决方案

Voice-Pro 是一个开源的音频/语音处理工具集合,现已宣告完全免费(此前收费)

Features

▫️一键下载 YouTube 视频 + 人声分离:yt-dlp 下载 + Demucs 分离人声/背景乐
▫️强大的语音识别:支持 Whisper / Faster-Whisper / WhisperX / Whisper-Timestamped
▫️多语言实时/批量翻译:100+ 语言互译
▫️...


📮投稿 📢频道 💬群聊 🔎索引
#Google #AI

Google 发布最强 AI 全家桶!还有多个重磅产品

今年的 Google I/O 2025 大会上,Google 推出了 Gemini 2.5 Pro/Flash 模型、Imagen 4、Veo3、Lyria RealTime等创作工具,以及 Android XR 眼镜等多个产品。

▫️XR 眼镜「Project Aura」: 搭载 Gemini 2.5 Pro 等新一代多模态基座大模型以及 Project Astra 智能体助理技术,具备实时翻译、视觉搜索、多模态交互等功能

▫️AI Mode 搜索体验:用户在进行复杂查询时,可获得更智能的反馈。此功能支持多模态输入,能根据上下文进行深入推理,帮助用户快速生成专业级引用报告,还使通过摄像头实时提问。

▫️Gemini2.5Pro和Flash版本:新版本 Deep Think 功能可在生成答案前考虑多个假设,使模型在测试中表现优异;Flash版本减少计算资源需求,提升用户在编程等任务中的体验。

▫️多个创造工具:AI 视频生成模型 Veo3、AI 图像生成工具 Imagen4、AI 音乐生成工具 Lyria。

▫️全新的订阅服务 Google AI Ultra:该计划为专业用户提供 Google 最强大模型和高级功能的无限制访问,适合电影制作人、开发者、创意工作者等专业人士,月费为 249.99 美元(折合人民币 1804 元)。


📮投稿 📢频道 💬群聊 🔎索引
#AI资讯

ChatGPT正式 登陆 Windows:该应用目前仅适用于 ChatGPT Plus、Team、Enterprise 和 Edu 用户,当前是一个早期版本,将在今年晚些时候推出「完整体验」(直达

Google 推出 AI 笔记应用「NotebookLM」:该应用由 Gemini 1.5 Pro 驱动,它可以将来自不同来源的信息汇总到一个界面中,使用户可以与收集的数据进行聊天。亮点在于它能与各种文件类型互动,包括PDF、Google文档和YouTube视频,并生成音频、摘要、问答和带有引用的想法(直达

Suno 推出「Suno Scenes」:Suno 允许以视频和图片为提示词,生成 30 秒的音乐,一个短视频,一张表情包,就能唱出一首歌。不过,目前该功能仅支持 Suno 的 iOS 客户端,并且仅在美国地区可用(link

Les Ministraux 官方宣称其边缘模型为世界上最好的:包含 3B 和 8B 两个版本,在各种基准测试中均超越了 Llama 3.2 和 Gemma 2 的同参数量模型(link
#AI资讯

OpenAI 推出 AI 搜索搜索功能「SearchGPT」:这是一款由 GPT-4 系列模型驱动、能实时访问全网信息,附带清晰来源链接的搜索引擎

谷歌母公司 Alphabet 的股价当天下跌 3%


Meta 发布 Llama 3.1 模型:是 Meta 迄今为止最强大的模型,也是全球目前最强大的开源大模型。从基准测试结果来看,Llama 3.1 超过了 GPT-4 0125,与 GPT-4o、Claude 3.5 互有胜负

在线体验


Mistral AI 发布 Mistral Large2 模型:该模型进行了非常大比例的代码训练,性能远优于第一代,与GPT-4o、Claude 3 Opus和Llama 3 405B等领先型号的表现不相上下

在线体验


Udio 发布新版本 v1.5 :增强了音乐生成能力,包括多语言支持(包含中文)、音质提升至48kHz立体声、调性控制等

在线体验
#AI资讯

谷歌I/O开发者大会要点一览


将在美国推出「AI概览」功能,搜索引擎会总结搜索结果
谷歌搜索将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题,并支持拍视频搜索
Gemini 1.5 Pro 大模型在今年将会把100万Tokens的窗口扩大至200万
推出 Gemini 1.5 Flash 模型,服务于需要快速响应的场景
推出参数量更大的Gemma 2
发布了文生图工具 Imagen 3、与 Youtube&音乐家合作的「AI音乐沙盒」,以及最新的视频生成模型Veo
Gemini Nano 模型将在今年晚些时候登陆 Pixel 手机并能在本地运行
从今年夏天开始,Gemini 将支持语音实时交互,还将上线实时视频交互
将推出「Gems」自定义 AI 助手功能,并与谷歌全家桶联动
宣布第六代 TPU 芯片 Trillium, 较上一代算力表现翻 4.7 倍,下半年起投入使用
谷歌云在明年初用上英伟达最新的 Blackwell 架构 GPU
#AI资讯

联发科天玑 9300+ 处理器发布,支持 Llama27B端侧大模型运行,可为用户提供文字、图像、音乐等端侧生成式 AI 多模态创新体验

苹果将用自研模型 Ajax 优化 iOS18:Safari 中加入智能搜索功能,允许用户对网页进行总结,并对 Siri 功能进行大幅改进

苹果照片应用将引入 AI 功能 Clean Up:利用生成式人工智能编辑图片

魅族科技官宣新 Flyme 系统本月见:Flyme 系统将会向 AI 领域转型,带来大量 AI 功能

realme 真我 GT Neo6 手机 5 月 9 日推出,并表示此次发布会是“机圈首场 AI 数字人发布会”

好家伙,现在手机都开始进军 AI 了
#AI #AI音乐

🎶 Udio - 又一个强大的音乐生成 AI

📄继 Suno V3 上线之后,「Udio」横空出世,它的定制性更强、免费额度更高!

Udio 可以定制音乐风格,涵盖乡村音乐、理发店四重唱、德国流行乐、古典音乐、硬摇滚、嘻哈、演唱曲调等...

除了生成音乐,Udio 还可以通过自定义歌词生成其他音频,如喜剧、演讲、商业广告、广播节目、NPC对话,白噪音和 ASMR 等等...

目前每个用户每月可以生成 1200 首音乐,量大管饱!


📑相关阅读

Suno V3 上线,属于音乐的「ChatGPT时刻」来临


📮投稿 📢频道 💬群聊 🔎索引
#AI #AI音乐

🎶Suno V3 上线,属于音乐的「ChatGPT时刻」来临

体验地址:https://app.suno.ai/ | 使用文档


Suno V3 提供了自定义模式纯音乐模式。用户输入歌词/提示词,仅需几秒的时间,Suno V3 便可以创作出 2 分钟的完整歌曲

免费用户每天可以生成 10 首音乐

目前首页有几首中文歌在榜上,「水调歌头」排行第三,还怪好听的

我试着拿了《木兰辞》去生成,除了几个字的发音吐字不准确,总体效果非常炸裂,大家赶紧去玩一下
#AI资讯

库克:苹果将公布人工智能计划库克:苹果将在今年晚些时候公布人工智能计划

Adobe 发布全新音乐制作生成式 AI 工具「Project Music GenAI Control」,可根据文本生成音乐并进行精细编辑 more

Meta 计划于今年 7 月发布新版 AI 大语言模型 Llama 3 more

Stability AI 与中国 AI 创业公司共同推出 AI 视频生成工具「Morph Studio」,预计本月中旬开放测试 more

AI 资讯太多,以后将常态化发布多合一 AI 资讯,精选 AI 内容则单独发布
#AI #硬件

🐰AI 硬件 Rabbit R1 发布

Rabbit R1 的大小约为 iPhone 的一半,配有一块 2.88 英寸触摸屏、一个旋转摄像头,以及可用于导航或与设备内置助手交谈的滚轮/按钮

它搭载了联发科 2.3GHz 处理器、4GB 内存和 128GB 存储空间

操作系统并非基于 ChatGPT 之类的大型语言模型,而是基于「大行为模型」

Rabbit OS 可以通过一个界面,控制音乐、订购车辆、购买杂货、发送消息等。无需切换应用程序,只要说出你的需求,Rabbit R1 就能为你服务。

Rabbit 在发布后的一天内便售出了 10000 件
#AI #视频生成 #网站

▶️AI Tube - 一个只有 AI 生成的视频网站

📄该网站上的所有视频完全由 AI 生成,提供包括音乐、动画、Minecraft、Lofi、教程、游戏、公共领域和烹饪等多种类型的视频频。同时你也可以成为创作者上传视频

目前该网站上视频数量有限,质量也参差不齐,不过未来不 AI 生成视频技术发生质变的时候估计这个网站会火

📮投稿 📢频道 💬群聊 🔎索引
#开源 #视频处理 #翻译 #AI

💬视频翻译和配音 - 将视频从一种语言翻译为另一种语言,并添加配音

📄开发者甚至没有给这个软件取一个正式的名字,不过并不影响他开源且好用

软件的语音识别基于 Openai-whisper 离线模型、文字翻译使用Google翻译接口,文字合成语音使用 Microsoft Edge tts,背景音乐去除使用 Spleeter,支持 12 种语言

可以直出外语至中文字幕以及中文语音效果视频

🎞测试

视频:马斯克和苏纳克对 AI 的讨论(前5分钟

语音识别模型:whisper base


我的主观感受是它对苏纳克的语言识别和翻译比较准确,准确度有8成左右,对马斯克则稍微差些,可能准确度6成左右

当然苏纳客是英伦腔,所以吐字清晰一些识别率也高些。如果有这方面需求的还可以下载大杯版本的 whisper 模型,估计效果会更佳

PS:支持日语,未测试


📮投稿 📢频道 💬群聊 🔎索引
#AI #在线生成 #前端

😊v0 - Vercel 发布的 AI 界面生成工具

📄v0 基于 Shadcn UI 和 Tailwind CSS,用户只需输入描述文字就可以一键生成漂亮的用户界面,生成之后可以一键复制代码或 npm 安装

💡Features

▫️即时生成:可以根据用户的文本提示即时生成 UI 组件
▫️支持实时修改:提供更具体和详细的提示来获得更精确的结果
▫️简单易用:用户无需掌握复杂的设计或编程知识就可以使用
▫️集成多种组件:提供了多种 UI 组件的示例,如音乐播放器、发票表格等

*目前还在内测,需要提交申请才能使用,可以进入页面看看 Demo

📮投稿 📢频道 💬群聊 🔎索引
#AI #文字转语音 #开源 #工具

🐶 Bark - 一个开源的 AI 文字转语音模型

▶️试听效果 | 在线体验

📄Bark 可以生成高度逼真的多语言语音以及特定声音比如音乐、噪音、音效的个

当你在 Prompt 中指定背景,比如:爽死了(大笑),Bark 便会生成的语音并伴随笑声,这一点是传统的文字转语音工具还未能达到的

并且他还支持中文,遗憾的目前的效果还不如英语那么好

💡在线体验生成时间比较长,建议本地部署或者使用官方提供的 Google Colab

📢关注频道:@geekshare
💬加入群聊:
@igeekshare
📮欢迎投稿:
@Geekshare_bot
 
 
Back to Top