Ghost

Thoughts, stories and ideas

Latest

Veo3.1:谷歌最新AI视频生成工具,中国用户使用指南与官网替代方案

一键生成电影感视频,自动配音效,Veo3.1正在重新定义视频创作 作为一名常年关注AI工具发展的科技博主,近期我收到最多的问题便是——“Veo3.1到底怎么用?”、“中国能直接用Veo3.1吗?”。这款由谷歌推出的AI视频生成工具,自发布以来便以其卓越的视频生成能力和智能音效同步技术吸引了全球用户的关注。 本文将全面解析Veo3.1的背景、功能特点,并为国内用户提供切实可用的解决方案。 一、Veo3.1:出身名门的AI视频生成利器 公司背景 Veo3.1并非来自某家小众科技公司,而是谷歌(Google) 旗下的第三代AI视频生成模型。该工具于2025年5月在谷歌I/O开发者大会上正式发布,代表了谷歌在AIGC视频领域的最高技术水平。 核心能力突破 与传统AI视频工具相比,Veo3.1解决了以下痛点: * 画面流畅性:消除卡顿和人物动作僵硬问题 * 音视频同步:实现画面生成与音频合成的无缝衔接 * 细节还原:能够准确还原物体细节和自然动作 典型应用示例: 输入提示词:“一个女孩在秋日公园弹吉他,落叶随风飘落,远处有小狗吠叫”,Veo3.1能够生成4K高清画面

By mzo

一张图一句话 ,人人都是大导演 #格谷AI #GAGUA AI #AI爆款视频,pro版本,10s,15s,25s,国内直达,中文版,异步,多任务平台,无水印,还有更多国外AI,一键打包,全都有

您的浏览器不支持 HTML5 视频。 一张图一句话 ,人人都是大导演 #格谷AI #GAGUA AI #AI爆款视频,pro版本,10s,15s,25s,国内直达,中文版,异步,多任务平台,无水印,还有更多国外AI,一键打包,全都有

By mzo

sora国内怎么用,如何在国内顺畅使用Sora模型

您的浏览器不支持 HTML5 视频。 在这个信息技术日新月异的时代,人工智能(AI)已经成为推动社会进步和创新的重要力量。特别是在内容创作领域,AI的应用为传统的创作方式带来了颠覆性的变革。其中,Sora模型作为OpenAI推出的一款革命性的文本到视频的生成工具,引起了广泛关注。对于国内的用户来说,使用Sora模型不仅可行,而且操作起来相当简便。本文将为您提供详尽的指导,帮助您顺利使用Sora模型,释放创作的无限可能。 如何在国内顺畅使用Sora模型 步骤一:开通Sora账户 要开始使用Sora模型,您的第一步是注册一个Sora账户。访问GAGUA AI https://chat.chatgptten.com/ 的官方网站,并按照指示完成注册过程。如果您已经拥有账户,直接登录即可。 步骤二:进入Sora使用界面 登录GAGUA AI账户后,您需要在平台上找到Sora模型的使用界面。GAGUA AI平台设计了用户友好的操作界面,使得从文本到视频的创作过程变得轻松而直观。 步骤三:撰写文本描述 在Sora的使用界面中,您会看到一个用于输入文本描述的区域。这里

By mzo
官方 Claude Code 转发

官方 Claude Code 转发

🚀快速开始 点击右上角 系统公告🔔 可再次查看 | 完整内容可参考下方文档 ❓FAQ * 本站直接接入官方 Claude Code 转发,无法转发非 Claude Code 的 API 流量 * 如遇 API 报错,可能是转发代理不稳定导致,可以考虑重试几次 1️⃣ 安装 Node.js(已安装可跳过) 确保 Node.js 版本 ≥ 22.0 # Centos 用户 curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.1/install.sh | bash # 关闭并重新打开终端,或运行

By mzo

Sora2 API生成视频,Sora2 API从哪里下载,Sora2 API怎么用,Sora2 API使用入口,Sora2 API教程解析

您的浏览器不支持 HTML5 视频播放。 Sora-2 API生成视频教程:API对接与成品网页方案详解 哈喽,各位朋友们!近期有很多朋友在后台询问关于 Sora-2 生成内容(AI 视频或数字饰品)是如何生成的问题。目前在国内,生成 Sora-2 内容主要有两种方式: 方式一:通过成品网页直接生成(面向非编程用户) 这是最简单直接的方式。我们相当于是接入了 Sora-2 官方的 API,并通过一个成品化的网页提供给用户。所有用户都可以在这个网页上直接操作,生成自己想要的 Sora-2 内容。这些内容完全由网友自行生成,效果和官方是保持一致的。 方式二:通过API接口编程对接(面向编程用户) 如果您具备一定的编程能力,您可以选择直接通过 API 的方式来接入 Sora-2 的生成服务: * 接口选择: 推荐使用异步接口。在国内,异步接口的稳定性是比较高的。 * 参数与格式: 请求参数需要遵循官方的标准JSON格式。 * 返回结果: 接口调用成功后,

By mzo
阿里云发布Qwen VLo多模态模型 通过自然语言既能生成图像、也能编辑图像

阿里云发布Qwen VLo多模态模型 通过自然语言既能生成图像、也能编辑图像

Qwen VLo 是一个统一的多模态大模型(Unified Multimodal Model),能够既理解图像,又能生成、编辑图像,并通过自然语言指令灵活控制整个过程。 它不仅能“看懂”图像内容,还能根据理解进行精细的修改或全新创作,实现从 视觉感知到视觉生成 的闭环。 目前为预览版本,可通过 Qwen Chat 使用。 核心能力 1️⃣ 精准图像理解与内容重构 * 能准确识别图像中的物体类别、结构特征、风格风貌。 * 在进行图像修改时(如更换颜色、风格迁移),能保留原图重要结构,避免“变形”或“失真”。 举例: 用户上传一张汽车照片,说“把颜色换成蓝色”。 传统模型可能改变了轮廓或品牌识别失败;Qwen VLo 不仅识别出车型,还保留车体结构,仅自然改变颜色。 2️⃣ 开放式语言控制的图像编辑 Qwen VLo

By mzo
阿里云发布 Qwen-TTS 语音合成模型 接近真人语音 支持普通话、英文,以及三种中文地方方言

阿里云发布 Qwen-TTS 语音合成模型 接近真人语音 支持普通话、英文,以及三种中文地方方言

阿里云发布 Qwen-TTS 高性能语音合成模型(Text-to-Speech,TTS)。其核心能力是将输入的中英文文本转换为具备自然表达力的语音输出。 与传统 TTS 模型相比,Qwen-TTS 最大的亮点在于: * 高自然度:声音表达更接近真人,具备情感、节奏、语调变化; * 多语种与方言支持:目前支持普通话、英文,以及三种中文方言(北京话、上海话、四川话); * 多音色选择:提供不同性别、语调和口音的声音,适配多样化场景。 语言与方言支持细节 支持的语音变体: 真实合成样例:https://qwenlm.github.io/zh/blog/qwen-tts/ 技术原理与数据基础 1. 大规模训练语料支撑 模型训练使用了超过 300 万小时的语音数据,包括中英文对齐数据以及丰富的方言语料,这使得模型不仅语音自然,而且能模仿不同地区的说话风格。 2. 韵律与情感建模 Qwen-TTS 支持自动调整文本的语速、

By mzo

《硅谷》压缩技术好像现世了!!!将视频压缩 80~90% 几乎不损失效果?

炸裂! 《硅谷》压缩技术好像现世了!!!将视频压缩 80~90% 几乎不损失效果? 基于 FFMpeg 的 H264 压缩标准,实现压缩 90% 的视频大小 我自己上次了一个 60M+ 的视频,压缩之后 8.3MB,压缩 87%,效果看上去差不多... 原贴作者 @mortenjust ,目前帖子 100W+ 阅读了 https://x.com/tuturetom/status/1818468516045242792 我体验了一下... 确实离谱 ffmpeg -i input.mp4 -c:v libx264 -tag:v avc1 -movflags faststart -crf

By mzo