利用 AI Studio 整理播客音频的逐字稿

发表于2026-01-08|更新于2026-01-08

AI Studio 可以直接提取播客的 Transcript，可以使用 Google 的各种模型，更重要的是免费。

选择 Chat with models，模型 Gemini 3 Flash Preview, temperature 0.2。

具体步骤如下：

上传播客的音频文件（一般后缀为 .mp3 或 .m4a)
使用下面的提示词

## 任务
* 根据提供的音频文件，提取主题为 xxx 的播客逐字稿 (transcript) 。
* 按照 {规则} 要求，参考 {Show notes} 编辑 {逐字稿}。
* 为 {逐字稿} 划分段落，并拟定段落标题。
* **注意： 保留全部信息，不可添加、删减或遗漏任何内容。**

## 输出
* 使用Markdown格式输出逐字稿，段落标题使用 `##`。
* 在中英文单词之间添加空格。
* 输出语言和音频的语言保持一致。

## 规则
* **去除口语化词语**：删除所有不必要的语气词、口头禅和重复词句，例如“嗯”、“啊”、“那个”、“这个”、“对吧”、“然后” 等。
* **增加必要标点**：根据语境和语义进行断句，正确地添加和修改标点符号，确保文稿节奏清晰。
* **划分内容段落**：根据内容关联度和发言人转换，把内容分成独立的段落，清晰展示发言。
* **修正核心词汇**：根据逐字稿涉及的领域，参考 {Show notes}，修改关键的词汇和术语（如人名、书名、概念），确保内容正确性和严谨性。
* **处理模糊内容**：如果原始意图极其模糊，请保留原句并在其后用 `[编辑标记：此处意思不明确]` 的格式进行标注。

## Show notes

## 约束
* **禁止删改原意**：严禁对文稿进行摘要、总结或改写，必须保留所有实质性信息。
* **禁止过度清洗**：仅删除“嗯、啊、那个”等无意义语气词；如果口语词涉及上下文逻辑（如“但是...”），必须保留。

## 指令
遵循 {任务} ，{输出} ， {规则} ， {指令} 的各项要求，启动任务。

点击 AI studio 的 run
Enjoy ！

一些补充信息：
Gemini web 对音频大小有 100 M 限制，AI Studio 上暂时未遇上音频大小过大问题。

至于如何下载播客的音频文件，不再这篇博客的讨论范围。 :)

文章作者: 曼福吉

文章链接: https://usmacd.com/cn/ai_studio_podcast_transcript/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源安全代码！

相关推荐

思考的新征程：生成式AI时代的逻辑与思辨

在信息泛滥的数字时代，生成式AI的崛起既带来知识获取便利，也改变了人类与信息的关系。当ChatGPT能在几秒钟内生成看似专业的论文，我们要问：在这个新世界中，什么将成为人类不可替代的能力？答案是我们古老的认知工具——逻辑思维和思辨能力。曾经，信息本身是稀缺资源。而今天，信息触手可及，AI将这种获取推向新高度。当所有人都轻松获取相同信息时，真正的价值不在信息本身，而是转移到了对信息的判断和利用能力上。 1. 识别AI的海市蜃楼生成式AI有一个特性——“幻觉”。它们可以捏造看似合理但错误的信息。想象一个情境，某大学教授要求学生使用AI撰写关于特定历史事件的论文，然后用批判性思维分析准确性，许多学生无法识别AI生成内容中的事实错误，甚至有学生为这些错误辩护，因为它们来自“权威”的AI。在信息过载的世界中，辨别真伪的能力比获取信息更为关键。在AI时代，知识不再是力量，判断力才是。 2. 问题定义：人类思维的堡垒生成式AI擅长回答问题，但在提出有价值的问题方面却不足。诺贝尔物理学奖获得者理查德·费曼强调，科学是关于理解事物，而不仅仅是知道它们的名称。提出正确的问题比找到答案更...

50 行代码打造全本地的 RAG 知识检索系统

非常粗糙的示例代码，使用 Ollama 和 LlamaIndex 打造全本地的知识检索系统。 LlamaIndex 的安装方法如下： 123456python3 -m venv .venvsource .venv/bin/activatepip3 install llama-indexpip3 install llama-index-llms-ollama pip3 install llama-index-embeddings-huggingfacepip3 install llama-index-embeddings-ollama Ollama 的安装可以参考：Debian 12 安装 Nvidia 驱动和 Ollama 在例子中，检索目标为 markdown 格式的笔记，供参考。使用方法：python3 rag_query.py "分析全部文本内容，分点列出个人成长的建议" 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495...

Nvidia 驱动安装和 Ollama 的使用

根据同事反馈，高版本的 NVIDIA 驱动兼容性有问题，需要安装 Nvidia 驱动 525.147.05 ，过程中可能需要升级内核。安装 Nvidia 驱动查看 Debian 上显卡安装情况。 12lspci -nn | egrep -i "3d|display|vga" 01:00.0 VGA compatible controller [0300]: NVIDIA Corporation AD102 [GeForce RTX 4090] [10de:2684] (rev a1) 查看驱动安装具体的情况。 123456789101112lsmod | grep nouveau nouveau 2433024 0 mxm_wmi 16384 1 nouveau i2c_algo_bit 16384 1 nouveau drm_display_helper 184320 1 nouveau drm_ttm_helper 16384 1 n...

一个文章总结提示词

分享一个文章总结提示词，在 Reddit 用户 custodiam99 的提示词上修改而来，我用了一段时间感觉挺好。 1234567891011121314CAUTION: PROVIDE YOUR ENTIRE RESPONSE IN CHINESE.For any text analysis task I provide, please follow this structured approach:1. Walk through your reasoning step by step before providing your final analysis.2. Analyze the input text and generate [3,8] essential questions that reveal the core meaning of the text. These questions should, when answered, capture the main points and fundamental understanding of the text....

Ollama 的未授权访问问题

Ollama 是一个简单易用的本地大模型运行框架，它可以让你在本地电脑上轻松运行和管理各种大语言模型。Github 地址：https://github.com/ollama/ollama 有用户提出给 Ollama API 添加认证的需求 Requesting support for basic auth or API key authentication， Ollama 官方没有处理，所以在默认设置下 Ollama 存在未授权访问问题。以下的代码在 Ollama v0.5.11 下测试成功。判断是否 Ollama 运行在 11434 端口1234567curl -i http://127.0.0.1:11434HTTP/1.1 200 OKContent-Type: text/plain; charset=utf-8Date: Tue, 18 Feb 2025 11:12:57 GMTContent-Length: 17Ollama is running 列出 Ollama 提供的 LLM 模型curl http://127.0.0.1:11434/api/tags |...

认知被 AI 暴击的瞬间

https://podcasts.apple.com/us/podcast/%E8%AE%A4%E7%9F%A5%E8%A2%ABai%E6%9A%B4%E5%87%BB%E7%9A%84%E7%9E%AC%E9%97%B4/id1614381317?i=1000598827531 今天听了一期「认知被 AI 暴击的瞬间》，里面有几个挺有意思的话题。 “AGI”技术目前存在的哪些问题？首先是算力的问题，早期大家在使用 ChatGPT 的时候应该都遇上了无法响应的情况，包括后来大范围的封号，限制特定机房 IP 段的访问，这些其实都是算力不足的表现。虽然 Google 号称 PaLM 2 的 Gecko 模型可以在手机上运行，具体的文本生成效果和能量消耗情况都没有详细的信息。其次，ChatGPT 这些 Ai 程序生成的内容并不总能满足需求，有时候甚至觉得有点傻，受限于学习的数据和算法模型，人工智能领域正在挑战其不太擅长的通用人工智能，在专用人工智能方面（比如下围棋）的许多地方，人类早已经不是对手了。最后，AGI 程序是不能有「价值判断」的，没有价值观就可能生成有害的内容，这...

数据加载中