Category · 分类浏览

AI

当代人工智能技术历程与核心技术


深度学习的复兴:新时代的开端

当代人工智能的浪潮始于21世纪初,特别是2012年左右,以深度学习(Deep Learning)的突破为标志。此前,人工智能经历了数次起伏。然而,随着计算能力(尤其是图形处理器GPU的普及)、海量数据(大数据)的可用性以及算法的改进(如AlexNet在ImageNet竞赛中的惊人表现),神经网络重新焕发活力,开启了AI的新纪元。深度学习模仿人脑神经元结构,通过构建深层(多层)神经网络,让机器能够从数据中自动学习复杂的模式和特征,而无需人工设计特征提取器。

当代AI的主要技术支柱

计算机视觉 (Computer Vision, CV)

计算机视觉旨在让机器能够“看见”和理解图像与视频。其核心技术是卷积神经网络 (Convolutional Neural Networks, CNNs)。CNN通过卷积层、池化层和全连接层的组合,能够有效地从像素中提取从边缘、纹理到复杂物体的层次化特征。

主要应用:

图像分类: 识别图片中的主要物体是什么,例如猫或狗。
目标检测: 在图片中定位并识别出多个物体的位置。
图像分割: 将图像中的每个像素分配给特定类别,实现像素级的理解。
人脸识别: 在安防、金融等领域广泛应用。


自然语言处理 (Natural Language Processing, NLP)

自然语言处理的目标是让机器能够理解、解释并生成人类语言。早期的NLP依赖于循环神经网络(RNNs)及其变体(如LSTM)来处理序列数据,但其在处理长距离依赖关系时存在局限。

2017年推出的Transformer架构彻底改变了NLP领域。其核心的自注意力机制 (Self-Attention Mechanism) 允许模型在处理一个词时,同时权衡句子中所有其他词的重要性,从而更有效地捕捉长距离依赖和上下文信息。

主要应用:

机器翻译: 如谷歌翻译,实现不同语言间的自动转换。
情感分析: 判断文本所表达的情绪是积极、消极还是中性。
问答系统与聊天机器人: 理解用户问题并提供相关答案或进行对话。
文本生成: 撰写文章、新闻、诗歌等。


生成式AI (Generative AI)

生成式AI是近年来最引人注目的发展方向,其目标是创造全新的、原创性的内容,而不仅仅是分析或分类现有数据。这项技术建立在深度学习模型之上,尤其是大型模型。

大型语言模型 (Large Language Models, LLMs): 基于Transformer架构,通过在海量文本数据上进行预训练,LLMs(如GPT系列)获得了强大的语言理解和生成能力,能够执行从写作、编程到复杂推理的多种任务。
生成对抗网络 (Generative Adversarial Networks, GANs): 由一个生成器和一个判别器组成,两者相互博弈,最终生成器能够创造出极其逼真的图像、音频等内容。
扩散模型 (Diffusion Models): 通过从纯噪声中逐步去噪来生成高质量图像,成为当前图像生成领域的主流技术。

主要应用:

内容创作: 自动生成文章、代码、营销文案、音乐和艺术作品。
数据增强: 在数据稀缺的领域生成合成数据用于训练其他模型。
虚拟世界与数字人: 创造逼真的虚拟环境和虚拟角色。


强化学习 (Reinforcement Learning, RL)

强化学习是一种让智能体(Agent)通过与环境互动来学习决策的范式。智能体在环境中执行动作(Action),获得奖励(Reward)或惩罚,并根据这些反馈不断优化其策略(Policy),以实现长期奖励的最大化。DeepMind的AlphaGo击败世界顶尖围棋选手,是强化学习最著名的里程碑之一。

主要应用:

游戏AI: 训练能达到甚至超越人类水平的游戏玩家。
机器人控制: 让机器人学习复杂的运动技能,如行走、抓取。
资源优化: 在物流、能源管理和金融交易等领域进行动态决策优化。

未来展望

当代AI正朝着多模态 (Multimodal) 方向发展,即模型能够同时理解和处理文本、图像、音频等多种类型的信息。同时,基础模型 (Foundation Models) 的概念日益重要,一个强大的预训练模型可以被微调以适应多种下游任务。未来的研究将更加关注模型的效率、可解释性、安全性和伦理对齐,以确保这项强大的技术能够负责任地推动社会进步。

弗洛伊德

后记 弗洛伊德的悲剧

在前言里我说了要祭奠弗洛伊德,但是好像写着写着就忘记正式祭奠他了。 弗洛伊德是一位了不起的学者。而按照理查德·韦伯斯特(Richard Webster)的说法,精神分析学可能是有史以来最成功、最复杂的伪科学!对于这种那种有关科学验证精神分析的尝试,1934年,弗洛伊德在给心理学家索尔·罗森茨威格的一封信中说他的理论“与实验验证不相干”。这其实已经变相的承认了自己这一套学说是“不言自明”和“公说公有理婆说婆有理”的纯粹的文字游戏。 但是弗洛伊德也是没有办法呀!他的内心戏大概就是“宝宝心里苦,宝宝说不出!” 要知道弗洛伊德一开始是做神经病理学研究的。在创建最成功的伪科学精神分析之前,他其实是想用神

vibe writing vibe coding vibe living

过十分钟再看自动更新的效果

星期三, 14 一月 2026 - 17:17 过十分钟再看自动更新的效果 星期三, 14 一月 2026 - 17:17 过十分钟再看自动更新的效果 星期三, 14 一月 2026 - 17:17 过十分钟再看自动更新的效果 星期三, 14 一月 2026 - 17:17 过十分钟再看自动更新的效果

vibe writing vibe coding vibe living

终于,1月6日了

divoai,http://divoai.wangjueju.cn,是我自己创建的一个技术团队,也是二十年多来的技术梦的再出发吧。   之前发布我的AI vibe coding的新hompage的时候,我写了如下的朋友圈: “23 年前我想参加中山大学学生处网页设计大赛,可是那时候我只会最简单 html 和服务器管理,部署。所以我找了迪哥做美工与前端,他那时候 dreamweaver 玩得飞溜, 又约了一个 cs 的 硕士生做 asp+sql,然后我们拿了一个二等奖。 ​同年我用清风小木虫下载管理系统,一个 txt 文本数据库+php 程序的下载站,做了一个电子书下载网站,托管在邓教

vibe writing vibe coding vibe living

菊叔AI助手平台 - DiVoAI项目完整技术分析报告

  1. 项目综述 菊叔AI助手平台是一个基于 Headless CMS(无头内容管理) 架构的综合性教育服务网站。项目集成了留学咨询、高考提分、神经科学研究及学术出版等多元化服务模块。 其核心技术特色在于将企业级 CMS (Drupal) 的数据管理能力与现代前端框架 (Next.js) 的高性能渲染相结合,并深度融合了 Dify AI 引擎,打造了一个不仅具备丰富内容展示,还拥有智能化交互能力的现代化 Web 平台。 2. 核心技术架构 (Tech Stack) 项目采用现代化的 JAMstack 架构模式,实现了前后端分离,确保了系统的高安全性、可扩展性及卓越的用户体验。 2.

vibe writing vibe coding vibe living

AI届大事件:杨乐昆要从meta离职自己创业了

Meta首席AI科学家杨立昆据报计划离职,创办个人AI公司 据报道,人工智能领域的泰斗、Meta首席AI科学家杨立昆计划离开公司,开启新的创业征程。此举被视为对Meta人工智能战略的重大冲击,同时也可能在AI行业引发新的竞争格局。杨立昆是深度学习领域的先驱之一,也是图灵奖得主,其新公司预计将专注于实现他长期倡导的、更接近人类智能的AI路径,可能聚焦于自监督学习和世界模型等前沿技术。 如下为AI创作: 行业巨震:AI教父的创业之路 人工智能领域传来重磅消息,被誉为“AI三巨头”之一的杨立昆据传将离开他效力多年的Meta(前Facebook),投身创业浪潮。作为Meta AI研究的奠基人和灵魂人物

vibe writing vibe coding vibe living

先把向量数据库部署起来

先把向量数据库部署起来,选型就先选Milvus,如下为AI生成内容 Milvus 向量数据库介绍 Milvus 是一款开源的、专为大规模向量相似性搜索和分析而设计的向量数据库。它致力于管理海量的非结构化数据,并为其提供高效的检索和分析能力。在人工智能和机器学习应用中,非结构化数据(如图像、视频、音频和文本)通常被转换为高维向量(Embeddings),Milvus 的核心任务就是对这些向量进行存储、索引和搜索。 核心功能与特性 高性能相似性搜索 Milvus 能够在上亿甚至百亿规模的向量数据集中实现毫秒级的相似性搜索。它支持多种常用的相似性度量方法,包括欧氏距离 (L2)、内积 (IP)、杰卡

vibe writing vibe coding vibe living

什么都ai只会害了你

什么都AI只会害了你:构建应用与业务系统时的警示 如下内容为ai生成 人工智能(AI)无疑是当今最具变革性的技术之一。然而,在应用开发和业务系统构建的浪潮中,一种“万物皆可AI”的思维正在蔓延。这种思维认为,任何问题都可以、也应该用AI来解决。这种观点不仅是错误的,更是有害的。在构建稳定、可靠、高效的业务系统时,盲目追求AI,只会带来技术、商业和组织层面的灾难。 技术与架构层面:不必要的复杂性与风险 “黑盒”特性与系统可维护性灾难 许多先进的AI模型,尤其是深度学习模型,本质上是“黑盒”。我们很难精确解释模型为何做出某个特定决策。这与传统软件工程形成了鲜明对比,后者的逻辑是明确、可追溯和可调试

vibe writing vibe coding vibe living

测试一下第二种AI写作implement

  测试一下第二种AI写作implement,就是用ckeditor ai agent 这个module. The goal is to assess its performance, usability, and the quality of the output. 下面这段英文是我用ckeditor AI agent用写的,看起来还需要调教。但是ckeditor ai agent这个实现AI的方式,其实是比较适合写作为中心的运用方式的。  The relationship between the CKEditor AI Agent module and the

vibe writing vibe coding vibe living

为mcp实现多种auth方式

为mcp实现多种auth方式,mcp自带的有token auth,basic auth,另外就是如果drupal配置了oauth的mcp会自动适配,不需要单独在配置。 如下handbook为AI撰写 Drupal OAuth2 Server 与 Client 配置指南 为 Drupal 实例配置 OAuth2 服务端 (Server) 与客户端 (Client) 的详细步骤。 配置 OAuth2 Server 此部分说明如何将一个 Drupal 实例配置为 OAuth2 提供商,使其能够颁发访问令牌。 步骤一:安装所需模块 * 使用 Composer 安装 Simple OAuth 模块及其依

vibe writing vibe coding vibe living

先把drupal实例转换为mcp服务器吧

把drupal实例转换为mcp服务器,也就是implement MCP到一个drupal实例。 如下内容为AI撰写,可能有错。我还没有仔细来审阅 将Drupal实例转换为MCP服务器的实施指南 本文档详细描述了将一个标准的Drupal实例配置为任务控制平台(Mission Control Platform, MCP)服务器的步骤、所需模块以及相关注意事项。MCP服务器作为一个中心枢纽,用于集中管理、监控和操作多个Drupal客户端站点。 核心概念 MCP 服务器 (MCP Server) 一个专门配置的Drupal实例,作为中央控制台。它负责接收来自客户端站点的数据,向客户端发送指令,并提供一

vibe writing vibe coding vibe living

本地文档识别页数比较多的PDF出现了资源消耗问题

本地文档识别页数比较多的PDF出现了资源消耗问题,我们必须变更和简化实现RAG化drupal file attachements的方式。 黄仁勋说邮件TL;DR。我觉得在我们构建RAG的时候,pdf也是一样。 我们用其他方式来实现pdf2text,而在drupal里面这样的方式有很多。 Drupal中实现PDF转文本的替代方案 为解决服务器资源消耗问题并优化性能,可以采用以下几种策略将PDF内容转换为文本。 方案一:集成外部API服务 将PDF解析的繁重任务外包给专业的第三方云服务。这种方法可以显著降低本地服务器的CPU和内存消耗,尤其适合处理大量或复杂的PDF文件。通过API调用,将文件发送

vibe writing vibe coding vibe living

1 Drupal的知识库化 RAG—ready Drupal

如下内容全部由AI生成。AI生成的所谓技术栈和一些内容对于当前的drupal 11.2已经有点过时了,不过大部分还是能用的。 Drupal AI 知识库化开发计划:构建 RAG-Ready 企业级知识平台 基于关于Drupal开发的定位一文的探讨,为将 Drupal 平台提升为现代化、智能化的企业核心资产,特制定本开发计划。核心目标是将 Drupal 改造为一个支持检索增强生成(Retrieval-Augmented Generation, RAG)的 AI 知识库。 项目愿景与目标 最终愿景: 将 Drupal 从一个传统的内容管理系统(CMS)转变为一个智能、可交互的企业级知识中枢。该平台

vibe writing vibe coding vibe living

关于DRUPAL开发的定位

感觉drupal这么弹性的框架,可以承载很多种AI时代的开发目标。 最基本的,做一个企业级的知识管理库是完全没有问题的,而且有了这个只是管理库,和各种AI工具的加持,如果再加上工作流和自动化,可以开发出来很多服务。以前只能把它当做一个博客和一个网页内容管理系统,现在感觉完全不同了。 只是可惜感觉php现在性能有些拉胯,而且php-fpm不是基于events的,高了个frankenPHP还是用go和caddy实现,关键是drupal 11还没有官方支持frankenPHP。   如下内容为AI续写 不过,这种对性能的焦虑,或许也从侧面反映出大家对Drupal寄予了更高的期望。它不再仅仅

vibe writing vibe coding vibe living

增加了内容转MD文本格式功能

开发日记:新增内容转Markdown文本格式功能 为了提升内容的便携性和可复用性,本次开发任务旨在为网站增加一项新功能:将已发布的文章内容转换为标准的Markdown文本格式。这使得内容可以轻松地导出到其他平台,或用于本地存档。该功能主要依赖Drupal社区的优秀模块 Markdownify 来实现。 核心模块:Markdownify 本次功能的核心是利用了 Markdownify 这个Drupal模块。该模块提供了一个强大的服务,可以将HTML文本精准地转换为Markdown格式。它底层使用了 `league/html-to-markdown` PHP库,确保了转换的质量和可靠性。 开发实施

vibe writing vibe coding vibe living

进一步引入更多的AI模型供应商

进一步引入更多的模型供应商 工作日志:项目 Alpha 核心任务:扩展现有 AI 集成框架,支持多个模型供应商,降低对单一供应商的依赖,并为不同应用场景提供最佳模型选择。 上午:需求分析与技术选型 当前状态:系统深度集成 OpenAI API,用于内容生成与摘要。但成本与可用性成为潜在瓶颈。 新供应商调研: Anthropic (Claude): 优势在于长文本处理和更细致的对话控制,适合用于文档分析和复杂的客户支持机器人。 Google (Gemini): 强大的多模态能力是其亮点,可为未来的图像内容分析功能提供支持。 本地化模型 (via Ollama): 对于处理敏感数据或需要确保最高数

白衣措在路上拍照

留学专家王觉菊老师的几篇重要文章

  https://wangjueju.cn/zh-hans/blog/zhongguojingjimeiyoutonghuopengzhangzhiyouwujiashangzhang https://wangjueju.cn/zh-hans/blog/zhongguojingjidezhuyaofengxian-shenmehuirangzhongguojingjimianlinjijuhuaposhenzhiduanlequlu https://wangjueju.cn/zh-hans/blog/zhouyijian https://wangjueju.cn/zh-hans/b

vibe writing vibe coding vibe living

《我看中国大学的教育现状》在华尔街日报中文版网站被刊发之后引起的评论

《我看中国大学的教育现状》在华尔街日报中文版网站被刊发之后,也引起了不少的评论,它在本博上原来是针对华尔街日报中文版的一篇文章《中国大学扩招易 学生就业难》而作的一个短评。这我我再把它和它在华尔街日报中文版网站上获得的评论一起整理出来,当做一个存档吧。特别是WSJ经常被墙的情况下。 2014年5月1日:华尔街日报中文网这篇文章的链接得翻墙才能看到了。真是让我很高兴呀。   五年前的文章了,可是,现在的状况有什么改善么?没有,中国经济的兴奋剂依赖症,不是还在么?调控调控,调了几届了,还是走老路来的舒服。引鸩止渴,爽且速衰呀。经济结构调整不力,高知就业就是狗屁呗。创业也舍不得促进,贷款贷