Skip to content
System Vault
Main Navigation
文档
指南
特性
架构
演进
参考
书籍
书籍库
AI Software
Claude Code / Codex
DDIA
harness
hermes
k8s
Linux 网络
misc
openclaw
Social Media
software engineering
spring
transformer embedding
visual systems
zettelkasten
教程
Codex 实战课程
full keyboard (only `Chinese` now)
教程一
教程二
AGI
AGI 课程一
Claude Code v2.1.88 深度技术剖析
Wiki
知识库总览
核心概念
模式与方法论
产品与工具
原始文档
对比分析
日记
稍后读
商业
商业分析总览
市场分析
专栏
专栏总览
Agentic Engineer
Vibe Coding
Harness Engineering
Lenny's Newsletter
绘图指南
OPC 一人公司
投资专栏
Slides
演示文稿
Appearance
Menu
Return to top
On this page
Midscene.js
视觉智能体 SDK,让 AI 真正"看懂"屏幕,像人类一样操作界面。13k+ Stars。
Core Capabilities
跨平台
:Web、PC、Android、iOS、鸿蒙,一次编写多端运行
模型无关
:支持 Claude、GPT-4o、Grok、Qwen、DeepSeek 等
开源免费
Highlights
不仅能操控 App 和网页,还能驱动机械臂、硬件设备
从"写 Selector"到"一句话让 AI 去执行"的真正跨越
可替换 E2E 测试和重复操作
Use Cases
自动化 UI 测试
重复操作自动化
跨平台应用操控
硬件设备控制
Sources
https://github.com/web-infra-dev/midscene