Skip to content

Midscene.js

视觉智能体 SDK,让 AI 真正"看懂"屏幕,像人类一样操作界面。13k+ Stars。

Core Capabilities

  • 跨平台:Web、PC、Android、iOS、鸿蒙,一次编写多端运行
  • 模型无关:支持 Claude、GPT-4o、Grok、Qwen、DeepSeek 等
  • 开源免费

Highlights

  • 不仅能操控 App 和网页,还能驱动机械臂、硬件设备
  • 从"写 Selector"到"一句话让 AI 去执行"的真正跨越
  • 可替换 E2E 测试和重复操作

Use Cases

  • 自动化 UI 测试
  • 重复操作自动化
  • 跨平台应用操控
  • 硬件设备控制

Sources

Released under the MIT License.