2025-02-17 企业动态 0
作者:蒋宝尚
编辑:贾伟
在虚拟世界里,一种神秘的电脑高手能在一台电脑上敲下Ctrl+C,在另一台电脑上敲下Ctrl+V,就能实现跨设备粘贴复制。虽然这仅是传说,但无数科技爱好者为此目标而努力。而现在,机器学习和AR技术已经攻克了这个难题。
使用手机就能直接从书页复制图片到电脑,全程只需不到十秒钟。手写框架图自然也不再困难。
这个项目由一个自称艺术家的法国人创造,他在Reddit提供的GitHub地址显示作者名为Cyril Diagne,此外他还是一家AI公司的联合创始人。项目地址为https://github.com/cyrildiagne/ar-cutpaste。
虽然目前仅限于Photoshop,但未来可以处理更多类型的输出。完成整个过程需要三个模块:移动APP、本地服务器、背景移除。
其中,移动APP使用了Expo,这是一个通用的React应用架构和平台搭建,本地服务器使用了ScreenPoint超早摄像头在屏幕上的位置,而背景移除则采用基于被Pattern Recognition 2020收录的论文《U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection》的技术。这篇论文尚未找到下载版本,但代码已公开发布。
代码地址:
https://github.com/NathanUA/U-2-Net
部署步骤分为四步:Photoshop配置、设置外部显著对象检测服务器、配置并运行本地服务、配置并运行移动APP。
进入“Preferences>Plug-ins”,启用“远程连接”,并设置稍后需要的密码。
确保PS文档设置与server/src/ps.py中的设置匹配,以避免粘贴为空白。
确保文档有背景,如果背景空白SIFT可能无法进行正确匹配。
设置外部HTTP服务部署BASNet模型,并将URL配置到本地服务器。如果BASNet运行在与本地服务相同计算机上,请确保端口不同。
按照说明配置并运行本地服务器及APP。
另外,作者提到直接在APP中使用DeepLap类似技术可能会更简单,但还未尝试。此工具利用U2-Net执行显著目标检测和背景移除,然后通过OpenCV SIFT找出手机对准屏幕位置,只需一张手机照片和截图即可得到精确x, y坐标系。
U^2-Net结构
据论文介绍,与20余SOTA方法对比实验后,无论尺寸或结构指标都获得不错成绩。它是BASNet (Qin et al, CVPR 2019)更新版,暂时没有放出全文,不过根据BASNet,我们知道其损失函数设计创新,不再只关注区域精度。
SIFT算法由加拿大英属哥伦比亚大学教授David Lowe于1999年发表于ICCV会议,其原论文Object recognition from local scale-invariant features,由单独作者发表。在2004年发表于IJCV期刊完善版Distictive image features from scale-invariant keypoints,该算法流程通常包括构建尺度空间、寻找极值点、筛选极值点、计算特征点主方向以及变换特征维度。此工具利用OpenCV SIFT找出手机屏幕对准位置。