موسسه آموزش عالی آپادانا فصلنامه پژوهش های نوین در شهرهوشمند 2980-8936 1 4 2023 08 15 Voxelized In-Air Handwriting Recognition: Accurate 3D Pose Estimation and Recognition of Handwritten Gestures in Mid-Air Using V2V-PoseNet تشخیص نوشتار با تشخیص حرکات دست با استفاده از واکسل‌سازی: برآورد دقیق موقعیت سه¬بعدی و تشخیص حرکات دست نوشتاری با استفاده از شبکۀ پیش‌بینی واکسل-به-واکسل V2V-PoseNet 45 52 10.22051/jera.2021.31891.2698 FA سیدمجتبی کارشناس ارشد رشتۀ مهندسی کامپیوتر، دانشگاه آزاد واحد تهران غرب، تهران، ایران محمد گروه فناوری اطلاعات، دانشگاه صنعتی شیراز، شیراز، ایران 2023 01 29 Most of the existing deep learning-based methods for 3D hand pose estimation from a single depth map are based on a common framework that takes a 2D depth map and directly regresses the 3D coordinates of keypoints, such as hand or human body joints, via 2D convolutional neural networks (CNNs). The first weakness of this approach is the presence of perspective distortion in the 2D depth map. While the depth map is intrinsically 3D data, many previous methods treat depth maps as 2D images that can distort the shape of the actual object through projection from 3D to 2D space. This compels the network to perform perspective distortion-invariant estimation. The second weakness of the conventional approach is that directly regressing 3D coordinates from a 2D image is a highly nonlinear mapping, which causes difficulty in the learning procedure. To overcome these weaknesses, we firstly cast the 3D hand and human pose estimation problem from a single depth map into a voxel-to-voxel prediction that uses a 3D voxelized grid and estimates the per-voxel likelihood for each keypoint. We design our model as a 3D CNN that provides accurate estimates while running in real-time. بیشتر روش‌های موجود برای تخمین ژست دست سه‌بعدی از یک نقشۀ عمقی تک از یک چارچوب مشترک استفاده می‌کنند که با گرفتن یک نقشۀ عمق دوبعدی، مختصات سه‌بعدی نقاط کلیدی را مستقیماً از طریق شبکه‌های عصبی کانولوشنی دوبعدی پیش‌بینی می‌کنند. اولین ضعف این رویکرد وجود انحنای پرسپکتیو در نقشۀ عمق دوبعدی است. در حالی که نقشۀ عمق به‌طورذاتی داده‌های سه‌بعدی است، روش‌های قبلی بسیاری از نقشه‌های عمق را به‌عنوان تصاویر دوبعدی در نظر می‌گیرند که می‌تواند شکل واقعی شیء را از طریق پراجکشن از فضای سه¬بعدی به دوبعدی تحریف کند. این مجبور به انجام تخمین مقاوم در برابر انحنای چشم‌انداز می‌شود. دومین ضعف رویکرد سنتی این است که رگرسیون مستقیم مختصات سه‌بعدی از تصویر دوبعدی، یک نقشه‌برداری بسیار غیرخطی است که موجب دشواری در روند یادگیری می‌شود. برای غلبه بر این ضعف‌ها، ابتدا مسئلۀ تخمین ژست دست انسان سه‌بعدی از یک نقشۀ عمقی تک را به یک پیش‌بینی وکسل¬به¬وکسل تبدیل می‌کنیم که از یک شبکۀ وکسلی سه¬بعدی استفاده می‌کند و برای هر نقطۀ کلیدی احتمال وکسل مربوطه را تخمین می‌زند. ما مدل خود را به‌عنوان یک شبکۀ عصبی کانولوشنی سه¬بعدی طراحی می‌کنیم که تخمین‌های دقیقی را در حال اجرا به صورت زمان واقعی ارائه می‌دهد.

/downloadfilepdf/153702