نمای کلی
با مجموعهها، منظم بمانید
ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
در چند سال اخیر شاهد افزایش لایههای گرافیکی متمایز جدید بودهایم که میتوان آنها را در معماری شبکههای عصبی درج کرد. از ترانسفورماتورهای فضایی گرفته تا رندرهای گرافیکی متمایز، این لایههای جدید از دانش بهدستآمده در طول سالها تحقیقات گرافیکی و بینایی کامپیوتری برای ساختن معماریهای شبکه جدید و کارآمدتر استفاده میکنند. مدلسازی صریح پیشینها و محدودیتهای هندسی در شبکههای عصبی، دری را به روی معماریهایی باز میکند که میتوان آنها را قوی، کارآمد، و مهمتر، به شیوهای تحت نظارت خود آموزش داد.
در سطح بالایی، خط لوله گرافیک کامپیوتری به نمایش اجسام سه بعدی و موقعیت مطلق آنها در صحنه، توصیف موادی که از آنها ساخته شدهاند، چراغها و دوربین نیاز دارد. این توصیف صحنه سپس توسط یک رندر برای ایجاد یک رندر مصنوعی تفسیر می شود.
در مقایسه، یک سیستم بینایی کامپیوتری از یک تصویر شروع میشود و سعی میکند پارامترهای صحنه را استنتاج کند. این اجازه می دهد تا پیش بینی اینکه کدام اشیاء در صحنه هستند، از چه موادی ساخته شده اند و موقعیت و جهت سه بعدی.

آموزش سیستم های یادگیری ماشینی که قادر به حل این وظایف پیچیده بینایی سه بعدی هستند اغلب به مقادیر زیادی داده نیاز دارد. از آنجایی که برچسبگذاری دادهها فرآیندی پرهزینه و پیچیده است، داشتن مکانیسمهایی برای طراحی مدلهای یادگیری ماشینی که میتوانند دنیای سه بعدی را درک کنند و در عین حال بدون نظارت زیاد آموزش ببینند، مهم است. ترکیب بینایی کامپیوتر و تکنیکهای گرافیک کامپیوتری فرصتی منحصربهفرد برای بهرهبرداری از حجم وسیعی از دادههای بدون برچسب در دسترس است. همانطور که در تصویر زیر نشان داده شده است، برای مثال، می توان با استفاده از تجزیه و تحلیل از طریق سنتز که در آن سیستم بینایی پارامترهای صحنه را استخراج می کند و سیستم گرافیکی یک تصویر را بر اساس آنها بازگرداند. اگر رندر با تصویر اصلی مطابقت داشته باشد، سیستم بینایی به دقت پارامترهای صحنه را استخراج کرده است. در این راهاندازی، بینایی کامپیوتر و گرافیک کامپیوتری دست به دست هم داده و یک سیستم یادگیری ماشینی شبیه به رمزگذار خودکار را تشکیل میدهند که میتوان آن را به شیوهای تحت نظارت خود آموزش داد.

Tensorflow Graphics برای کمک به مقابله با این نوع چالشها توسعه مییابد و برای انجام این کار، مجموعهای از لایههای گرافیکی و هندسی قابل تمایز (مانند دوربینها، مدلهای بازتابی، تبدیلهای فضایی، پیچشهای مش) و عملکردهای بیننده سهبعدی (مانند 3D TensorBoard) را ارائه میکند. می تواند برای آموزش و اشکال زدایی مدل های یادگیری ماشین انتخابی شما استفاده شود.
جز در مواردی که غیر از این ذکر شده باشد،محتوای این صفحه تحت مجوز Creative Commons Attribution 4.0 License است. نمونه کدها نیز دارای مجوز Apache 2.0 License است. برای اطلاع از جزئیات، به خطمشیهای سایت Google Developers مراجعه کنید. جاوا علامت تجاری ثبتشده Oracle و/یا شرکتهای وابسته به آن است.
تاریخ آخرین بهروزرسانی 2025-07-25 بهوقت ساعت هماهنگ جهانی.
[null,null,["تاریخ آخرین بهروزرسانی 2025-07-25 بهوقت ساعت هماهنگ جهانی."],[],[],null,["# Overview\n\n\u003cbr /\u003e\n\nThe last few years have seen a rise in novel differentiable graphics layers\nwhich can be inserted in neural network architectures. From spatial transformers\nto differentiable graphics renderers, these new layers leverage the knowledge\nacquired over years of computer vision and graphics research to build new and\nmore efficient network architectures. Explicitly modeling geometric priors and\nconstraints into neural networks opens up the door to architectures that can be\ntrained robustly, efficiently, and more importantly, in a self-supervised\nfashion.\n\nAt a high level, a computer graphics pipeline requires a representation of 3D\nobjects and their absolute positioning in the scene, a description of the\nmaterial they are made of, lights and a camera. This scene description is then\ninterpreted by a renderer to generate a synthetic rendering. \n\nIn comparison, a computer vision system would start from an image and try to\ninfer the parameters of the scene. This allows the prediction of which objects\nare in the scene, what materials they are made of, and the three-dimensional\nposition and orientation. \n\nTraining machine learning systems capable of solving these complex 3D vision\ntasks most often requires large quantities of data. As labelling data is a\ncostly and complex process, it is important to have mechanisms to design machine\nlearning models that can comprehend the three dimensional world while being\ntrained without much supervision. Combining computer vision and computer\ngraphics techniques provides a unique opportunity to leverage the vast amounts\nof readily available unlabelled data. As illustrated in the image below,\nthis can, for instance, be achieved using analysis by synthesis where the vision\nsystem extracts the scene parameters and the graphics system\nrenders back an image based on them. If the rendering matches the original\nimage, the vision system has accurately extracted the scene parameters. In this\nsetup, computer vision and computer graphics go hand in hand, forming a single\nmachine learning system similar to an autoencoder, which can be trained in a\nself-supervised manner. \n\nTensorflow Graphics is being developed to help tackle these types of challenges\nand to do so, it provides a set of differentiable graphics and geometry layers\n(e.g. cameras, reflectance models, spatial transformations, mesh convolutions)\nand 3D viewer functionalities (e.g. 3D TensorBoard) that can be used to train\nand debug your machine learning models of choice."]]