ภาพรวม
จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน
บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ
ในช่วงไม่กี่ปีที่ผ่านมาได้เห็นการเพิ่มขึ้นของเลเยอร์กราฟิกแบบสร้างความแตกต่างได้ ซึ่งสามารถแทรกลงในสถาปัตยกรรมเครือข่ายประสาทเทียมได้ ตั้งแต่ทรานสฟอร์มเมอร์เชิงพื้นที่ไปจนถึงเรนเดอร์กราฟิกแบบแยกส่วน เลเยอร์ใหม่เหล่านี้ใช้ประโยชน์จากความรู้ที่ได้รับจากการวิจัยคอมพิวเตอร์วิทัศน์และกราฟิกเป็นเวลาหลายปี เพื่อสร้างสถาปัตยกรรมเครือข่ายใหม่และมีประสิทธิภาพมากขึ้น การสร้างแบบจำลองทางเรขาคณิตล่วงหน้าและข้อจำกัดในโครงข่ายประสาทเทียมเป็นการเปิดประตูสู่สถาปัตยกรรมที่สามารถฝึกฝนได้อย่างแข็งแกร่ง มีประสิทธิภาพ และที่สำคัญกว่านั้นในรูปแบบการควบคุมตนเอง
ในระดับสูง ไปป์ไลน์คอมพิวเตอร์กราฟิกต้องการการแสดงวัตถุ 3 มิติและตำแหน่งที่แน่นอนของวัตถุในฉาก คำอธิบายเกี่ยวกับวัสดุที่ทำขึ้น แสงและกล้อง คำอธิบายฉากนี้จะถูกตีความโดยตัวแสดงเพื่อสร้างการเรนเดอร์แบบสังเคราะห์
ในการเปรียบเทียบ ระบบคอมพิวเตอร์วิทัศน์จะเริ่มจากภาพและพยายามอนุมานพารามิเตอร์ของฉาก ซึ่งช่วยให้ทำนายได้ว่าวัตถุใดอยู่ในฉาก วัสดุใดบ้าง และตำแหน่งและการวางแนวสามมิติ

การฝึกอบรมระบบแมชชีนเลิร์นนิงที่สามารถแก้ไขงานด้านการมองเห็น 3 มิติที่ซับซ้อนเหล่านี้ได้ ส่วนใหญ่มักต้องการข้อมูลจำนวนมาก เนื่องจากข้อมูลการติดฉลากเป็นกระบวนการที่มีราคาแพงและซับซ้อน จึงเป็นสิ่งสำคัญที่จะต้องมีกลไกในการออกแบบโมเดลการเรียนรู้ของเครื่องที่สามารถเข้าใจโลกสามมิติในขณะที่ได้รับการฝึกอบรมโดยไม่ต้องมีการควบคุมดูแลมากนัก การผสมผสานเทคนิคคอมพิวเตอร์วิทัศน์และคอมพิวเตอร์กราฟิกทำให้มีโอกาสพิเศษในการใช้ประโยชน์จากข้อมูลที่ไม่มีป้ายกำกับจำนวนมากที่พร้อมใช้งาน ดังที่แสดงในภาพด้านล่าง ตัวอย่างเช่น สามารถทำได้โดยใช้การวิเคราะห์โดยการสังเคราะห์ โดยที่ระบบการมองเห็นจะแยกพารามิเตอร์ของฉาก และระบบกราฟิกจะแสดงภาพกลับโดยอิงจากพารามิเตอร์เหล่านั้น หากการเรนเดอร์ตรงกับภาพต้นฉบับ ระบบการมองเห็นได้แยกพารามิเตอร์ฉากออกมาอย่างแม่นยำ ในการตั้งค่านี้ คอมพิวเตอร์วิทัศน์และคอมพิวเตอร์กราฟิกทำงานร่วมกัน ทำให้เกิดระบบการเรียนรู้ของเครื่องเดียวที่คล้ายกับตัวเข้ารหัสอัตโนมัติ ซึ่งสามารถฝึกในลักษณะที่ควบคุมตนเองได้

กราฟิก Tensorflow ได้รับการพัฒนาเพื่อช่วยจัดการกับความท้าทายประเภทนี้ และเพื่อทำเช่นนั้น กราฟิกดังกล่าวจะมีชุดของเลเยอร์กราฟิกและเรขาคณิตที่ต่างกันได้ (เช่น กล้อง แบบจำลองการสะท้อนแสง การแปลงเชิงพื้นที่ การบิดแบบตาข่าย) และฟังก์ชัน 3D viewer (เช่น 3D TensorBoard) ที่ สามารถใช้ในการฝึกอบรมและดีบักโมเดลการเรียนรู้ของเครื่องที่คุณเลือก
เนื้อหาของหน้าเว็บนี้ได้รับอนุญาตภายใต้ใบอนุญาตที่ต้องระบุที่มาของครีเอทีฟคอมมอนส์ 4.0 และตัวอย่างโค้ดได้รับอนุญาตภายใต้ใบอนุญาต Apache 2.0 เว้นแต่จะระบุไว้เป็นอย่างอื่น โปรดดูรายละเอียดที่นโยบายเว็บไซต์ Google Developers Java เป็นเครื่องหมายการค้าจดทะเบียนของ Oracle และ/หรือบริษัทในเครือ
อัปเดตล่าสุด 2025-07-25 UTC
[null,null,["อัปเดตล่าสุด 2025-07-25 UTC"],[],[],null,["# Overview\n\n\u003cbr /\u003e\n\nThe last few years have seen a rise in novel differentiable graphics layers\nwhich can be inserted in neural network architectures. From spatial transformers\nto differentiable graphics renderers, these new layers leverage the knowledge\nacquired over years of computer vision and graphics research to build new and\nmore efficient network architectures. Explicitly modeling geometric priors and\nconstraints into neural networks opens up the door to architectures that can be\ntrained robustly, efficiently, and more importantly, in a self-supervised\nfashion.\n\nAt a high level, a computer graphics pipeline requires a representation of 3D\nobjects and their absolute positioning in the scene, a description of the\nmaterial they are made of, lights and a camera. This scene description is then\ninterpreted by a renderer to generate a synthetic rendering. \n\nIn comparison, a computer vision system would start from an image and try to\ninfer the parameters of the scene. This allows the prediction of which objects\nare in the scene, what materials they are made of, and the three-dimensional\nposition and orientation. \n\nTraining machine learning systems capable of solving these complex 3D vision\ntasks most often requires large quantities of data. As labelling data is a\ncostly and complex process, it is important to have mechanisms to design machine\nlearning models that can comprehend the three dimensional world while being\ntrained without much supervision. Combining computer vision and computer\ngraphics techniques provides a unique opportunity to leverage the vast amounts\nof readily available unlabelled data. As illustrated in the image below,\nthis can, for instance, be achieved using analysis by synthesis where the vision\nsystem extracts the scene parameters and the graphics system\nrenders back an image based on them. If the rendering matches the original\nimage, the vision system has accurately extracted the scene parameters. In this\nsetup, computer vision and computer graphics go hand in hand, forming a single\nmachine learning system similar to an autoencoder, which can be trained in a\nself-supervised manner. \n\nTensorflow Graphics is being developed to help tackle these types of challenges\nand to do so, it provides a set of differentiable graphics and geometry layers\n(e.g. cameras, reflectance models, spatial transformations, mesh convolutions)\nand 3D viewer functionalities (e.g. 3D TensorBoard) that can be used to train\nand debug your machine learning models of choice."]]