Sora (model teks-ke-video)

model teks-ke-video yang dikembangkan oleh OpenAI


Sora adalah sebuah model teks-ke-video yang dikembangkan oleh organisasi penelitian kecerdasan buatan (AI) OpenAI . Model ini menghasilkan video berdasarkan perintah deskriptif serta dapat memperluas video yang sudah ada.[1][2] Sampai dengan Februari 2024, Sora masih belum tersedia luas untuk publik.[3]

Sora
Sebuah video yang dihasilkan oleh Sora tentang seorang wanita yang berjalan di sebuah jalan di Tokyo
Tipetext-to-video model (en) Terjemahkan, artificial intelligence model (en) Terjemahkan dan diffusion model (en) Terjemahkan Edit nilai pada Wikidata
Versi pertama15 Februari 2024 Edit nilai pada Wikidata
GenreModel teks-ke-video
Eponimlangit Edit nilai pada Wikidata
Informasi pengembang
PembuatOpenAI Edit nilai pada Wikidata
PengembangOpenAI
Informasi tambahan
Situs websora.com (bahasa Inggris) Edit nilai pada Wikidata
SubredditSORA Edit nilai pada Wikidata
Sunting di Wikidata Sunting di Wikidata • Sunting kotak info • L • B
Info templat
Bantuan penggunaan templat ini

Sejarah

sunting

Beberapa model teks-ke-video lainnya telah dibuat sebelum Sora, diantaranya Make-A-Video dari Meta, Gen-2 dari Runway, dan Lumiere dari Google, yang sampai pada bulan Februari 2024, juga masih dalam tahap penelitian.[4][5] OpenAI, sebelum mengumumkan Sora, telah merilis DALL·E 3, sebuah model teks-ke-gambar pada bulan September 2023.[6]

Tim yang mengembangkan Sora menamakannya setelah kata dalam bahasa Jepang untuk langit sebagai penanda untuk "potensi kreatif yang tak terbatas".[1] Pada tanggal 15 Februari 2024, OpenAI pertama kali memperlihatkan Sora dengan merilis beberapa klip video definisi tinggi yang dibuatnya, diantaranya termasuk SUV yang melaju di jalan pegunungan, animasi "monster berbulu pendek" di samping lilin, dua orang berjalan melewati Tokyo di tengah salju, dan rekaman rekaan demam emas California, dan menyatakan bahwa Sora mampu menghasilkan video berdurasi hingga satu menit.[5][4] Laporan teknis kemudian disebarkan, yang menyoroti metode yang digunakan untuk melatih model tersebut.[2][7] CEO OpenAI Sam Altman juga memposting serangkaian tweet, menanggapi permintaan pengguna Twitter dengan video yang dihasilkan oleh Sora.

OpenAI telah menyatakan bahwa mereka berencana untuk membuat Sora tersedia untuk umum tetapi tidak disebutkan kapan akan tersedia.[5][3] Perusahaan memberikan akses terbatas kepada sebuah "tim merah" kecil, termasuk para ahli di bidang misinformasi dan bias, untuk melakukan pengujian terhadap model tersebut.[6] Perusahaan juga berbagi Sora dengan sekelompok kecil profesional kreatif, termasuk pembuat video dan seniman, untuk mencari masukan mengenai kegunaannya di bidang kreatif.[8]

Kemampuan dan keterbatasan

sunting

Teknologi di balik Sora merupakan pengembangan dari teknologi di balik DALL-E 3. Menurut OpenAI, Sora adalah transformator difusi[9] – model difusi laten denoising dengan satu transformer sebagai denoiser. Sebuah video dihasilkan dalam ruang laten dengan "tambalan" 3D, kemudian diubah menjadi ruang standar oleh dekompresor video. Pembuatan teks ulang digunakan untuk menambah data pelatihan, dengan menggunakan model video-ke-teks untuk membuat deskripsi mendetail pada video.[7]

OpenAI melatih model tersebut menggunakan video yang tersedia secara publik serta kumpulan video berhak cipta yang dilisensikan untuk tujuan tersebut, namun tidak mengungkapkan jumlah dan sumber pasti dari video tersebut.[1] Setelah dirilis, OpenAI mengakui beberapa kekurangan Sora, termasuk kesulitannya dalam mensimulasikan fisika kompleks, memahami kausalitas, dan membedakan antara kiri dari kanan.[10] Salah satu contoh menunjukkan sekelompok anak serigala yang tampak secara ganda, sehingga menciptakan skenario yang sulit diikuti.[11] OpenAI juga menyatakan bahwa, sesuai dengan praktik keselamatan perusahaan yang ada, Sora akan membatasi teks yang berisi gambar seksual, kekerasan, kebencian, atau konten selebriti, serta konten yang menampilkan kekayaan intelektual yang sudah ada.[6]

Tim Brooks, seorang peneliti Sora, menyatakan bahwa model tersebut menemukan cara membuat grafika komputer 3D hanya dari kumpulan datanya, sementara Bill Peebles, juga seorang peneliti Sora, mengatakan bahwa model tersebut secara otomatis membuat sudut video yang berbeda tanpa diminta sebelumnya.[5] Menurut OpenAI, video yang dihasilkan oleh Sora ditandai dengan metadata C2PA untuk menunjukkan bahwa video tersebut dihasilkan oleh kecerdasan buatan.[1]

Reaksi

sunting

Will Douglas Heaven dari MIT Technology Review menyebut video demonstrasi tersebut "mengesankan", namun menyatakan bahwa video tersebut pasti dipilih secara khusus dan mungkin tidak mewakili keluaran khas Sora pada umumnya.[8] Akademisi Amerika Oren Etzioni menyatakan kekhawatirannya atas kemampuan teknologi tersebut dalam menciptakan disinformasi daring untuk kampanye politik.[1] Untuk Wired, Steven Levy juga menulis bahwa film tersebut berpotensi menjadi "badai informasi yang salah" dan berpendapat bahwa klip pratinjaunya "mengesankan" tetapi "tidak sempurna" dan "menunjukkan pemahaman yang muncul tentang tata bahasa sinematik" karena perubahan tangkapan kamera tanpa diminta. Levy menambahkan, "akan memakan waktu yang sangat lama, jika akan terjadi, sebelum teks-ke-video mengancam pembuatan film yang sebenarnya."[5] Lisa Lacy dari CNET menyebut bahwa contoh videonya "sangat realistis – kecuali mungkin saat wajah manusia terlihat dari dekat atau saat makhluk laut sedang berenang".[6]

Lihat pula

sunting

Referensi

sunting
  1. ^ a b c d e Metz, Cade (February 15, 2024). "OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos". The New York Times. Diarsipkan dari versi asli tanggal February 15, 2024. Diakses tanggal February 15, 2024.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama "NYT_CM_2024_02_15" didefinisikan berulang dengan isi berbeda
  2. ^ a b Brooks, Tim; Peebles, Bill; Holmes, Connor; DePue, Will; Guo, Yufei; Jing, Li; Schnurr, David; Taylor, Joe; Luhman, Troy (February 15, 2024). "Video generation models as world simulators". OpenAI. Diarsipkan dari versi asli tanggal February 16, 2024. Diakses tanggal February 16, 2024.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama "OAI_research" didefinisikan berulang dengan isi berbeda
  3. ^ a b Yang, Angela (February 15, 2024). "OpenAI teases 'Sora,' its new text-to-video AI model". NBC News. Diarsipkan dari versi asli tanggal February 15, 2024. Diakses tanggal February 16, 2024.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama "NBC" didefinisikan berulang dengan isi berbeda
  4. ^ a b Shankar Das (February 15, 2024). "Sora AI Can Generate Realistic Video based on Text Prompts: OpenAI". Epi Express. Diarsipkan dari versi asli tanggal February 15, 2024. Diakses tanggal February 16, 2024.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama "Mash" didefinisikan berulang dengan isi berbeda
  5. ^ a b c d e Wired. Diarsipkan dari versi asli Parameter |archive-url= membutuhkan |url= (bantuan) tanggal February 15, 2024.  Tidak memiliki atau tanpa |title= (bantuan); Kesalahan pengutipan: Tanda <ref> tidak sah; nama "Wired" didefinisikan berulang dengan isi berbeda
  6. ^ a b c d Lacy, Lisa (February 15, 2024). "Meet Sora, OpenAI's Text-to-Video Generator". CNET. Diarsipkan dari versi asli tanggal February 16, 2024. Diakses tanggal February 16, 2024.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama "CNET" didefinisikan berulang dengan isi berbeda
  7. ^ a b Edwards, Benj (February 16, 2024). "OpenAI collapses media reality with Sora, a photorealistic AI video generator". Ars Technica (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal February 17, 2024. Diakses tanggal February 17, 2024.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama "ars" didefinisikan berulang dengan isi berbeda
  8. ^ a b Heaven, Will Douglas (February 15, 2024). "OpenAI teases an amazing new generative video model called Sora". MIT Technology Review. Diarsipkan dari versi asli tanggal February 15, 2024. Diakses tanggal February 15, 2024.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama "WDH_MIT_2024_02_15" didefinisikan berulang dengan isi berbeda
  9. ^ Peebles, William; Xie, Saining (2023). "Scalable Diffusion Models with Transformers". 2023 IEEE/CVF International Conference on Computer Vision (ICCV). hlm. 4172–4182. arXiv:2212.09748 . doi:10.1109/ICCV51070.2023.00387. ISBN 979-8-3503-0718-4. ISSN 2380-7504. 
  10. ^ Pequeño IV, Antonio (February 15, 2024). "OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts". Forbes. Diarsipkan dari versi asli tanggal February 15, 2024. Diakses tanggal February 15, 2024. 
  11. ^ "Sora Review | New AI Video Generator From OpenAI" (dalam bahasa Inggris). 2024-02-18. Diakses tanggal 2024-02-20. 

Pranala luar

sunting

[[Kategori:Teknologi film dan video]] [[Kategori:Penerapan kecerdasan buatan]]