هوش مصنوعی گوگل جمینای: معرفی مدل‌های مختلف Gemini

گوگل با هوش مصنوعی جمینای، مجموعه اصلی مدل‌ها، برنامه‌ها و سرویس‌های هوش مصنوعی تولیدی خود، تلاش می‌کند تأثیرات بزرگی ایجاد کند. اما جمینای چیست؟ چگونه می‌توانید از آن استفاده کنید؟ و چگونه در مقایسه با ابزارهای هوش مصنوعی تولیدی دیگر مانند ChatGPT شرکت OpenAI، Llama متا و Copilot مایکروسافت قرار می‌گیرد؟

برای سهولت در پیگیری جدیدترین تحولات مربوط به جمینای، این راهنمای مفید را تهیه کرده‌ایم و با انتشار مدل‌ها، ویژگی‌ها و اخبار جدید مربوط به برنامه‌های گوگل برای جمینای، آن را به‌روزرسانی خواهیم کرد.

جمینای چیست؟

جمینای خانواده‌ای از مدل‌های نسل جدید هوش مصنوعی تولیدی گوگل است که مدت‌ها منتظر آن بوده‌ایم. این مدل‌ها توسط آزمایشگاه‌های تحقیقاتی هوش مصنوعی گوگل، یعنی DeepMind و Google Research توسعه یافته‌اند و در چهار نسخه عرضه می‌شوند:

جمینای Ultra
جمینای Pro
جمینای Flash، نسخه‌ای سریع‌تر و “تقطیر شده” از Pro
جمینای Nano، دو مدل کوچک به نام‌های Nano-1 و Nano-2 که Nano-2 کمی قدرتمندتر است و قابلیت اجرا به‌صورت آفلاین دارد.

همه مدل‌های جمینای به صورت چندوجهی و چندرسانه‌ای آموزش دیده‌اند، به این معنی که می‌توانند با داده‌هایی غیر از متن کار کنند و آنها را تحلیل کنند. گوگل اعلام کرده که این مدل‌ها روی مجموعه‌ای از داده‌های صوتی، تصاویر و ویدیوها، پایگاه‌های کد و متن در زبان‌های مختلف آموزش دیده‌اند و از داده‌های عمومی، اختصاصی و دارای مجوز استفاده کرده‌اند.

این ویژگی جمینای را از مدل‌هایی مانند LaMDA خود گوگل متمایز می‌کند که فقط بر اساس داده‌های متنی آموزش دیده است. LaMDA توانایی درک یا تولید چیزی جز متن (مانند مقاله‌ها، ایمیل‌ها و غیره) را ندارد، اما این مورد در مدل‌های جمینای صدق نمی‌کند.

نکته‌ای که باید به آن اشاره کنیم، این است که اخلاقیات و قانونی بودن آموزش مدل‌ها با استفاده از داده‌های عمومی، گاهی بدون آگاهی یا رضایت صاحبان داده‌ها، همچنان در هاله‌ای از ابهام قرار دارد. گوگل سیاستی در مورد حمایت قانونی برای برخی از مشتریان سرویس‌های ابری خود دارد، اما این سیاست شامل استثناهایی می‌شود. در نتیجه، اگر قصد استفاده تجاری از جمینای را دارید، باید با دقت بیشتری عمل کنید.

تفاوت بین اپلیکیشن‌های جمینای و مدل‌های جمینای چیست؟

جمینای با اپلیکیشن‌های وب و موبایل جمینای (که قبلاً به نام Bard شناخته می‌شد) کاملاً متفاوت است.

اپلیکیشن‌های جمینای به عنوان کلاینت‌هایی عمل می‌کنند که به مدل‌های مختلف جمینای متصل شده و یک رابط شبیه به چت‌بات را روی آن‌ها قرار می‌دهند. این اپلیکیشن‌ها به عنوان واسط‌هایی برای هوش مصنوعی تولیدی گوگل عمل می‌کنند و شبیه به ChatGPT و خانواده اپلیکیشن‌های Claude شرکت Anthropic هستند.

نسخه وب جمینای در اینجا قرار دارد. در اندروید، اپلیکیشن جمینای جایگزین اپلیکیشن دستیار گوگل شده است و در iOS، اپلیکیشن‌های Google و Google Search به عنوان کلاینت‌های جمینای در آن پلتفرم عمل می‌کنند.

در اندروید، همچنین اخیراً امکان آوردن پنل جمینای روی هر اپلیکیشنی برای پرسش درباره محتوای نمایش داده شده (مثلاً یک ویدئوی YouTube) فراهم شده است. کافی است دکمه پاور گوشی هوشمند پشتیبانی‌شده را نگه دارید یا بگویید “Hey Google” تا این پنل ظاهر شود.

اپلیکیشن‌های جمینای می‌توانند تصاویر، دستورات صوتی و متنی را دریافت کنند — از جمله فایل‌هایی مانند PDF و به زودی ویدئوها که یا آپلود شده یا از Google Drive وارد شده‌اند — و تصاویر تولید کنند. همان‌طور که انتظار دارید، مکالمات شما با اپلیکیشن‌های جمینای روی موبایل به نسخه وب جمینای منتقل می‌شوند و برعکس، به شرطی که در هر دو دستگاه با یک حساب Google وارد شده باشید.

جمینای پیشرفته

هوش مصنوعی گوگل فقط با استفاده از اپلیکیشن‌های جمینای دردسترس نیستند. به تدریج، ویژگی‌های جمینای به برنامه‌ها و سرویس‌های اصلی گوگل مانند Gmail و Google Docs راه پیدا می‌کنند.

برای استفاده از بیشتر این ویژگی‌ها، نیاز به طرح Google One AI Premium دارید. این طرح که به طور فنی بخشی از Google One است، هزینه‌ای معادل ۲۰ دلار دارد و به شما امکان دسترسی به جمینای در برنامه‌های Google Workspace مانند Docs، Slides، Sheets و Meet را می‌دهد. این طرح همچنین امکان استفاده از ویژگی “جمینای پیشرفته” را فراهم می‌کند که مدل‌های پیشرفته‌تر جمینای را به اپلیکیشن‌های جمینای می‌آورد.

کاربران جمینای پیشرفته از مزایای بیشتری برخوردار می‌شوند، مانند دسترسی به ویژگی‌های جدید در اولویت، قابلیت اجرای کد Python به صورت مستقیم در جمینای و پنجره محتوای بزرگ‌تر. جمینای پیشرفته می‌تواند محتوای حدود ۷۵۰,۰۰۰ کلمه را در یک مکالمه (یا ۱۵۰۰ صفحه سند) به خاطر بسپارد و درک کند، که در مقایسه با ۲۴,۰۰۰ کلمه (یا ۴۸ صفحه) که نسخه معمولی جمینای می‌تواند مدیریت کند، قابل توجه است.

یکی دیگر از ویژگی‌های منحصر به فرد جمینای پیشرفته، برنامه‌ریزی سفر در Google Search است که از ایمیل‌های موجود در جیمیل، ترجیحات غذایی، اطلاعات جاذبه‌های محلی و فاصله بین این جاذبه‌ها استفاده می‌کند و برنامه‌ای سفارشی ایجاد می‌کند که به صورت خودکار با هرگونه تغییر به‌روزرسانی می‌شود.

جمینای در سرویس‌های گوگل همچنین از طریق دو طرح به مشتریان شرکتی ارائه می‌شود: جمینای بیزینس (به عنوان افزونه‌ای برای Google Workspace) و جمینای اینترپرایز. هزینه طرح جمینای بیزینس از ۲۰ دلار برای هر کاربر در ماه شروع می‌شود و جمینای اینترپرایز که شامل امکاناتی مانند یادداشت‌برداری از جلسات و ترجمه زیرنویس‌ها می‌شود، از ۳۰ دلار به بالا برای هر کاربر در ماه قیمت دارد. (هر دو طرح به یک تعهد سالانه نیاز دارند.)

جمینای در Gmail، Docs، Chrome، ابزارهای توسعه و موارد دیگر

در Gmail، جمینای در یک پنل جانبی قرار دارد که می‌تواند ایمیل‌ها را بنویسد و موضوعات پیام‌ها را خلاصه کند. همین پنل در Docs نیز وجود دارد که به شما در نوشتن، اصلاح محتوا و ایده‌پردازی کمک می‌کند. جمینای در Slides اسلایدها و تصاویر سفارشی ایجاد می‌کند و در Google Sheets داده‌ها را پیگیری و سازماندهی می‌کند و جدول‌ها و فرمول‌ها را ایجاد می‌کند.

جمینای به Google Drive نیز راه پیدا کرده است، جایی که می‌تواند فایل‌ها را خلاصه کرده و اطلاعات پروژه‌ها را به سرعت ارائه دهد. در Meet، جمینای زیرنویس‌ها را به زبان‌های دیگر ترجمه می‌کند.

جمینای اخیراً به مرورگر Chrome گوگل نیز به عنوان ابزاری برای نوشتن هوشمند وارد شده است. می‌توانید از آن برای نوشتن محتوای جدید یا بازنویسی متن موجود استفاده کنید؛ گوگل اعلام کرده که این ابزار بر اساس محتوای وب‌سایتی که در آن حضور دارید، پیشنهاداتی ارائه خواهد داد.

در دیگر سرویس‌های گوگل مانند محصولات پایگاه‌داده، ابزارهای امنیتی ابری و پلتفرم‌های توسعه اپلیکیشن (از جمله Firebase و Project IDX)، نشانه‌هایی از جمینای مشاهده می‌شود. همچنین در برنامه‌هایی مانند Google Photos (که جمینای به جستجوهای متنی طبیعی پاسخ می‌دهد)، YouTube (که ایده‌های ویدئویی ارائه می‌دهد) و دستیار یادداشت‌برداری NotebookLM استفاده می‌شود.

Code Assist (که قبلاً به عنوان Duet AI for Developers شناخته می‌شد)، مجموعه ابزارهای کمکی گوگل برای تکمیل و تولید کد، از جمینای برای انجام محاسبات سنگین استفاده می‌کند. همچنین محصولات امنیتی گوگل که توسط جمینای پشتیبانی می‌شوند، مانند Threat Intelligence جمینای، که می‌تواند قسمت‌های بزرگی از کدهای مخرب احتمالی را تحلیل کند و به کاربران اجازه جستجوهای متنی طبیعی برای تهدیدهای جاری یا نشانه‌های مشکل را بدهد، از این مدل بهره می‌برند.

افزونه‌ها و Gems در جمینای

در کنفرانس Google I/O 2024، اعلام شد که کاربران جمینای پیشرفته می‌توانند Gems، چت‌بات‌های سفارشی که توسط مدل‌های جمینای پشتیبانی می‌شوند، ایجاد کنند. Gems از توضیحات زبان طبیعی تولید می‌شوند — به عنوان مثال، “تو مربی دویدن من هستی. برای من یک برنامه دویدن روزانه طراحی کن” — و می‌توانند با دیگران به اشتراک گذاشته شوند یا خصوصی نگه داشته شوند.

Gems در دسکتاپ و موبایل در ۱۵۰ کشور و اکثر زبان‌ها در دسترس هستند. در نهایت، این چت‌بات‌ها قادر خواهند بود به مجموعه‌ای گسترش‌یافته از یکپارچگی با سرویس‌های گوگل، از جمله Google Calendar، Tasks، Keep، و YouTube Music، دسترسی پیدا کنند تا وظایف سفارشی را تکمیل کنند.

در مورد یکپارچگی‌ها، اپلیکیشن‌های جمینای روی وب و موبایل می‌توانند از طریق آنچه گوگل “افزونه‌های جمینای” می‌نامد، به سرویس‌های گوگل متصل شوند. در حال حاضر، جمینای با Google Drive، Gmail، و YouTube ادغام شده است تا به پرسش‌هایی مانند “می‌توانید سه ایمیل آخر من را خلاصه کنید؟” پاسخ دهد. در اواخر امسال، جمینای قادر خواهد بود تا اقدامات بیشتری با Google Calendar، Keep، Tasks، YouTube Music و اپلیکیشن‌های اختصاصی اندروید برای کنترل ویژگی‌های دستگاه مانند تایمرها و زنگ‌ها، کنترل‌های رسانه‌ای، چراغ قوه، حجم صدا، Wi-Fi، بلوتوث و غیره انجام دهد.

چت‌های صوتی عمیق جمینای Live

یک تجربه جدید به نام Gemini Live، که منحصر به کاربران جمینای پیشرفته است، به کاربران این امکان را می‌دهد تا چت‌های صوتی عمیقی با جمینای داشته باشند. این ویژگی در اپلیکیشن‌های جمینای روی موبایل و Pixel Buds Pro 2 در دسترس است، جایی که حتی در زمانی که گوشی قفل است، قابل دسترسی است.

با فعال کردن Gemini Live، شما می‌توانید هنگام صحبت کردن جمینای آن را متوقف کرده و سوالی شفاف‌سازی بپرسید و جمینای به الگوهای گفتاری شما در زمان واقعی پاسخ خواهد داد. همچنین، اواخر امسال، جمینای قادر خواهد بود تا محیط اطراف شما را از طریق عکس‌ها یا ویدئوهای گرفته شده توسط دوربین‌های گوشی‌ هوشمند شما مشاهده کرده و به آن‌ها پاسخ دهد.

Gemini Live همچنین به عنوان یک مربی مجازی عمل می‌کند و به شما کمک می‌کند برای رویدادها تمرین کنید، ایده‌پردازی کنید و غیره. برای مثال، Live می‌تواند به شما پیشنهاد دهد که چه مهارت‌هایی را در یک مصاحبه شغلی یا کارآموزی آینده برجسته کنید و می‌تواند مشاوره‌هایی درباره سخنرانی عمومی ارائه دهد.

شما می‌توانید نقد و بررسی ما درباره Gemini Live را اینجا بخوانید. هشدار اسپویلر: ما فکر می‌کنیم این ویژگی هنوز راه زیادی دارد تا به یک ابزار فوق‌العاده مفید تبدیل شود — البته هنوز در مراحل ابتدایی است.

تولید تصویر با مدل Imagen 3

کاربران جمینای می‌توانند آثار هنری و تصاویر را با استفاده از مدل Imagen 3 داخلی گوگل ایجاد کنند.

گوگل ادعا می‌کند که Imagen 3 نسبت به نسخه قبلی خود، Imagen 2، متون دستوری را که به تصاویر ترجمه می‌کند، با دقت بیشتری درک می‌کند و تولیدات آن خلاقانه‌تر و جزئیات بیشتری دارد. همچنین، این مدل تعداد کمتری از آثار و خطاهای بصری تولید می‌کند (حداقل به گفته گوگل) و بهترین مدل Imagen برای رندر کردن متن است. در ماه فوریه، گوگل مجبور شد قابلیت جمینای در تولید تصاویر افراد را متوقف کند، چرا که کاربران از نواقص تاریخی در تصاویر شکایت کردند. اما در ماه آگوست، این شرکت مجدداً امکان تولید تصاویر افراد را برای برخی از کاربران، به ویژه کاربران انگلیسی‌زبان که به یکی از طرح‌های پولی جمینای (مانند جمینای پیشرفته) ثبت نام کرده بودند، به عنوان بخشی از یک برنامه آزمایشی، بازگرداند.

جمینای برای نوجوانان

در ماه ژوئن، گوگل یک تجربه جمینای متمرکز بر نوجوانان را معرفی کرد که به دانش‌آموزان اجازه می‌داد از طریق حساب‌های Google Workspace for Education مدارس خود ثبت نام کنند.

نسخه جمینای نوجوانان دارای “سیاست‌ها و محافظت‌های اضافی” است که شامل یک فرآیند آغازین سفارشی و یک “راهنمای سواد هوش مصنوعی” می‌شود تا به گفته گوگل، به نوجوانان کمک کند از هوش مصنوعی به طور مسئولانه استفاده کنند. در غیر این صورت، این تجربه تقریباً مشابه تجربه استاندارد جمینای است، تا حدی که ویژگی “بررسی دوگانه” نیز وجود دارد که به بررسی وب می‌پردازد تا اطمینان حاصل شود که پاسخ‌های جمینای دقیق هستند.

جمینای در دستگاه‌های هوشمند خانگی

تعداد فزاینده‌ای از دستگاه‌های ساخت گوگل برای بهبود عملکرد خود از جمینای بهره می‌برند، از جمله Google TV Streamer، Pixel 9 و ۹ Pro، و جدیدترین Nest Learning Thermostat.

در Google TV Streamer، جمینای از ترجیحات شما برای پیشنهاد محتوا از میان اشتراک‌هایتان استفاده می‌کند و بررسی‌ها و حتی فصل‌های کامل سریال‌های تلویزیونی را خلاصه می‌کند. در جدیدترین ترموستات Nest (و همچنین بلندگوها، دوربین‌ها و نمایشگرهای هوشمند Nest)، جمینای به زودی توانایی‌های تحلیلی و مکالمه‌ای دستیار گوگل را تقویت خواهد کرد.

مشترکان طرح Nest Aware گوگل در اواخر امسال پیش‌نمایشی از تجربه‌های جدید جمینای خواهند داشت، مانند توضیحات مبتنی بر هوش مصنوعی برای فیلم‌های دوربین Nest، جستجوی ویدیویی به زبان طبیعی، و اتوماسیون‌های توصیه‌شده. دوربین‌های Nest قادر خواهند بود تا آنچه که در ویدیوهای زنده در حال رخ دادن است را درک کنند (مثلاً وقتی سگی در حال کندن زمین در باغ است)، در حالی که اپلیکیشن همراه Google Home ویدیوها را نمایش داده و اتوماسیون دستگاه‌ها را براساس توضیحات ایجاد می‌کند (برای مثال، “آیا بچه‌ها دوچرخه‌هایشان را در مسیر ورودی رها کرده‌اند؟” یا “آیا ترموستات Nest من باید هر سه‌شنبه وقتی از سر کار به خانه می‌آیم، گرمایش را روشن کند؟”).

همچنین در اواخر امسال، دستیار گوگل در دستگاه‌های هوشمند برند Nest و دیگر دستگاه‌های هوشمند خانگی چندین ارتقاء دریافت خواهد کرد تا مکالمات طبیعی‌تر شوند. صداهای بهبود‌یافته در راه هستند، به علاوه امکان پرسیدن سوالات پیگیری و رفت و برگشت راحت‌تر در مکالمات نیز اضافه خواهد شد.

چه کارهایی می‌توان با مدل‌های Gemini انجام داد؟

مدل‌های Gemini چندرسانه‌ای هستند و می‌توانند طیف وسیعی از وظایف چندرسانه‌ای را انجام دهند، از جمله تبدیل گفتار به متن، توضیح تصاویر و ویدیوها در زمان واقعی. بسیاری از این قابلیت‌ها به مرحله محصول رسیده‌اند (همانطور که در بخش قبلی اشاره شد) و گوگل وعده‌های بیشتری برای آینده‌ای نزدیک دارد.

البته، اعتماد به قول‌های شرکت کمی دشوار است. گوگل در ارائه اولیه Bard عملکرد ضعیفی داشت. اخیراً نیز با ویدیویی که به قابلیت‌های Gemini اشاره داشت و بیشتر جنبه آرزویی داشت تا واقعی، حاشیه‌هایی ایجاد کرد.

همچنین، گوگل هیچ راه‌حلی برای برخی از مشکلات اصلی فناوری‌های هوش مصنوعی تولیدی امروز ارائه نمی‌دهد، مانند تعصبات ذاتی و تمایل به ساختن چیزها (یعنی توهم). رقبای آن نیز به همین ترتیب، اما باید به این نکته توجه کرد که هنگام استفاده یا پرداخت برای Gemini این موضوع را مدنظر قرار دهید.

با فرض این که گوگل در ادعاهای اخیر خود صادق است، در اینجا به قابلیت‌های مختلف مدل‌های هوش مصنوعی گوگل جمینای اکنون و آنچه که قادر به انجام آن خواهند بود، اشاره می‌شود:

چه کارهایی می‌توان با Gemini Ultra انجام داد

گوگل می‌گوید که Gemini Ultra – به لطف چندرسانه‌ای بودنش – می‌تواند در انجام کارهایی مانند کمک به تکالیف فیزیک، حل مسائل گام به گام در یک برگه، و شناسایی اشتباهات احتمالی در پاسخ‌های پر شده استفاده شود.

Ultra همچنین می‌تواند برای شناسایی مقالات علمی مرتبط با یک مشکل، به گفته گوگل، استفاده شود. این مدل می‌تواند اطلاعات را از چندین مقاله استخراج کرده و برای مثال، یک نمودار را از یکی به‌روزرسانی کند و فرمول‌های لازم برای بازسازی نمودار با داده‌های به‌روزتر را تولید کند.

Gemini Ultra به طور تکنیکی از تولید تصویر پشتیبانی می‌کند. اما این قابلیت هنوز به نسخه محصولی مدل وارد نشده است – شاید به این دلیل که مکانیزم آن پیچیده‌تر از نحوه تولید تصاویر در برنامه‌هایی مانند ChatGPT است. به جای ارسال درخواست‌ها به یک تولیدکننده تصویر (مانند DALL-E 3 در مورد ChatGPT)، هوش مصنوعی گوگل جمینای تصاویر را “به طور بومی” تولید می‌کند، بدون مرحله میانجی.

Ultra به عنوان یک API از طریق Vertex AI، پلتفرم توسعه هوش مصنوعی کاملاً مدیریت‌شده گوگل، و AI Studio، ابزار تحت وب گوگل برای توسعه‌دهندگان برنامه‌ها و پلتفرم‌ها، در دسترس است.

قابلیت‌های Gemini Pro

گوگل می‌گوید که Gemini Pro بهبود یافته‌ای نسبت به LaMDA در توانایی‌های استدلال، برنامه‌ریزی و درک دارد. نسخه جدید، Gemini 1.5 Pro – که اپلیکیشن‌های Gemini برای مشترکین Gemini Advanced را تأمین می‌کند – در برخی از زمینه‌ها حتی عملکرد بهتری نسبت به Ultra دارد.

Gemini 1.5 Pro در مقایسه با نسخه قبلی خود، Gemini 1.0 Pro، در چندین زمینه بهبود یافته است، شاید به وضوح در مقدار داده‌ای که می‌تواند پردازش کند. Gemini 1.5 Pro می‌تواند تا ۱.۴ میلیون کلمه، دو ساعت ویدیو، یا ۲۲ ساعت صوت را دریافت کند و می‌تواند در مورد آن داده‌ها استدلال کند یا به سوالات پاسخ دهد (به نسبت).

Gemini 1.5 Pro از ماه ژوئن به طور عمومی در Vertex AI و AI Studio در دسترس قرار گرفت، همراه با ویژگی‌ای به نام اجرای کد، که به هدف کاهش اشکالات در کدی که مدل تولید می‌کند، با اصلاح تدریجی کد در چندین مرحله عمل می‌کند. (اجرای کد همچنین از Gemini Flash پشتیبانی می‌کند.)

در Vertex AI، توسعه‌دهندگان می‌توانند Gemini Pro را به زمینه‌ها و موارد استفاده خاص سفارشی کنند از طریق فرآیند تنظیم یا “زمینه‌سازی”. برای مثال، Pro (همراه با دیگر مدل‌های Gemini) می‌تواند دستور داده شود تا از داده‌های تأمین‌کنندگان ثالث مانند Moody’s، Thomson Reuters، ZoomInfo و MSCI، یا از مجموعه‌های داده شرکتی یا جستجوی گوگل به جای بانک اطلاعاتی گسترده خود اطلاعات جمع‌آوری کند. Gemini Pro همچنین می‌تواند به APIهای خارجی ثالث متصل شود تا اقداماتی خاص را انجام دهد، مانند اتوماسیون یک جریان کاری در پشت صحنه.

AI Studio الگوهایی برای ایجاد درخواست‌های گفتاری ساختاریافته با Pro ارائه می‌دهد. توسعه‌دهندگان می‌توانند دامنه خلاقیت مدل را کنترل کنند و مثال‌هایی برای ارائه دستورالعمل‌های لحن و سبک فراهم کنند – و همچنین تنظیمات ایمنی Pro را تنظیم کنند.

Vertex AI Agent Builder به مردم اجازه می‌دهد تا “نمایندگانی” که توسط Gemini قدرت گرفته‌اند، درون Vertex AI بسازند. برای مثال، یک شرکت می‌تواند نماینده‌ای ایجاد کند که کمپین‌های بازاریابی قبلی را تحلیل کند تا سبک برند را درک کند و سپس آن دانش را برای کمک به تولید ایده‌های جدید متناسب با سبک به کار ببرد.

Gemini Flash برای کارهای کمتر demanding

برای کاربردهای کمتر demanding، Gemini Flash وجود دارد. جدیدترین نسخه آن ۱.۵ Flash است؛ کاربران اپلیکیشن Gemini که مشترک Gemini Advanced نیستند به این نسخه دسترسی دارند.

یک انشعاب از Gemini Pro که کوچک و کارآمد است، برای بارهای کاری تولیدی با فرکانس بالا و باریک طراحی شده است، Flash نیز چندرسانه‌ای مانند Gemini Pro است، به این معنی که می‌تواند صوت، ویدیو، تصاویر و متن را تحلیل کند (اما تنها می‌تواند متن تولید کند). گوگل می‌گوید که Flash به‌ویژه برای وظایفی مانند خلاصه‌سازی و برنامه‌های چت، همچنین توضیح تصاویر و ویدیوها و استخراج داده‌ها از اسناد و جداول طولانی مناسب است.

توسعه‌دهندگان استفاده‌کننده از Flash و Pro می‌توانند به صورت اختیاری از ذخیره‌سازی context استفاده کنند، که به آنها اجازه می‌دهد مقادیر زیادی از اطلاعات (برای مثال، یک پایگاه دانش یا پایگاه داده‌ای از مقالات تحقیقاتی) را در یک کش ذخیره کنند که مدل‌های Gemini می‌توانند به سرعت و به نسبت ارزان به آن دسترسی پیدا کنند. ذخیره‌سازی context هزینه اضافی بر روی هزینه‌های دیگر استفاده از مدل‌های هوش مصنوعی گوگل جمینای دارد.

Gemini Nano بر روی گوشی شما قابل اجراست

Gemini Nano نسخه‌ای بسیار کوچکتر از مدل‌های Gemini Pro و Ultra است و به اندازه کافی کارآمد است که مستقیماً بر روی (برخی از) دستگاه‌ها اجرا شود به جای ارسال وظیفه به یک سرور در جایی دیگر. تا کنون، Nano چندین ویژگی را در Pixel 8 Pro، Pixel 8، Pixel 9 Pro، Pixel 9 و Samsung Galaxy S24 تأمین کرده است، از جمله خلاصه‌سازی در Recorder و پاسخ هوشمند در Gboard.

اپلیکیشن Recorder، که به کاربران اجازه می‌دهد با فشار دادن یک دکمه صدا را ضبط و تبدیل به متن کند، شامل خلاصه‌ای از مکالمات ضبط شده، مصاحبه‌ها، ارائه‌ها و دیگر تکه‌های صوتی است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi نداشته باشند، خلاصه‌ها را دریافت می‌کنند – و به احترام به حریم خصوصی، هیچ داده‌ای در این فرآیند از گوشی آنها خارج نمی‌شود.

Nano همچنین در Gboard، جایگزین صفحه‌کلید گوگل، موجود است. در آنجا، این مدل ویژگی‌ای به نام پاسخ هوشمند را تأمین می‌کند که به کمک به پیشنهاد گفتار بعدی شما هنگام مکالمه در برنامه‌های پیام‌رسان مانند WhatsApp می‌پردازد.

در اپلیکیشن Google Messages بر روی دستگاه‌های پشتیبانی‌شده، Nano Magic Compose را هدایت می‌کند، که می‌تواند پیام‌ها را به سبک‌های “هیجان‌زده”، “رسمی” و “شاعری” بنویسد.

گوگل می‌گوید که نسخه آینده Android از Nano برای هشدار دادن به کاربران در مورد کلاهبرداری‌های احتمالی در طول تماس‌ها استفاده خواهد کرد. اپلیکیشن جدید آب و هوا در تلفن‌های Pixel از Gemini Nano برای تولید گزارش‌های آب و هوای شخصی‌سازی‌شده استفاده می‌کند. و TalkBack، سرویس دسترسی گوگل، از Nano برای ایجاد توصیف‌های صوتی از اشیاء برای کاربران کم‌بینایی و نابینا استفاده می‌کند.

هزینه مدل‌های Gemini چقدر است؟

مدل‌های Gemini 1.0 Pro (نسخه اول Gemini Pro)، ۱.۵ Pro، و Flash از طریق API Gemini گوگل برای ساخت برنامه‌ها و خدمات در دسترس هستند — که همگی با گزینه‌های رایگان ارائه می‌شوند. اما گزینه‌های رایگان محدودیت‌هایی در استفاده دارند و برخی ویژگی‌ها مانند ذخیره‌سازی context و گروه‌بندی را شامل نمی‌شوند.

مدل‌های هوش مصنوعی گوگل جمینای به طور کلی به صورت پرداخت به ازای استفاده هستند. در اینجا قیمت‌های پایه — بدون احتساب افزودنی‌ها مانند ذخیره‌سازی context — از سپتامبر ۲۰۲۴ آمده است:

Gemini 1.0 Pro: ۵۰ سنت به ازای هر ۱ میلیون توکن ورودی، ۱.۵۰ دلار به ازای هر ۱ میلیون توکن خروجی
Gemini 1.5 Pro: ۳.۵۰ دلار به ازای هر ۱ میلیون توکن ورودی (برای درخواست‌هایی تا ۱۲۸ هزار توکن) یا ۷ دلار به ازای هر ۱ میلیون توکن ورودی (برای درخواست‌های طولانی‌تر از ۱۲۸ هزار توکن)؛ ۱۰.۵۰ دلار به ازای هر ۱ میلیون توکن خروجی (برای درخواست‌هایی تا ۱۲۸ هزار توکن) یا ۲۱ دلار به ازای هر ۱ میلیون توکن خروجی (برای درخواست‌های طولانی‌تر از ۱۲۸ هزار توکن)
Gemini 1.5 Flash: ۷.۵ سنت به ازای هر ۱ میلیون توکن ورودی (برای درخواست‌هایی تا ۱۲۸ هزار توکن)، ۱۵ سنت به ازای هر ۱ میلیون توکن ورودی (برای درخواست‌های طولانی‌تر از ۱۲۸ هزار توکن)، ۳۰ سنت به ازای هر ۱ میلیون توکن خروجی (برای درخواست‌هایی تا ۱۲۸ هزار توکن)، ۶۰ سنت به ازای هر ۱ میلیون توکن خروجی (برای درخواست‌های طولانی‌تر از ۱۲۸ هزار توکن)

توکن‌ها قطعات داده خام هستند، مانند هجاهای “fan”، “tas”، و “tic” در کلمه “fantastic”؛ ۱ میلیون توکن معادل حدود ۷۰۰ هزار کلمه است. ورودی به توکن‌هایی اشاره دارد که به مدل داده می‌شود، در حالی که خروجی به توکن‌هایی اشاره دارد که مدل تولید می‌کند.

قیمت مدل Ultra هنوز اعلام نشده است و Nano هنوز در دسترس اولیه است.

آیا Gemini به آیفون خواهد آمد؟

ممکن است.

اپل گفته است که در حال گفتگو برای استفاده از مدل‌های Gemini و سایر مدل‌های شخص ثالث در تعدادی از ویژگی‌های مجموعه Apple Intelligence است. پس از ارائه‌ای در WWDC 2024، Craig Federighi، معاون ارشد اپل، تایید کرد که برنامه‌هایی برای همکاری با مدل‌ها از جمله هوش مصنوعی گوگل جمینای وجود دارد، اما جزئیات بیشتری را فاش نکرد.

این پست در تاریخ ۱۶ فوریه ۲۰۲۴ منتشر شد و از آن زمان به‌روزرسانی‌هایی شامل اطلاعات جدید درباره Gemini و برنامه‌های گوگل برای آن دریافت کرده است.

برای دریافت جدیدترین اخبار تکنولوژی و آموزش‌ها لطفا عضو خبرنامه سامانه ایران شوید.

هوش مصنوعی گوگل جمینای: معرفی مدل‌های مختلف Gemini

جمینای چیست؟

تفاوت بین اپلیکیشن‌های جمینای و مدل‌های جمینای چیست؟

جمینای پیشرفته

جمینای در Gmail، Docs، Chrome، ابزارهای توسعه و موارد دیگر

افزونه‌ها و Gems در جمینای

چت‌های صوتی عمیق جمینای Live

تولید تصویر با مدل Imagen 3

جمینای برای نوجوانان

جمینای در دستگاه‌های هوشمند خانگی

چه کارهایی می‌توان با مدل‌های Gemini انجام داد؟

چه کارهایی می‌توان با Gemini Ultra انجام داد

قابلیت‌های Gemini Pro

Gemini Flash برای کارهای کمتر demanding

Gemini Nano بر روی گوشی شما قابل اجراست

هزینه مدل‌های Gemini چقدر است؟

آیا Gemini به آیفون خواهد آمد؟

آیفون ۱۶، هوش مصنوعی اپل، ایرپادز ۴ و بیشتر در رویداد اپل ۲۰۲۴ رونمایی شد

اسکوتر برقی هندی به سوی بازار بورس؛ تغییر مسیر استارتاپ خودران Nuro

دیدگاهتان را بنویسید لغو پاسخ

دسته بندی مطالب

ESC را فشار دهید تا بسته شود

هوش مصنوعی گوگل جمینای: معرفی مدل‌های مختلف Gemini

جمینای چیست؟

تفاوت بین اپلیکیشن‌های جمینای و مدل‌های جمینای چیست؟

جمینای پیشرفته

جمینای در Gmail، Docs، Chrome، ابزارهای توسعه و موارد دیگر

افزونه‌ها و Gems در جمینای

چت‌های صوتی عمیق جمینای Live

تولید تصویر با مدل Imagen 3

جمینای برای نوجوانان

جمینای در دستگاه‌های هوشمند خانگی

چه کارهایی می‌توان با مدل‌های Gemini انجام داد؟

چه کارهایی می‌توان با Gemini Ultra انجام داد

قابلیت‌های Gemini Pro

Gemini Flash برای کارهای کمتر demanding

Gemini Nano بر روی گوشی شما قابل اجراست

هزینه مدل‌های Gemini چقدر است؟

آیا Gemini به آیفون خواهد آمد؟

آیفون ۱۶، هوش مصنوعی اپل، ایرپادز ۴ و بیشتر در رویداد اپل ۲۰۲۴ رونمایی شد

اسکوتر برقی هندی به سوی بازار بورس؛ تغییر مسیر استارتاپ خودران Nuro

دیدگاهتان را بنویسید لغو پاسخ

دسته بندی مطالب

برچسب ها