Graphic=Google's AI with Gemini Model vs. OpenAI's ChatGPT: The AI Showdown (Copyright@Senmoney)
Graphic=Google's AI with Gemini Model vs. OpenAI's ChatGPT: The AI Showdown (Copyright@Senmoney)

[Senmoney=Philip Cho] Google은 Bard AI 챗봇에 새로운 Gemini 모델을 통해 비디오, 오디오 및 사진의 원천적인 이해력을 추가하면서 혁명적인 업데이트를 도입했다. 이 업데이트는 초기에는 영어로 제공되며 Google Pixel 8 전화기 소유자에게 액세스 가능하며, 향후 확대 롤아웃 계획이 있다.

Gemini 업데이트는 AI의 텍스트 기반 채팅 능력을 향상시켜 복잡한 작업, 예를 들어 문서 요약, 추론 및 프로그래밍 코드 작성과 같은 작업에서의 성능을 향상시킨다. 그러나 주요 변경 사항은 비디오에서 손 제스처를 이해하고 어린이 점과 점 그림 퍼즐의 결과를 해석하는 기능과 같은 멀티미디어 능력이 추가 됐다 볼 수 있다.

Gemini는 AI 개발에서 중요한 변화를 가져오며, AI와 인간이 세 가지 차원적이고 끊임없이 변화하는 세계를 이해하는 간격을 줄이려는 시도다. 이 새로운 기술은 다음과 같이 다양한 컴퓨팅 파워 레벨에 맞게 세 가지 버전으로 제공된다.

  1. Gemini Nano: 모바일 전화기용으로 사용 가능한 두 가지 다른 메모리 수준을 고려하여 설계되었다. 이 버전은 Google의 Pixel 8 전화기에서 대화 요약 및 WhatsApp에서 Google의 Gboard를 사용하여 메시지 답변 제안과 같은 새로운 기능을 구동한다.

  2. Gemini Pro: 빠른 응답을 위해 최적화된 이 버전은 Google의 데이터 센터에서 실행되며 Bard의 업데이트 버전을 구동한다.

  3. Gemini Ultra: 현재 테스트 그룹으로 제한되어 있으며, 이 고급 버전은 2024년 초에 예상되는 새로운 Bard Advanced 챗봇에 통합된다. Google은 이 상위 기능에 대한 가격 정보를 공개하지 않았지만 프리미엄 가격을 예상한다.

Gemini는 생성적인 AI 분야에서 Google의 최신 시도로, AI가 세계를 이해하고 상호 작용하는 방식을 모방하여 AI를 더 나은 협업자와 같은 도구로 만드는 것을 목표로 한다. Google의 DeepMind 부문 제품 부사장인 Eli Collins에 따르면 Gemini은 단순한 소프트웨어가 아닌 도움말 협업자처럼 느껴지는 AI로 나아가는 비전에 한 발 다가가게 해준다.

멀티미디어 기능, 특히 비디오 및 이미지 인식 능력을 추가할 때 중요한 변화가 예상된다. 그러나 실제 세계 데이터의 대량에서 훈련된 AI 모델의 기본적인 문제는 여전히 존재하며, 이러한 모델은 복잡한 프롬프트를 더 복잡한 응답으로 변환할 수 있지만 그 응답이 타당한지 실제로 옳은지 확신할 수 없을 수 있다. Google은 Bard를 사용할 때 "Bard는 부정확한 정보를 표시할 수 있으므로 답변을 확인해야 합니다"라고 경고한다.

 

Photo=Google AI server room
Photo=Google AI server room

Gemini는 Bard의 기반을 형성한 이전 언어 모델인 PaLM 및 PaLM 2의 후속 모델이다. Gemini는 텍스트, 프로그래밍 코드, 이미지, 오디오 및 비디오를 동시에 훈련시킴으로써 다양한 형태의 멀티미디어 입력을 효율적으로 처리할 수 있게 된다.

Google은 Gemini의 능력 일부를 보여주는 연구 논문에서 패턴 인식 및 다양한 도메인에서 문제 해결 능력을 시연했으며, 이미지 인식, 데이터 분석 및 물리 문제 해결과 같은 다양한 영역에서 작업을 수행하는 능력을 보여주었다. 그러나 Gemini의 실제 능력 범위는 아직 검증 중이며 라이브 시연이 제한적이다.

Google은 Gemini의 능력을 소개하는 비디오를 제공했지만, 나중에 이 비디오에 일부 역할 연기가 포함되어 있고 Gemini의 응답 시간을 완전히 반영하지 않았다는 점이 명확히 설명됐다. 그럼에도 불구하고 Gemini은 음성 및 비디오 입력 모두를 수용할 수 있다.

가장 고급 버전인 Gemini Ultra는 2024년에 예상되는 출시에 앞서 추가 검증을 받을 예정이다. Google은 책임 있는 개발에 헌신하고 AI 능력이 발전함에 따라 발생할 수 있는 잠재적인 위험을 해결하기 위해 이해관계자와 협력하고 있다.

<EOA>

 

Photo=AI VS AI (Copyright@Senmoney)
Photo=AI VS AI (Copyright@Senmoney)

<English Version: Original article>

Google's AI with Gemini Model vs. OpenAI's ChatGPT: The AI Showdown

Google has introduced a groundbreaking update to its Bard AI chatbot, enabling native understanding of video, audio, and photos through a new model called Gemini. This update is initially available in English and will be accessible to Google Pixel 8 phone owners, with plans for a wider rollout in the future.

The Gemini update enhances the AI's text-based chat abilities, improving its performance in complex tasks such as document summarization, reasoning, and even writing programming code. However, the major shift comes with the addition of multimedia capabilities, including the ability to understand hand gestures in videos and decipher children's dot-to-dot drawings.

Gemini is a significant departure in AI development, as it strives to bridge the gap between AI and human understanding of the three-dimensional, ever-evolving world. This new technology comes in three versions tailored for different levels of computing power:

  1. Gemini Nano: Designed for mobile phones and available in two variations to accommodate different levels of memory. It will power new features on Google's Pixel 8 phones, such as conversation summarization in the Recorder app and message reply suggestions in WhatsApp using Google's Gboard.

  2. Gemini Pro: Optimized for fast responses, this version runs in Google's data centers and powers an updated version of Bard.

  3. Gemini Ultra: Currently limited to a test group, this advanced version will be integrated into a new Bard Advanced chatbot expected to launch in early 2024. Pricing details for this premium capability have not been disclosed by Google.

Gemini represents Google's latest endeavor in the generative AI field, aiming to create AI models that mimic human understanding and interaction with the world. According to Eli Collins, a product vice president at Google's DeepMind division, Gemini brings us closer to the vision of AI as a helpful collaborator rather than just a piece of software.

 

Graphic=AI Server room (Copyright@Senmoney)
Graphic=AI Server room (Copyright@Senmoney)

Multimedia capabilities, including video and image recognition, will be the next significant step for Gemini. However, the challenges associated with AI models trained on vast quantities of real-world data persist, as these models may provide plausible but incorrect responses. Google advises users to double-check the information provided by Bard.

Gemini is a successor to Google's previous language models, PaLM and PaLM 2, which formed the foundation of Bard. By training Gemini on text, programming code, images, audio, and video simultaneously, it becomes more efficient at handling diverse forms of multimedia input.

Google demonstrated some of Gemini's capabilities in a research paper, showcasing its ability to recognize patterns and solve problems in various domains, including image recognition, data analysis, and physics problem-solving. However, the true extent of Gemini's capabilities is still under scrutiny, as live demonstrations have been limited.

Google did release a video showcasing Gemini's abilities, but it was later clarified that the video included some dramatizations and did not fully represent Gemini's response time. Nonetheless, Gemini can accept both spoken and video input.

The most advanced version, Gemini Ultra, is expected to undergo further testing before its anticipated release in 2024. Google is committed to responsible development and is actively collaborating with stakeholders to address the potential risks associated with advancing AI capabilities.

<EOA>

저작권자 © 센머니 (SEN Money) 무단전재 및 재배포 금지