![]() |
| Phó Tổng Biên tập VnExpress Nguyễn Thu Hương. (Ảnh: THÀNH ĐẠT) |
Phóng viên: Trong bối cảnh AI đang được tích hợp sâu vào quy trình sản xuất và phân phối nội dung, thưa bà, việc VnExpress ngay từ những ngày đầu thành lập đã sử dụng dữ liệu để điều phối nội dung có ý nghĩa như thế nào trong việc triển khai và tối ưu các ứng dụng AI hiện nay?
Phó Tổng Biên tập VnExpress Nguyễn Thu Hương: Xuất phát điểm là một báo điện tử giúp chúng tôi có một số thuận lợi như sau:
Báo có nguồn tài nguyên sạch, đồng bộ được lưu trữ liền mạch, gần như không đứt gãy. Đây là nguồn tài nguyên quan trọng để đào tạo AI.
Tư duy sản xuất và quản trị vận hành cũng sớm thích nghi với sự phát triển của công nghệ. Tại VnExpress, công nghệ không phải là công cụ hỗ trợ mà là hạ tầng cốt lõi. Quy trình tác nghiệp của tòa soạn được thiết kế chung quanh hệ thống quản trị nội dung do Báo làm chủ.
Khi đưa AI vào quy trình, đội ngũ phóng viên, biên tập viên của chúng tôi không gặp rào cản đáng kể nào về tâm lý hay xung đột về thói quen tác nghiệp. Sự chuyển đổi từ "Tòa soạn số" sang "Tòa soạn AI-first" diễn ra khá tự nhiên vì các nhà báo đã quen làm việc dựa trên dữ liệu, đo lường hiệu suất bằng các chỉ số cụ thể.
Tiếp nữa là khả năng làm chủ và may đo giải pháp. VnExpress có một đội ngũ kỹ sư công nghệ luôn đồng hành sát sao cùng người làm nội dung. Năng lực công nghệ nội tại tích lũy nhiều năm giúp chúng tôi tự triển khai, thử nghiệm và liên tục tinh chỉnh các thuật toán AI để phục vụ các bài toán đặc thù của VnExpress.
Thí dụ như cá nhân hóa giao diện theo thời gian thực dựa trên mô hình hành vi của từng độc giả; tự động hóa luồng phân phối nội dung đa kênh; tích hợp các trợ lý AI vào quy trình biên tập, từ tự động gắn siêu dữ liệu đa tầng cho đến cấu trúc chuẩn SEO theo chuẩn riêng của tòa soạn…
Chúng tôi không nhìn AI như một làn sóng thời thượng mà xem đó là sự tiến hóa tất yếu. AI là công cụ giải phóng sức lao động cho nhà báo, giúp họ tập trung vào những giá trị cốt lõi nhất: sáng tạo nội dung chất lượng cao, có chiều sâu nhân văn và mang lại giá trị thiết thực cho cộng đồng.
Phóng viên: Để AI hoạt động hiệu quả trong tòa soạn, theo bà, dữ liệu cần được tổ chức và quản lý như thế nào? Các tiêu chí của một hạ tầng dữ liệu tốt đối với VnExpress là gì?
Phó Tổng Biên tập VnExpress Nguyễn Thu Hương: Về việc tổ chức và quản lý dữ liệu, chúng tôi thực hiện theo mô hình ba bước:
- Chuẩn hóa và gắn nhãn: Dữ liệu thô từ phóng viên, hành vi của độc giả được phân loại tự động ngay từ luồng vào. Mỗi bài viết đi qua hệ thống sẽ được AI và biên tập viên cùng gắn các tầng siêu dữ liệu (metadata) như: chủ đề, thực thể được nhắc đến (nhân vật, địa danh, thương hiệu), thuộc nhu cầu nào (góc nhìn hay truyền cảm hứng…) và định dạng (ảnh, video, đồ họa, bài báo dữ liệu…).
Việc gắn nhãn chuẩn xác giúp AI hiểu được bản chất nội dung để phân phối đúng người, đúng kênh.
- Tập trung hóa dữ liệu: Việc đổ tất cả dữ liệu về một kho tập trung theo mô hình Data Lakehouse giúp giải quyết được bài toán lớn nhất của các tòa soạn hiện đại là sự phân mảnh và độ trễ của thông tin.
Khi có Lakehouse, mọi nguồn dữ liệu từ bình luận, video, hình ảnh… đều quy về một mối, giúp tòa soạn có một góc nhìn toàn diện về mối tương quan giữa nội dung xuất bản và phản ứng của độc giả. Hệ thống có thể tổ chức dữ liệu theo các tầng rõ ràng (từ dữ liệu thô, đến dữ liệu đã được làm sạch, và dữ liệu sẵn sàng cho phân tích).
- Vòng lặp phản hồi liên tục: Quản lý dữ liệu AI là một quá trình động. Khi AI đưa ra một gợi ý bài viết cho độc giả hoặc một đề xuất chỉnh sửa tiêu đề cho biên tập viên, hành động tiếp theo của con người (độc giả có bấm vào không, biên tập viên có chấp nhận sửa không) chính là dữ liệu mới (gọi là dữ liệu phản hồi). Nguồn dữ liệu này được tự động thu thập để tái huấn luyện (re-train) giúp mô hình AI thông minh hơn mỗi ngày.
Chúng tôi không nhìn AI như một làn sóng thời thượng mà xem đó là sự tiến hóa tất yếu. AI là công cụ giải phóng sức lao động cho nhà báo, giúp họ tập trung vào những giá trị cốt lõi nhất: sáng tạo nội dung chất lượng cao, có chiều sâu nhân văn và mang lại giá trị thiết thực cho cộng đồng.
Phó Tổng Biên tập VnExpress Nguyễn Thu Hương
Đối với chúng tôi, một hạ tầng dữ liệu tốt cần bảo đảm được các tiêu chí:
- Tính thời gian thực: Độc giả vào báo để tìm kiếm thông tin nóng hổi. Nếu hạ tầng dữ liệu mất vài giờ để xử lý hành vi của người dùng thì các gợi ý bài viết liên quan của AI sẽ trở nên lỗi thời.
- Tính toàn vẹn và chất lượng dữ liệu: Nếu dữ liệu đầu vào bị nhiễu, sai lệch hoặc trùng lặp, AI sẽ đưa ra những phân tích sai hướng hoặc vi phạm các chuẩn mực báo chí.
- Khả năng mở rộng linh hoạt: Lượng dữ liệu của báo chí số tăng trưởng theo cấp số nhân mỗi ngày. Đặc biệt, trong những thời điểm có sự kiện lớn (thiên tai, sự kiện thể thao, sự kiện chính trị quan trọng), lượng truy cập và dữ liệu sinh ra có thể tăng đột biến gấp nhiều lần ngày thường.
- Bảo mật và tuân thủ quyền riêng tư: Việc bảo vệ dữ liệu cá nhân của độc giả và bảo mật tài nguyên nội dung của tòa soạn là nguyên tắc tối quan trọng.
![]() |
| Một góc tòa soạn VnExpress. (Ảnh: VnExpress) |
Phóng viên: Trong quá trình ứng dụng AI, đâu là những kinh nghiệm quan trọng nhất của VnExpress trong việc biến dữ liệu báo chí (bài viết, ảnh, video, metadata…) thành nguồn “nhiên liệu” hiệu quả cho các hệ thống AI, thưa bà?
Phó Tổng Biên tập VnExpress Nguyễn Thu Hương: Qua quá trình thực tế triển khai, chúng tôi đúc rút được bốn bài học cốt lõi:
- Dạy AI hiểu ngữ cảnh báo chí: AI không thể tự thông minh nếu chỉ ném cho nó một kho văn bản khổng lồ. Việc chuyển hóa dữ liệu phi cấu trúc (văn bản tự do, hình ảnh thô) thành dữ liệu có cấu trúc thông qua hệ thống metadata chuẩn chỉnh là bước đi quyết định để AI đưa ra các gợi ý chính xác, thay vì chỉ phân phối bài viết dựa trên các từ khóa (keywords) bề nổi.
- Sự kết hợp của con người: Không có mô hình AI nào tự hiểu được các "lằn ranh đỏ" về mặt biên tập, sự nhạy cảm chính trị hay chuẩn mực đạo đức báo chí nếu không có sự định hướng và hiệu chỉnh liên tục từ các nhà báo có kinh nghiệm. Tại VnExpress, các biên tập viên kỳ cựu đều tham gia huấn luyện AI. Công việc này được thực hiện kiên trì qua nhiều tháng, nhiều năm giúp các mô hình AI có độ hoàn thiện ngày càng cao.
- Đa dạng hóa và đồng bộ hóa: Muốn tối ưu hóa trải nghiệm độc giả, hạ tầng dữ liệu của tòa soạn phải có năng lực xử lý đa phương thức (multimodal), để AI có thể hiểu đồng thời cả văn bản, âm thanh và hình ảnh trong cùng một chỉnh thể.
- Vệ sinh dữ liệu liên tục: Nuôi AI bằng dữ liệu sạch và cập nhật quan trọng hơn rất nhiều so với việc nuôi AI bằng một khối lượng dữ liệu khổng lồ nhưng hỗn độn. Ở VnExpress, những dữ liệu hành vi bất thường, như thời gian ở lại trang ngắn một cách phi lý của lượt truy cập tự động, sẽ bị loại bỏ khỏi mô hình huấn luyện.
Chúng tôi trân trọng từng bài viết, từng click chuột của độc giả, coi đó là những viên gạch để xây dựng nên một tòa soạn thông minh hơn, phục vụ công chúng tốt hơn mỗi ngày.
Phóng viên: Trân trọng cảm ơn Phó Tổng Biên tập VnExpress Nguyễn Thu Hương. Nhân Ngày Báo chí cách mạng Việt Nam (21/6), kính chúc nhà báo nhiều sức khỏe và thành công!












Ý kiến bạn đọc