Вопросы с тегами [oversampling]

-3

голосов
0

ответ
8

Просмотры

Когда я работал на логистической регрессии над выборкой. Я получаю ошибку .Can вы помочь мне как можно скорее

Во время работы передискретизации / при выборке с методом ROSE я получаю ошибку ниже. install.packages ( "ROSE") библиотека (ROSE) bal_data
Bhagya Shree
1

голосов
0

ответ
337

Просмотры

Не удается установить imblearn использовать поражал

Я пытался установить imblearn использовать поражал, и я думал, что это было успешным, но когда я печатаю это в моем Jupyter ноутбуков от imblearn.over_sampling импорта поражал, я получаю ImportError ошибки: не может импортировать имя 'поражал. Вы знаете, почему это может быть дело? Я использовал следующую команду для загрузки imblearn Конда установить -c Конда-горн несбалансированным учиться и получил подтверждение загрузки, когда он закончил.
Jane Sully
1

голосов
0

ответ
55

Просмотры

Несбалансированные данные, дерево регрессии и поражали передискретизации

Я пытаюсь построить бинарное дерево классификации с пакетом rpart в R на наборе данных, но общая точность достигается на модели является слишком высоким (99,8%?) И дерево огромно со многими расколами. Будет ли это быть признаком в overfitted модели? Минимальная сложность стоимости обрезка не вызывала обрезку дерев будут сильно отличаться от окрепли дерев при ф = 0. Если да, то это признак того, что набор данных может быть несбалансированным и, следовательно, я должен класс дополнительной выборки меньшинства (~ 15%) с использованием поражал? С другой стороны, как можно определить из результатов модели CART, если набор данных несбалансированные? Наконец, он с уверенностью сказать, что уменьшение размера набора данных является разумным жертвоприношением, чтобы сделать, когда речь заходит об использовании поражало, чтобы сбалансировать несбалансированный набор данных? Извините за много вопросов и огромное спасибо за вашу помощь.
Jonathan Tan
0

голосов
0

ответ
10

Просмотры

Как применять оверсемплинг поражали для текстовых данных для выполнения LDA после?

У меня есть набор данные несбалансированных твитов, и я хотел бы выполнить передискретизации с помощью модуля imblearn перед LDA (я использую gensim). Меня беспокоит то, что если я преобразовать мои данные в каком-то вектор (например, один горячее кодирование), будет генерировать Пронзил синтетические векторы правильно? Как я могу получить кол-матрицу для LDA?
sasha
1

голосов
1

ответ
441

Просмотры

Как использовать более-выборочные данные в перекрестных проверках?

У меня есть набор данных несбалансированной. Я использую поражал (Synthetic Minority передискретизации Техника) для выполнения передискретизации. При выполнении двоичной классификации, я использую 10-кратные проверки кросса по этому набору данных с избыточной дискретизацией. Тем не менее, я недавно наткнулся на эту бумагу; Совместное использование переедание и отбор проб и метода перекрестной проверки для разработки и оценок моделей прогнозирования, которые упоминают, что неправильно использовать передискретизацию набор данных во время перекрестной проверки, поскольку это приводит к оптимистичным оценкам производительности. Я хочу, чтобы проверить правильность подхода / процедуры с использованием более-выборочными данных в перекрестных проверках?
J Cena
1

голосов
1

ответ
124

Просмотры

Передискретизации или поражал в Pyspark

У меня 7 классов и общее количество записей 115, и я хотел, чтобы запустить модель Random Forest над этими данными. Но, так как данные не достаточно, чтобы получить высокую точность. Поэтому я хотел применить дискретизацию по всем классам таким образом, что само большинство класса получить более высокий счет, а затем меньшинство соответственно. Возможно ли это в PySpark? + --------- + ----- + | Подтриба | кол | + --------- + ----- + | Холод | 10 | | Круто | 18 | | Приключения | 18 | | Причуда | 13 | | Mystery | 25 | | Сторона | 18 | | Гламурные | 13 | + --------- + ----- +
Surbhi Jain
1

голосов
1

ответ
1.1k

Просмотры

Использование перебили Gridsearchcv в Scikit учиться

Я имею дело с несбалансированным набором данными и хочу, чтобы сделать поиск сетки на параметрической настройку моей модели с помощью gridsearchcv scikit в. Для дополнительной выборки данных, я хочу использовать поражал, и я знаю, что могу включить, что в качестве стадии трубопровода и передать его в gridsearchcv. Меня беспокоит то, что я думаю, ударив будет применяться и к железнодорожной станции и проверкам складок, которые не то, что вы должны делать. Набор проверки не должна быть избыточной дискретизацией. Правильно ли я, что весь трубопровод будет применяться к обоим наборам данных расколов? И если да, то как я могу повернуть вокруг этого? Заранее большое спасибо
Ehsan M
2

голосов
1

ответ
24

Просмотры

Правильное разделение значений зависимых переменных в машинном обучении?

Я делаю машину модель обучения в Python и есть только категориальные переменные в наборе данных. Я хочу точность минимум 90% (по стоимости 1 в зависимой переменной). В исходных данных (необработанные Наивысший данные, которые я вытащил из базы данных) соотношение от 1 до 0 было 61:39, однако это изменяется. Два месяца назад соотношение было 75:25. Я не получал точности я хотел с этими данными. После нескольких проб и ошибок я понял, что если соотношение 1 к 0 было 85:15, то я могу получить точность как для 1 и и 0) и выше 90%. Другими словами предсказания для обоих 1 и 0 были более чем на 90% правильно. Имейте в виду, я не делал в течение выборки или при выборке. Я просто удалил некоторые строки с зависимым переменным значением с 0, чтобы получить соотношение 1: 0, как 85:15. Я хочу знать, является ли этот подход является правильным. Спасибо
Manish
2

голосов
1

ответ
590

Просмотры

Как dataframe с дополнительной выборки в Pyspark?

Как dataframe с дополнительной выборки в pyspark? df.sample (фракции, семена) Какой только образец фракции ФРА, она не может дополнительную выборку.
Stevven
1

голосов
1

ответ
1k

Просмотры

Duplicating training examples to handle class imbalance in a pandas data frame

обучающий набор несбалансированный (8 образцов имеют класса 0, в то время как только 2 образцов имеют класс 1). Я хотел бы дополнительную выборку обучающего набора. В частности, я хотел бы дублируя образцы обучения с 1-го класса, так что обучающий набор сбалансирован (то есть, где число образцов с классом 0 примерно такое же, как количество образцов с 1-го класса). Как я могу это сделать? В идеале я хотел бы решение, которое может обобщать к мультиклассируют настройки (т.е. целого числа в столбце класса может быть более чем 1). Как я могу это сделать? В идеале я хотел бы решение, которое может обобщать к мультиклассируют настройки (т.е. целого числа в столбце класса может быть более чем 1). Как я могу это сделать? В идеале я хотел бы решение, которое может обобщать к мультиклассируют настройки (т.е. целого числа в столбце класса может быть более чем 1).
Franck Dernoncourt
2

голосов
0

ответ
242

Просмотры

Мульти-Класс Классификация: поражали передискретизации для нескольких столбцов в строке

Я несбалансированный набор данные содержатся в dataframe под названием city_country, который состоит из 5 колонок: Содержание твит = препроцессор типа события (например, чирикать относится к землетрясению = «землетрясению», тайфун = «тайфуну» и т.д.) = event_type Широта где твит был отправлен = лат Долгота где твит был отправлен = длинный метка события (например, чирикать относится к землетрясении = 1, тайфун = 2 и т.д.) = event_id в dataframe называется city_country, класс (event_id) является несбалансированным. Перед испытанием предсказательной силы различных текстовых классификаторов, чтобы предсказать event_id от содержания твит (препроцессор), я хочу, чтобы классы дополнительной выборки меньшинств. Важно, что, когда я дублировать записи, относящиеся к классам меньшинств, которые я дублируют все 5 колонок. over_sampling импорта поражал см = поражал (random_state = 12) x_train_words_sm, y_train_words_sm = sm.fit_sample (x_train_words, y_train) # Подсчитать количество вхождений в y_train устанавливает для того, чтобы передискретизации работал с коллекции импорта Счетчик class_check_woSMOTE = счетчик (y_train) class_check_words = Счетчик (y_train_words_sm) Насколько мне известно, использование поражал в imblearn.over_sampling требует, чтобы вы кормите реальные значения (не строки), и только 2 значения - «х» и «у». В этом случае, «х» мой vectorised обучающего множество твитов и «у» мой лейбл события. Есть ли способ для меня, чтобы просто разделить мою dataframe в учебных и тестовых наборов, а затем передискретизации все 5 столбцов для классов меньшинств, так что на выходе будет больше dataframe, который содержит все 5 колонок? Затем я могу использовать это, чтобы предсказать event_id и мы надеемся выполнить эквивалент ВПР, так что я могу присоединиться к чирикать с его соответствующими широты и длинных значений.
2

голосов
1

ответ
77

Просмотры

Get pixel coordinates from ra, dec after oversampling FITS image

Я ищу способ, чтобы найти координаты пикселя на моем FITS изображения, которые соответствуют ра и Дес позиции объекта в градусах, после передискретизации. Это было бы просто, если бы я не был передискретизацией, но мне нужно. Учитывая неизмененном ПОДХОДИТ изображение, я могу сделать: от astropy.wcs импорта WCS ра, разл = (43,603, 31,029) ш = WCS ( 'myimage.fits') х, у = w.all_world2pix (ра, дец, 1) # это дает мне пиксельные координаты объекта в положении (ра, декабрь) Однако, когда я дополнительная выборку его, а затем попытаться найти координаты пикселя, то, очевидно, не является точным, так как (ра, декабрь) больше не точна для передискретизация изображение. Так как я передискретизации 5x5, я попытался просто умножив свой х, у выше на 5. Но когда я приближать на данный момент в DS9, он показывает объект от центра, так что я не думаю, что это работает. Ниже моя передискретизации часть кода, так как это может помочь понять, что. Здесь данные только 2D NumPy массив данных, содержащихся в моем оригинале ПОДХОДИТ изображение. от astropy.nddata импорта Cutout2D импорта NumPy в нп от SciPy импорта интерполировать четкости передискретизации (data_set, N): размер = 120 размер #pixel моей коробки рубильник geom_ctr = (np.shape (data_set) [0] // 2, нп. форма (data_set) [1] // 2) вырез = Cutout2D (data_set, geom_ctr, размер) .data Y, х = np.shape (вырез) х = np.linspace (0, 0,5, х) у = np.linspace (0, 0,5, Y), F = interpolate.interp2d (х, у, рубильник, вид = 'кубическая') Xnew = np.linspace (0, 0,5, х * Н) Ynew = np.linspace (0, 0,5, Y * N) new_data = f (Xnew, Ynew) возвращает new_data resampled_data = передискретизации (данные, 5) Если кто имеет какие-либо идеи о том, как я мог бы восстановить точные пиксельные координаты после передискретизации, это было бы прекрасно. Спасибо!
curious_cosmo
2

голосов
0

ответ
20

Просмотры

Как применять технику поражала (передискретизацию) перед словом вложения слоя

Как применить алгоритм поражал прежде, чем слово вложения слоя в LSTM. У меня есть проблема текст бинарной классификации (Good (9500) или Bad (500) обзора с общими 10000 обучающей выборки, и это несимметричный образец обучения), средней в то время как я использую LSTM с заранее подготовленными словами-вложениями (100 размерностью пространства для каждое слово), а также, так что каждый учебный вход имеет идентификатор (в общей сложности 50 идентификаторов с нулями, как хорошо, когда текстовое описание оказывает меньшее, чем 50 слов и обрезается до 50, когда описание превысило 50 символов) словаря слов. Ниже мой общий поток,
user1531248

Связанные вопросы